LoveRead.info » Книги » Домашняя » Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд

Книгу Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

124 0 09:06, 11-04-2022
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд
11 апрель 2022
Автор: Дэвид Хэнд Жанр: Книги / Домашняя Год публикации: 2021
0 0

Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читать онлайн бесплатно без регистрации

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.
    1 ... 69 70 71 72 73 74 75 76 77 ... 80
    Перейти на страницу:

    Учитывая фундаментальную субъективность и неопределенность причин наших представлений о среднем росте населения, вполне понятна неуверенность, которая может у нас возникнуть в отношении того, стоит ли что-то утверждать или принимать решения на основании собственного мнения по этому вопросу. Вместо этого следует собрать данные, чтобы добиться большей объективности. И это именно то, для чего нужен байесовский подход к статистике. В соответствии с ним следует взять наши первоначальные мнения о возможных значениях среднего роста, называемые априорными убеждениями, а затем корректировать их по мере поступления новых реальных данных, что приводит к появлению апостериорных убеждений. Мы могли бы, например, измерить рост 100 случайно выбранных британцев, а затем использовать эти 100 значений, чтобы скорректировать или обновить наше первоначальное представление о среднем росте населения. Результатом будет новое распределение возможных значений среднего роста, которое будет представлять собой смещение первоначального распределения наших мнений в сторону наблюдаемых фактических значений. Если взять действительно большую выборку, то ее вес в определении среднего значения будет настолько велик, что влияние нашего первоначального представления окажется ничтожным. Этот процесс обновления или корректировки выполняется с использованием фундаментальной теоремы Байеса. С нашей точки зрения, теорема Байеса объединяет ненаблюдаемые темные данные с реально наблюдаемыми, чтобы получить новое распределение мнений о вероятном среднем росте. (Ладно, так и быть, скажу: Национальная статистическая служба Великобритании сообщает, что средний рост британских мужчин 1,75 м.)

    Вот другой пример. Ученые пытались определить скорость света еще в XVII в.: в 1638 г. Галилей установил, что она по меньшей мере в 10 раз превышает скорость звука; в 1728 г. Джеймс Брэдли назвал значение 301 000 км/с, а в 1862 г. Леон Фуко скорректировал его до 299 796 км/с. Мы можем суммировать эти и другие оценки, чтобы получить распределение мнений относительно возможных значений. Подробные результаты экспериментов могут быть утеряны – стать темными данными, но распределение мнений будет содержать соответствующую информацию. В конце XIX в. канадский астроном и математик Саймон Ньюком (тот самый, с которым мы уже встречались, говоря о распределении Бенфорда) провел дальнейшие эксперименты. В 1891 г. он опубликовал свои измерения, сделанные между 24 июля 1882 г. и 5 сентября 1882 г., в альманахе Astronomical Papers, издаваемом Американским офисом Морского альманаха[159]. Подробные измерения Ньюкома стали доступны для объединения с темными данными, скрытыми в распределении мнений на основе более ранних экспериментов, что улучшило это распределение. К слову сказать, на сегодняшний день наиболее точная оценка скорости света, которую мы имеем, составляет 299 792,458 км/с в вакууме.

    Байесовская статистика играет чрезвычайно важную роль – это одна из двух (или по другой версии трех) основных школ статистического анализа.

    Частная жизнь и защита конфиденциальности

    До этого момента мы старались взглянуть на существующие статистические процедуры и принципы работы с наблюдаемыми данными с точки зрения темных данных. Такая смена перспективы нередко приводит к новому пониманию. Но есть и другие способы использования темных данных. На самом деле, как мы сейчас увидим, сокрытие данных является центральным элементом эффективного функционирования современного общества: многие из наших обычных повседневных действий были бы просто невозможны без сокрытия данных.

    В главах 6 и 7 мы говорили о том, как мошенники скрывают информацию. Их цель – создать искаженное впечатление о происходящем: заставить вас поверить, что вам будет выгодна транзакция, тогда как на самом деле вы на ней потеряете, или скрыть правду о результатах эксперимента. Шпионы делают то же самое. Их настоящая цель, личность и, конечно же, реальное поведение скрыты от государств и корпораций. Шпионы не хотят, чтобы противник узнал об их замыслах, поэтому они стараются скрыть свою деятельность. В то же время шпионы пытаются добыть и передать своему руководству данные, которые противная сторона пытается сохранить в секрете. Но у всего есть обратная сторона и более высокий уровень осмысления, а уж тем более у шпионажа. Так, утечка определенных данных может быть выгодна государству, чтобы противник узнал ответы на свои вопросы и успокоился. В этот момент на сцене появляются двойные и тройные агенты, и наступает полная неразбериха, что от кого скрыто. Все моментально становится очень сложным!

    Но мошенники и шпионы не единственные, кто все время что-нибудь да скрывает. Подумайте: возможно, вы сами не заинтересованы в том, чтобы ваша медицинская или финансовая история стала достоянием общественности. Вас может смутить, если некоторые аспекты вашей жизни станут общеизвестными. В этом суть частной жизни, и статья 12 Всеобщей декларации прав человека не зря начинается следующими словами: «Никто не может подвергаться произвольному вмешательству в его личную и семейную жизнь…»

    Есть разные определения частной жизни. Это и право на уединение, и право на защиту от вмешательства государства, и возможность избирательно раскрывать себя миру. Все эти определения прекрасны, но они носят слишком общий характер, ведь конфиденциальность и сокрытие данных – вещи вполне конкретные. Вы используете секретные пароли для защиты своего банковского счета, учетных записей в социальных сетях, доступа к телефону, ноутбуку и т. д. Это означает как минимум две вещи: во-первых, ваши данные защищены от тех, от кого вы сами хотите их защитить, и, во-вторых, крайне важно уметь создать хороший пароль.

    Вы не поверите, но даже сейчас многие используют в качестве паролей по умолчанию такие последовательности, как password, 123456 и admin. (Самое время вспомнить анекдот с бородой про человека, который изменил все свои пароли на «неверный», чтобы система, когда он забудет их, сама подсказала: «Пароль неверный».) Это часто предустановленные на устройствах пароли, которые, по сути, являются тестовыми и должны прекращать свое существование после продажи носителя. Хакеры обычно начинают с просмотра именно этих паролей по умолчанию. Более общая базовая стратегия взлома паролей состоит в том, чтобы просто попробовать миллиарды различных комбинаций символов, что при наличии мощного компьютера может быть выполнено со скоростью полмиллиона комбинаций в секунду (здесь становится понятным, что прогон миллиона симуляций подбрасывания монеты занял у меня считаные секунды). Если у хакера есть хоть какая-то информация о вашем пароле (например, что он состоит только из цифр), то это значительно ускоряет поиск. Вот почему рекомендуется использовать в пароле буквы в обоих регистрах, а также цифры и специальные символы. Это значительно увеличивает словарь символов и создает намного больше возможных вариантов, которые хакер должен испробовать. 10 возможных цифр и пароль длиной восемь символов создают 108 вариантов, или 100 млн возможных паролей. Тестирование их со скоростью полмиллиона в секунду означает, что пароль может быть взломан максимум за 200 секунд, или три с небольшим минуты. В то же время, используя 10 цифр, 26 букв английского алфавита в обоих регистрах, а также, скажем, 12 специальных символов, вы увеличиваете число возможных паролей длиной восемь символов до 748, что составляет около 9 × 1014. При скорости полмиллиона комбинаций в секунду на их прохождение потребуется около 28,5 млн лет. Можно спокойно вздохнуть!

    1 ... 69 70 71 72 73 74 75 76 77 ... 80
    Перейти на страницу:
    1. Жалоба
    Отзывы - 0

    Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


    Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

    • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
    • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
    • 3. Просьба отказаться от нецензурной лексики.
    • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

    Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.


    Установить VPN и читай слушай бесплатно

    Новые отзывы

    1. Ксения Ксения24 июнь 18:50 Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый... В самом Сердце Стужи. Том VII - Александр Якубович
    2. Riya Riya23 июнь 00:13 Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса  більше було і... По праву вражды и истинности - Виктория Вашингтон
    3. awaynice awaynice21 июнь 16:59 Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая.... Эхо забвения - Хелен Гард
    Все комметарии
    Новинки бесплатной онлайн библиотеки