LoveRead.info » Книги » Домашняя » Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд

Книгу Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

124 0 09:06, 11-04-2022
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд
11 апрель 2022
Автор: Дэвид Хэнд Жанр: Книги / Домашняя Год публикации: 2021
0 0

Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читать онлайн бесплатно без регистрации

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.
    1 ... 9 10 11 12 13 14 15 16 17 ... 80
    Перейти на страницу:

    Запись с пробелами сразу показывает, что чего-то не хватает (DD-тип 1: данные, о которых мы знаем, что они отсутствуют). Однако, когда люди вообще отказываются отвечать на вопросы, мы имеем иной результат – DD-тип 4: самоотбор. Люди могут быть слишком заняты, могут воспринять опрос как вторжение в частную жизнь или просто не выходить на контакт (например, если их нет в городе на момент проведения исследования). Это тоже известные неизвестные в том смысле, что мы знаем, кто эти люди, поскольку они есть в списке выборки, а также знаем, что они могли бы дать ответы, если бы были готовы и имели возможность. Но, поскольку у нас нет их ответов, мы вынуждены находиться в неведении.

    Один из ярких примеров такого рода проблем дают президентские выборы 1936 г. в США. На основе опросов популярный журнал The Literary Digest много раз успешно определял победителей выборов, и в 1936 г. он предсказал, что победит кандидат от республиканцев Альфред Лэндон, а голоса разделятся в соотношении 3∕2. Тем не менее Франклин Рузвельт, кандидат от демократов, одержал уверенную победу, набрав 523 из 531 голоса коллегии выборщиков, 62 % голосов избирателей и получив большинство в 46 из 48 штатов.

    Результаты этих выборов и ошибочный прогноз The Literary Digest часто связывают с темными данными, полученными в ходе опроса. На этот счет есть разные теории, но все они сводятся к одной мысли: не стоило в качестве рамки выборки использовать телефонные справочники. В то время телефоны были чем-то вроде предметов роскоши и в основном принадлежали состоятельным людям, среди которых было больше сторонников республиканцев. Таким образом, в выборке была завышена доля людей, которые планировали голосовать против Рузвельта.

    Подобно попытке оценить средний возраст населения страны на основе выборок, сделанных в ночных клубах или домах престарелых, это объяснение ошибочного прогноза предполагает, что причина появления темных данных кроется вовсе не в отказе людей отвечать на вопросы, а в неправильном определении первоначального списка респондентов.

    Однако подробный анализ статистика Мориса Брайсона показывает, что этот упрощенческий подход является в корне неверным[22]. С одной стороны, он недооценивает те меры, которые предпринимали опросчики The Literary Digest, чтобы обеспечить репрезентативность выборки потенциальных избирателей. Они хорошо понимали факторы, которые могли привести к искажению этой выборки. С другой стороны, хотя в то время лишь около 40 % домохозяев имели телефоны, эти же 40 % представляли наиболее активную часть избирателей. Сей факт означает, что, несмотря на возможность появления темных данных в масштабе всего населения, их влияние было куда менее серьезным, если рассматривать владельцев телефонов как долю голосующего населения, что, конечно, имеет значение для выборов. Значение, которое может оказаться решающим: на референдуме 2016 г. о том, следует ли Великобритании покинуть Евросоюз, проголосовало 43 % тех, кто до этого заявлял, что «не интересуется политикой», в то время как на всеобщих британских выборах 2015 г. проголосовало лишь 30 % таких людей. Тот, кто утверждает, что будет голосовать за Х, должен реально проголосовать за Х, чтобы его утверждение стало верным.

    Что касается опроса избирателей на выборах Лэндон/Рузвельт, похоже, что популярная «телефонная» теория неверна. Тогда чем же объяснить провал опроса?

    Ответ по-прежнему лежит в области темных данных, но данных другого типа – куда более знакомых и понятных нам, живущим в эпоху сетевых опросов. Дело в том, что, хотя было разослано 10 млн анкет, лишь около четверти тех, кто их получил, то есть около 2,3 млн человек, потрудились ответить. Более трех четвертей опрошенных просто проигнорировали анкеты – их политические взгляды стали темными данными. Последствия очевидны. Если республиканские избиратели были более заинтересованы в выборах, чем сторонники Рузвельта (а все указывает на то, что это именно так), то они с большей вероятностью откликались на опрос. Это и создало впечатление большинства в пользу Лэндона – искаженное представление, которое обмануло The Literary Digest. Искажение самоотбора было устранено, когда состоялись настоящие выборы.

    Таким образом, это неожиданное расхождение прогноза и результатов выборов было следствием темных данных, но не из-за ошибок при составлении выборки, а по причине разной вероятности того, что республиканские и демократические избиратели вообще откликнутся на опрос. Причиной стала добровольность ответа (DD-тип 4: самоотбор).

    Поскольку рамка выборки на основе сложного анализа была определена правильно (то есть опросчики точно знали, кто имеет право голосовать), то можно было бы настроить ее, как это описано в главе 9. Но там, где рамка выборки определена неверно, такая настройка будет куда сложнее или даже попросту невозможна. В этом случае мы покидаем область DD-типа 1: данные, о которых мы знаем, что они отсутствуют, и перемещаемся в область DD-типа 2: данные, о которых мы не знаем, что они отсутствуют. Веб-опросы (о них мы поговорим чуть позже) особенно уязвимы для этого сценария.

    Надо признать, что ситуации, когда часть людей не отвечает на вопросы, как в примере с Лэндоном/Рузвельтом, бывают довольно сложными. Те, кто отказывается отвечать, могут существенно отличаться от тех, кто решил ответить: сам факт их неучастия в опросе уже показывает, что они в чем-то отличаются. Возможно, более склонными пройти опрос будут люди, проявляющие особый интерес к его теме, как в случае с Лэндоном/Рузвельтом. А может быть, это будут те, кто просто лучше информирован по данной теме. В Нидерландах проводилось исследование жилищных условий, которое показало, что более нуждающиеся люди чаще откликаются на опрос, поэтому может сложиться ложная общая картина[23]. В опросах на тему виктимизации так называемые серийные события, например домашнее насилие, которое не имеет конкретного начала и конца, могут не выявляться в ходе опросов, посвященных отдельным инцидентам. Кроме того, люди зачастую отказываются от участия, если им кажется, что на опрос уйдет слишком много времени. В целом, что касается опросов и не только, самоотбор служит наиболее опасным источником темных данных.

    Электоральные опросы, конечно, полезны, но, поскольку и государство, и бизнес все шире используют опросы как инструмент сбора информации, все больше становится и неадекватных ответов. Да и показатель отклика во всем мире падает. Проиллюстрируем это на примере обследования трудовых ресурсов Великобритании[24]. На рис. 2 показана доля тех, кто соглашался пройти опрос, по отношению ко всем, кому это было предложено, за каждый квартал с марта 2003 г. по сентябрь 2017 г. Эта доля снизилась за указанный период с более чем 65 % до 45 % и даже ниже. Такая однозначно нисходящая тенденция не способствует большой уверенности в выводах, которые будут сделаны на основе опросов в дальнейшем, если, конечно, не принять соответствующих мер.

    1 ... 9 10 11 12 13 14 15 16 17 ... 80
    Перейти на страницу:
    1. Жалоба
    Отзывы - 0

    Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


    Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

    • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
    • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
    • 3. Просьба отказаться от нецензурной лексики.
    • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

    Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.


    Установить VPN и читай слушай бесплатно

    Новые отзывы

    1. Ксения Ксения24 июнь 18:50 Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый... В самом Сердце Стужи. Том VII - Александр Якубович
    2. Riya Riya23 июнь 00:13 Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса  більше було і... По праву вражды и истинности - Виктория Вашингтон
    3. awaynice awaynice21 июнь 16:59 Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая.... Эхо забвения - Хелен Гард
    Все комметарии
    Новинки бесплатной онлайн библиотеки