LoveRead.info » Книги » Домашняя » Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд

Книгу Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

124 0 09:06, 11-04-2022
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд
11 апрель 2022
Автор: Дэвид Хэнд Жанр: Книги / Домашняя Год публикации: 2021
0 0

Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читать онлайн бесплатно без регистрации

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.
    1 ... 18 19 20 21 22 23 24 25 26 ... 80
    Перейти на страницу:

    Эта ситуация отличается от той, в которой отсутствуют значения некоторых атрибутов для отдельных объектов, и от той, когда для отдельных объектов отсутствуют значения всех атрибутов. Здесь значения для определенного атрибута (или атрибутов) отсутствуют для всех объектов в базе данных. Все записи для такой переменной будут обозначены пробелами или словом «неизвестно», если вообще эта переменная была включена в исследование. Например, в предыдущем примере мы могли просто забыть спросить о том, сколько лет респондентам, поэтому у нас нет информации о точном возрасте ни одного из них. Или, возможно, мы не подумали о том, что возраст будет иметь значение, поэтому нам не пришло в голову задавать соответствующий вопрос. И для того и для другого имеются естественные причины: если исследование будет перегружено вопросами, это отрицательно скажется на уровне отклика, поэтому отбирать их приходится тщательно.

    Парадокс!

    Иногда последствия влияния темных данных DD-тип 5: неизвестный определяющий фактор могут буквально ставить в тупик.

    Трагедия «Титаника» – затонувшего океанского лайнера – известна всем. Но мало кто знает, что тщательное изучение показателей выживаемости среди пассажиров и членов экипажа выявило нечто любопытное[46]. Как видно из табл. 2, а, на судне было 908 членов экипажа, из которых выжило только 212 человек, то есть 23,3 %, а из 627 пассажиров третьего класса – тех, чьи каюты находились на нижних палубах корабля и кому было труднее выбраться, – выжил только 151 человек, то есть 24,1 %. Хотя показатели выживаемости в этих двух группах не сильно отличаются, тем не менее мы видим, что вероятность выживания пассажиров была несколько выше.

    Но давайте взглянем на показатели выживаемости мужчин и женщин по отдельности, приведенные в табл. 2, б.

    В экипаже насчитывалось 885 мужчин, из которых 192 выжили, показатель выживаемости составил 21,7 %. Среди пассажиров третьего класса 462 были мужчинами, 75 выжили, показатель составил 16,2 %. У членов экипажа мужского пола более высокая выживаемость, чем у мужчин из третьего класса.

    Из 23 членов экипажа женского пола выжили 20, что составляет 87,0 %. Среди пассажиров третьего класса было 165 женщин, 76 выжили, показатель выживаемости составил 46,1 %. Представительницы экипажа имеют более высокую выживаемость, чем пассажирки третьего класса.


    Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

    Минуточку, что происходит? В расчете для мужчин и женщин по отдельности экипаж имеет более высокий показатель выживаемости, чем пассажиры третьего класса. Однако в целом его выживаемость ниже.

    Здесь нет никакого трюка – цифры соответствуют действительности. Мы имеем дело с явлением, которое иногда так и называют парадоксом Симпсона, в честь Эдварда Симпсона, описавшего его в статье в 1951 г. (хотя это явление уже было описано как минимум на полвека раньше).

    Последствия парадокса Симпсона могут быть очень серьезными. Если бы мы не учитывали пол людей на «Титанике», то есть если бы эти данные отсутствовали, результаты нашего анализа показали бы, что пассажиры третьего класса с большей вероятностью выживут, чем члены экипажа. Но это утверждение было бы ложным в отношении мужчин или женщин в отдельности. Это означает, что если бы мы решили определить вероятность выживания человека вообще на борту лайнера, то получили бы неверную картину, поскольку он мог быть мужчиной или женщиной.

    Далее мы подробно рассмотрим, почему возникают подобные ситуации, но, думаю, уже вполне понятно, что их возможные последствия выглядят устрашающе. Конечно, никто и не думал регистрировать необъятное число характеристик всех, кто плыл на корабле. В то же время если любая из этих характеристик может повлиять на наши выводы, то пренебрегая ею, мы создаем отсутствующие данные, способные вводить в заблуждение. Возможно, это не так критично в случае с «Титаником», поскольку речь идет об исторических данных, но давайте рассмотрим другой пример.

    Предположим, мы проводим клиническое испытание, которое обсуждалось в предыдущей главе, сравнивая препарат А с препаратом Б. Для этого мы даем препарат А одной группе людей, а препарат Б – другой. Обе группы включают людей разных возрастов, и для удобства мы будем относить их либо к «младшим», либо к «старшим», в зависимости, скажем, от того, являются ли они моложе или старше 40 лет. Далее предположим, что в группе, принимающей препарат А, 10 младших и 90 старших, в то время как в группе, принимающей препарат Б, 90 младших и 10 старших.

    Теперь посмотрим на результаты, где чем выше значение, тем эффективнее препарат. Эти гипотетические результаты приведены в табл. 3.

    Предположим, средний балл для младших в группе А равен 8, а средний балл для младших в группе Б – 6, как показано в табл 3, а. Это говорит о том, что препарат А более эффективен для молодых, поскольку 8 больше 6.

    Аналогично для старших предположим, что средний балл в группе А равен 4, а средний балл в группе Б – 2, как во втором ряду значений табл. 3, а. Для старших препарат А также более эффективен, чем препарат Б.

    Хотя средний балл для старших ниже, чем для младших, очевидно, что и для тех и для других препарат А более эффективен, чем препарат Б. Мы определенно должны рекомендовать препарат А для всех возрастов.

    А как обстоит дело в целом? Общий средний балл всех людей, получающих препарат А, составляет (8 × 10 + 4 × 90)/100 = 4,4, тогда как общий средний балл всех, получающих препарат Б, равен (6 × 90 + 2 × 10)/100 = 5,6. Эти результаты отображены в табл. 3, б. В целом, когда мы игнорируем возраст пациентов, препарат Б получает более высокий балл, чем препарат A.


    Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

    Это означает, что если бы мы не регистрировали возраст пациентов, то есть при отсутствии этих данных, мы бы пришли к выводу, что препарат Б эффективнее, чем препарат A, хотя для младших A лучше, чем Б, и для старших A лучше, чем Б. Иначе говоря, А лучше, чем Б, для всех.

    Первое, что приходит в голову: мы должны регистрировать возраст при сборе данных. Это, конечно, хорошо, но мы можем также регистрировать и множество других переменных, любая из которых грозит поставить наши результаты с ног на голову. При этом мы не способны зарегистрировать все возможные переменные, а значит, темные данные будут всегда.

    Ключ к решению состоит в том, как именно рассчитывать общие средние значения. В примере с испытаниями препаратов в группе А старших намного больше, чем младших, в то время как для группы Б верно обратное. Это приводит к снижению общего среднего значения: 8 больше 6, а 4 больше 2, но если учесть подавляющую долю старших в группе при расчете среднего значения 8 и 4 и подавляющую долю младших при усреднении 6 и 2, то результат изменится на противоположный.

    1 ... 18 19 20 21 22 23 24 25 26 ... 80
    Перейти на страницу:
    1. Жалоба
    Отзывы - 0

    Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


    Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

    • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
    • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
    • 3. Просьба отказаться от нецензурной лексики.
    • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

    Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.


    Установить VPN и читай слушай бесплатно

    Новые отзывы

    1. Ксения Ксения24 июнь 18:50 Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый... В самом Сердце Стужи. Том VII - Александр Якубович
    2. Riya Riya23 июнь 00:13 Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса  більше було і... По праву вражды и истинности - Виктория Вашингтон
    3. awaynice awaynice21 июнь 16:59 Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая.... Эхо забвения - Хелен Гард
    Все комметарии
    Новинки бесплатной онлайн библиотеки