LoveRead.info » Книги » Домашняя » Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд

Книгу Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

124 0 09:06, 11-04-2022
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд
11 апрель 2022
Автор: Дэвид Хэнд Жанр: Книги / Домашняя Год публикации: 2021
0 0

Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читать онлайн бесплатно без регистрации

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.
    1 ... 24 25 26 27 28 29 30 31 32 ... 80
    Перейти на страницу:

    Другой тип ошибки, связанной с человеческим фактором, повлиял на исход миссии NASA Genesis. Космический зонд успешно взял образцы частиц солнечного ветра с лунной орбиты и доставил их обратно, но на последней стадии полета, во время посадки в Юте, он потерпел крушение. Причина: неверные данные от акселерометров зонда, которые были установлены задом наперед, так что аппарат ускорялся, приближаясь к поверхности Земли, вместо того, чтобы замедляться.

    Менее очевидная проблема заключается в том, что пригодность данных может со временем снижаться. Это происходит не потому, что данные портятся, подобно гниющим фруктам, а в силу того, что мир вокруг нас меняется. Вы думаете, например, что на ваш сберегательный счет по-прежнему начисляют 3 % в год, но при обращении в банк испытываете легкий шок, обнаружив, что ставка была снижена без всякого уведомления. Данные, относящиеся к людям, особенно подвержены устареванию (DD-тип 7: данные, меняющиеся со временем) по той простой причине, что меняются сами люди.

    Что еще хуже (и в следующих главах мы это подробно рассмотрим), данные могут искажаться людьми преднамеренно. Исследование, проведенное Бюро переписи населения США в 1986 г., показало, что 3–5 % счетчиков причастны в той или иной форме к фальсификации данных, потому что слишком ленивы для настоящей работы по их сбору[56]. Американский статистик Уильям Крускал утверждал, что «достаточно проницательный человек, обладающий здравым смыслом и склонностью к цифрам, может взять почти любой структурированный и существенный набор данных или статистический сборник и менее чем за час обнаружить в нем странные числа»[57]. Медиааналитик Тони Твайман сформулировал закон, получивший известность как Закон Тваймана, который гласит, что любые численные данные, которые выглядят интригующе или как-то выделяются, обычно неверны[58]. Более того, ввиду гигантского количества ежедневно регистрируемых чисел следует ожидать, что какие-то из них будут введены неправильно. Например, в 2014 г. каждый день в мире совершалось около 35 млрд финансовых транзакций, и с тех пор это число только увеличилось. В своей книге «Принцип невероятности» (The Improbability Principle) я подробно рассматриваю проблему ошибочных записей при таком большом количестве цифр.

    Специалисты в области глубинного анализа данных, которые занимаются поиском любопытных или полезных аномалий в больших наборах данных, называют следующие причины возникновения необычных структур в таких наборах (в порядке убывания их важности):

    ● проблема на уровне самих данных (возможно, они были повреждены или искажены в процессе сбора, или частично отсутствуют);

    ● аномалии обусловлены случайными колебаниями (иначе говоря, речь идет о единичных значениях, которые не несут в себе существенной информации);

    ● структуры уже известны (как, например, в случае открытия того факта, что люди часто покупают сыр и крекеры вместе);

    ● структуры не представляют интереса (если, например, обнаружено, что около половины женатых людей в Великобритании – женщины).

    Пока все эти факторы не исключены, необычная структура не может называться реальной, интересной или потенциально ценной. Для нас же важно то, что большинство аномалий в этой области, кажущихся на первый взгляд открытиями, – не что иное, как иллюзии, вызванные проблемами на уровне данных.

    Учитывая вышесказанное, неудивительно, что, по подсчетам IBM, «низкое качество данных обходится экономике США примерно в $3,1 трлн в год»[59]. Однако верна ли эта оценка?

    Во-первых, все зависит от того, что именно она включает в себя: входит ли в оценку стоимость выявления проблем с данными, исправления допущенных ошибок, а также их последствий? Во-вторых, в контексте ВВП США, который составляет около $20 трлн, сумма $3,1 трлн кажется неоправданно большой, и у меня возникает вопрос, не является ли сама эта оценка «данными низкого качества»?

    Недостатки приборов

    Влияние человеческого фактора огромно, но не только люди допускают ошибки: порой из строя выходят измерительные приборы, что тоже влечет за собой скрытые проблемы с темными данными. По крайней мере если неисправность прибора не обнаружить сразу, то он какое-то время будет регистрировать нулевые или просто неверные значения. Помните эти драматичные моменты в фильмах, когда сигнал на кардиомониторе обрывается и мы видим недвусмысленную прямую, сопровождаемую жутким писком? Так вот, точно такую же картинку можно получить, если сенсоры просто свалятся с пациента.

    Один из моих аспирантов работал над проектом по исследованию влияния неблагоприятных погодных условий, таких как сильные ветра и ливни, на телекоммуникационные сети. Он собрал данные из подробных отчетов об авариях в сетях и их ремонте, а также из метеосводок (фактически связывая наборы данных, как это описано в следующем разделе). Будучи толковым студентом, прежде чем приступить к анализу, он внимательно изучил сами данные, отобразил их графически и так и этак, выискивая аномальные значения, и в результате заметил нечто очень странное. Необработанные цифры показывали, что часто ровно в полночь на сотовые вышки обрушивались ураганные порывы ветра. Это выглядело тем более таинственно, что никто почему-то о них не мог вспомнить. И действительно, записи Метеорологической службы подтверждали, что ничего подобного вроде бы не происходило.

    У зловещей загадки оказался забавный ответ. Копая глубже, аспирант обнаружил, что в полночь установленные на вышках анемометры, измеряющие скорость ветра, автоматически перезагружались. И иногда в этот момент они выдавали сигнал сильного порыва ветра, что, конечно, не имело отношения к действительности. Если бы мой ученик не понимал необходимости тщательно проверять данные, их анализ привел бы к абсурдным выводам. Но, к счастью, он заметил проблему и смог ее решить.

    Неисправность приборов может обойтись очень дорого. В 2008 г. бомбардировщик ВВС США B-2 Spirit потерпел крушение на Гуаме из-за неверных данных, переданных намокшими датчиками. Экипаж полагал, что самолет набрал необходимую для взлета скорость 140 узлов, тогда как на деле она была на 10 узлов меньше.

    1 ... 24 25 26 27 28 29 30 31 32 ... 80
    Перейти на страницу:
    1. Жалоба
    Отзывы - 0

    Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


    Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

    • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
    • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
    • 3. Просьба отказаться от нецензурной лексики.
    • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

    Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.


    Установить VPN и читай слушай бесплатно

    Новые отзывы

    1. Ксения Ксения24 июнь 18:50 Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый... В самом Сердце Стужи. Том VII - Александр Якубович
    2. Riya Riya23 июнь 00:13 Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса  більше було і... По праву вражды и истинности - Виктория Вашингтон
    3. awaynice awaynice21 июнь 16:59 Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая.... Эхо забвения - Хелен Гард
    Все комметарии
    Новинки бесплатной онлайн библиотеки