LoveRead.info » Книги » Домашняя » Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд

Книгу Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

124 0 09:06, 11-04-2022
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд
11 апрель 2022
Автор: Дэвид Хэнд Жанр: Книги / Домашняя Год публикации: 2021
0 0

Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читать онлайн бесплатно без регистрации

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.
    1 ... 71 72 73 74 75 76 77 78 79 80
    Перейти на страницу:

    ● DD-тип 8: неверно определяемые данные

    Определения могут быть противоречивыми или со временем меняться, чтобы лучше соответствовать своему предмету и его назначению. Это может вызвать проблемы в случае с экономическими (и другими) временными рядами, когда данные, лежащие в их основе, могут перестать собираться. В более общем смысле, если люди по-разному определяют понятия, они вполне могут сделать и разные выводы. Одним из примеров является уровень преступности в Великобритании, который оценивается по полицейским записям и по опросам потерпевших, где определения преступления неодинаковы.

    ● DD-тип 9: обобщение данных

    Обобщение данных по определению означает отбрасывание деталей. Если вы сообщаете только среднее значение, то не даете никакой информации о диапазоне данных или об асимметрии распределения. Среднее значение может скрыть тот факт, что некоторые значения могут очень сильно от него отличаться. В то же время обобщение может скрывать и тот факт, что все значения идентичны.

    ● DD-тип 10: ошибки измерения и неопределенность

    Ошибки измерения приводят к неопределенности истинного значения. Это легче всего понять, представив ситуацию, в которой диапазон погрешности измерения равен или больше, чем диапазон базовых истинных значений, – в этом случае наблюдаемое значение может сильно отличаться от истинного. Округление и нагромождение, верхний и нижний пределы избыточности и прочие эффекты вносят неопределенность в данные, скрывая их точные значения. Другой причиной неопределенности и неточности является связь данных, при которой идентифицирующая информация может храниться в разных формах, что приводит к ошибкам сопоставления.

    ● DD-тип 11: искажения обратной связи и уловки

    Этот тип данных возникает, когда собранные значения начинают влиять на исходный процесс – как в случае раздувания оценок и пузырей на рынках акций. Это означает, что данные искаженно представляют базовую реальность и, возможно, с течением времени все больше отдаляются от нее.

    ● DD-тип 12: информационная асимметрия

    Информационная асимметрия возникает, когда разные наборы данных хранятся у разных людей, и когда кто-то знает то, чего не знают другие. В качестве примера можно привести инсайдерскую торговлю, рынок «лимонов» Акерлофа и международную напряженность, вызванную ограниченной информацией о возможностях других государств.

    ● DD-тип 13: намеренно затемненные данные

    Эти случаи предумышленного отбора определенных фактов являются особенно проблематичными. Они наблюдаются, когда люди намеренно скрывают данные или манипулируют ими с целью обмана или введения в заблуждение. Мы видели, что такое мошенничество может возникать в очень разных контекстах и отношениях.

    ● DD-тип 14: фальшивые и синтетические данные

    Когда данные создаются искусственно, они могут вводить в заблуждение, как и в случае мошенничества. Однако существует метод симуляции, когда генерируются искусственные наборы данных, которые могли возникнуть в результате изучаемого процесса, а также другие методы, использующие репликацию данных, например методы бутстреппинга, бустинга и сглаживания. Современные статистические инструменты широко используют такие идеи, но некачественная репликация может привести к ошибочным выводам.

    ● DD-тип 15: экстраполяция за пределы ваших данных

    Наборы данных всегда конечны. Это означает, что они имеют максимальное и минимальное значения, за пределами которых лежит неизвестность. Заявление о возможных значениях выше максимума или ниже минимума в наборе данных требует выдвижения предположений или получения информации из какого-то другого источника. Опасность, которую несет этот тип темных данных, мы рассмотрели на примере катастрофы шаттла Challenger, запуск которого произошел при температуре окружающей среды ниже диапазона температур предыдущих запусков.

    Подведение итогов

    Я не погрешу против истины, если скажу, что в последние столетия бурному развитию цивилизации сопутствует прогресс науки о данных. В конце концов, слово «данные» почти синонимично слову «факты», а именно на фактах базируется технический прогресс и просвещение, которые за последние века привели к росту экономики и развитию общества.

    Если основой современного промышленного развития является ископаемое топливо, то данные сегодня – это «новая нефть». Так же, как это было некогда с нефтью, те, кто может эффективно контролировать данные и манипулировать ими, делают сегодня огромные состояния. Но еще более важным в этой аналогии является то, что подобно нефти данные необходимо очищать и предварительно обрабатывать, чтобы сделать их полезными. Борьба с загрязнением информации темными данными является примером такой очистки.

    Однако аналогия с нефтью имеет и свои слабые стороны. В отличие от цены на нефть, одинаковой для всех, ценность данных зависит от того, что конкретно вы хотите знать. Более того, в отличие от нефти, данные могут быть проданы или переданы без смены собственника – по своей природе они могут копироваться и воспроизводиться неограниченное число раз. И, конечно, данные могут быть темными: то, чего у вас нет, может существенно ограничить то, что у вас есть. Помимо прочего, с данными связаны такие вопросы, как неприкосновенность частной жизни и конфиденциальность, которые просто не имеют аналогий в мире нефти. Данные представляют собой нечто большее, чем просто новый товар. Именно поэтому правительства прилагают столько усилий для решения этических вопросов, связанных с управлением данными.

    В значительной степени революция данных была связана с данными наблюдений. В главе 2 мы познакомились с этим видом данных, описывающих естественную эволюцию процессов без явного вмешательства человека, и, как было показано, данные наблюдений особенно уязвимы для рисков, которые несут темные данные. Данные наблюдений контрастируют с экспериментальными данными, подразумевающими, что параметры воздействующих факторов контролируются. Кроме того, огромные объемы данных наблюдений генерируются автоматическими системами сбора информации и являются побочным эффектом различных административных операций.

    Классическим примером того, какие идеи можно извлечь из данных нового типа, служит проект «Миллиард цен». Альберто Кавалло и Роберто Ригобон из Школы менеджмента Слоуна извлекли огромное количество онлайн-цен из интернета и использовали их для построения индексов инфляции. На основе этого открытого источника данных они показали, что уровень цен и динамика инфляции в Бразилии, Чили, Колумбии и Венесуэле примерно совпадают. Кроме того, они обнаружили «в Аргентине большое необъяснимое расхождение между уровнями инфляции по онлайн-ценам и по официальной статистике»[166]. Простого объяснения этого несоответствия не было. Кавалло заключил: «Результаты для Аргентины подтверждают подозрение, что правительство манипулирует официальной статистикой по инфляции. Это единственная страна, где онлайн-инфляция с течением времени значительно отклоняется от официальных оценок».

    1 ... 71 72 73 74 75 76 77 78 79 80
    Перейти на страницу:
    1. Жалоба
    Отзывы - 0

    Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


    Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

    • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
    • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
    • 3. Просьба отказаться от нецензурной лексики.
    • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

    Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.


    Установить VPN и читай слушай бесплатно

    Новые отзывы

    1. Ксения Ксения24 июнь 18:50 Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый... В самом Сердце Стужи. Том VII - Александр Якубович
    2. Riya Riya23 июнь 00:13 Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса  більше було і... По праву вражды и истинности - Виктория Вашингтон
    3. awaynice awaynice21 июнь 16:59 Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая.... Эхо забвения - Хелен Гард
    Все комметарии
    Новинки бесплатной онлайн библиотеки