Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд
Книгу Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
124 0 09:06, 11-04-2022Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читать онлайн бесплатно без регистрации
● DD-тип 8: неверно определяемые данные
Определения могут быть противоречивыми или со временем меняться, чтобы лучше соответствовать своему предмету и его назначению. Это может вызвать проблемы в случае с экономическими (и другими) временными рядами, когда данные, лежащие в их основе, могут перестать собираться. В более общем смысле, если люди по-разному определяют понятия, они вполне могут сделать и разные выводы. Одним из примеров является уровень преступности в Великобритании, который оценивается по полицейским записям и по опросам потерпевших, где определения преступления неодинаковы.
● DD-тип 9: обобщение данных
Обобщение данных по определению означает отбрасывание деталей. Если вы сообщаете только среднее значение, то не даете никакой информации о диапазоне данных или об асимметрии распределения. Среднее значение может скрыть тот факт, что некоторые значения могут очень сильно от него отличаться. В то же время обобщение может скрывать и тот факт, что все значения идентичны.
● DD-тип 10: ошибки измерения и неопределенность
Ошибки измерения приводят к неопределенности истинного значения. Это легче всего понять, представив ситуацию, в которой диапазон погрешности измерения равен или больше, чем диапазон базовых истинных значений, – в этом случае наблюдаемое значение может сильно отличаться от истинного. Округление и нагромождение, верхний и нижний пределы избыточности и прочие эффекты вносят неопределенность в данные, скрывая их точные значения. Другой причиной неопределенности и неточности является связь данных, при которой идентифицирующая информация может храниться в разных формах, что приводит к ошибкам сопоставления.
● DD-тип 11: искажения обратной связи и уловки
Этот тип данных возникает, когда собранные значения начинают влиять на исходный процесс – как в случае раздувания оценок и пузырей на рынках акций. Это означает, что данные искаженно представляют базовую реальность и, возможно, с течением времени все больше отдаляются от нее.
● DD-тип 12: информационная асимметрия
Информационная асимметрия возникает, когда разные наборы данных хранятся у разных людей, и когда кто-то знает то, чего не знают другие. В качестве примера можно привести инсайдерскую торговлю, рынок «лимонов» Акерлофа и международную напряженность, вызванную ограниченной информацией о возможностях других государств.
● DD-тип 13: намеренно затемненные данные
Эти случаи предумышленного отбора определенных фактов являются особенно проблематичными. Они наблюдаются, когда люди намеренно скрывают данные или манипулируют ими с целью обмана или введения в заблуждение. Мы видели, что такое мошенничество может возникать в очень разных контекстах и отношениях.
● DD-тип 14: фальшивые и синтетические данные
Когда данные создаются искусственно, они могут вводить в заблуждение, как и в случае мошенничества. Однако существует метод симуляции, когда генерируются искусственные наборы данных, которые могли возникнуть в результате изучаемого процесса, а также другие методы, использующие репликацию данных, например методы бутстреппинга, бустинга и сглаживания. Современные статистические инструменты широко используют такие идеи, но некачественная репликация может привести к ошибочным выводам.
● DD-тип 15: экстраполяция за пределы ваших данных
Наборы данных всегда конечны. Это означает, что они имеют максимальное и минимальное значения, за пределами которых лежит неизвестность. Заявление о возможных значениях выше максимума или ниже минимума в наборе данных требует выдвижения предположений или получения информации из какого-то другого источника. Опасность, которую несет этот тип темных данных, мы рассмотрели на примере катастрофы шаттла Challenger, запуск которого произошел при температуре окружающей среды ниже диапазона температур предыдущих запусков.
Я не погрешу против истины, если скажу, что в последние столетия бурному развитию цивилизации сопутствует прогресс науки о данных. В конце концов, слово «данные» почти синонимично слову «факты», а именно на фактах базируется технический прогресс и просвещение, которые за последние века привели к росту экономики и развитию общества.
Если основой современного промышленного развития является ископаемое топливо, то данные сегодня – это «новая нефть». Так же, как это было некогда с нефтью, те, кто может эффективно контролировать данные и манипулировать ими, делают сегодня огромные состояния. Но еще более важным в этой аналогии является то, что подобно нефти данные необходимо очищать и предварительно обрабатывать, чтобы сделать их полезными. Борьба с загрязнением информации темными данными является примером такой очистки.
Однако аналогия с нефтью имеет и свои слабые стороны. В отличие от цены на нефть, одинаковой для всех, ценность данных зависит от того, что конкретно вы хотите знать. Более того, в отличие от нефти, данные могут быть проданы или переданы без смены собственника – по своей природе они могут копироваться и воспроизводиться неограниченное число раз. И, конечно, данные могут быть темными: то, чего у вас нет, может существенно ограничить то, что у вас есть. Помимо прочего, с данными связаны такие вопросы, как неприкосновенность частной жизни и конфиденциальность, которые просто не имеют аналогий в мире нефти. Данные представляют собой нечто большее, чем просто новый товар. Именно поэтому правительства прилагают столько усилий для решения этических вопросов, связанных с управлением данными.
В значительной степени революция данных была связана с данными наблюдений. В главе 2 мы познакомились с этим видом данных, описывающих естественную эволюцию процессов без явного вмешательства человека, и, как было показано, данные наблюдений особенно уязвимы для рисков, которые несут темные данные. Данные наблюдений контрастируют с экспериментальными данными, подразумевающими, что параметры воздействующих факторов контролируются. Кроме того, огромные объемы данных наблюдений генерируются автоматическими системами сбора информации и являются побочным эффектом различных административных операций.
Классическим примером того, какие идеи можно извлечь из данных нового типа, служит проект «Миллиард цен». Альберто Кавалло и Роберто Ригобон из Школы менеджмента Слоуна извлекли огромное количество онлайн-цен из интернета и использовали их для построения индексов инфляции. На основе этого открытого источника данных они показали, что уровень цен и динамика инфляции в Бразилии, Чили, Колумбии и Венесуэле примерно совпадают. Кроме того, они обнаружили «в Аргентине большое необъяснимое расхождение между уровнями инфляции по онлайн-ценам и по официальной статистике»[166]. Простого объяснения этого несоответствия не было. Кавалло заключил: «Результаты для Аргентины подтверждают подозрение, что правительство манипулирует официальной статистикой по инфляции. Это единственная страна, где онлайн-инфляция с течением времени значительно отклоняется от официальных оценок».
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.
Оставить комментарий
-
Ксения24 июнь 18:50
Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый...
В самом Сердце Стужи. Том VII - Александр Якубович
-
Riya23 июнь 00:13
Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса більше було і...
По праву вражды и истинности - Виктория Вашингтон
-
awaynice21 июнь 16:59
Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая....
Эхо забвения - Хелен Гард
