Big Data простым языком - Алексей Благирев
Книгу Big Data простым языком - Алексей Благирев читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
349 0 06:17, 27-05-2019Книга Big Data простым языком - Алексей Благирев читать онлайн бесплатно без регистрации
В январе 2017 года Йошихиро Сато скончался при невыясненных обстоятельствах[108]. Оказалось, большинство его работ по клиническим исследования содержат сфабрикованные данные, которые впоследствии были опровергнуты научным сообществом. Он стал автором крупнейшего скандала в науке с подделкой данных.
Годом ранее Марк Болланд из университета Окланда (Новая Зеландия) провел статистические исследования с использованием данных господина Сато за все 15 лет работы и выявил, что большинство его исследований – подделка. Даже соавторы в большинстве работ, как оказалось, не знали о своем участии и не участвовали в этих работах вовсе. Теперь ответ, каким образом Йошихиро Сато смог опубликовать более двухсот научных работ, лежал на поверхности. При более детальном изучении данных, открывались новые подробности о том, как он мог собирать 280 пациентов для своих исследований всего за два месяца или наблюдать 780 пациентов в течение 18 месяцев одновременно.
Для сравнения отмечу: нанять на работу 280 сотрудников за два месяца возможно, разве что для простой работы, например, контакт-центр или поддержки. Найти квалифицированных специалистов или, как было указано в исследовании, пациентов с конкретной болезнью – очень проблематично.
Судьбы людей вершились исключительно при использовании данных. Болланд никогда лично не встречался с Сато и впервые о нем услышал только в 2012 году, когда его коллега доктор Алисия Авенелли рассказала ему о странных данных в исследованиях Сато[109], которые при проверке оказались слишком научными.
Первый контакт состоялся в Марте 2013 года, когда Болланд и Авенелли написали в журнал Американской Медицинской Ассоциации – наиболее уважаемый журнал из тех, которые публиковали статью и исследования Сато. Главный редактор журнала дал указание обратиться к Сато и его институту, чтобы получить пояснения по выявленным в данных фактам.
Через два года, в апреле 2015-го, никакого ответа не пришло, в связи с чем журнал опубликовал результаты расследования и претензию к полученным и ранее опубликованным результатам Сато. Репутация Сато была настолько высокой, что журналы не решались поначалу идти против него и предъявлять обвинения в искажении результатов.
К декабрю 2016 года только 10 из 33 опытов были опровергнуты, когда вышло очередное расследование в журнале «Нейрология».
Только пять процентов[110] из опубликованных исследований приходят из Японии, поэтому такой удар по научной среде привел к потере репутации для японских ученых. Остается загадкой, зачем Йошихиро Сато подделывал так много результатов своих работ и фальсифицировал данные.
На сегодняшний день он занимает шестую строчку по количеству отозванных результатов клинических исследований[111].
На первом месте в этом списке находится японский ученый Йошитака Фуджи, который занимался клиническими исследованиями в области анестезии. Согласно отчету, опубликованному 8 марта 2012 года, во всех 169-ти клинических испытаниях данные были искажены и сфабрикованы (в общей сложности для 171-го исследования).
На втором месте находится Хоаким Болд с исследованиями в области грудной хирургии, который так же был уличен в подделке данных[112].
На третьем месте – Дидерик Штапель со своими сфабрикованными исследованиями в области социальной психологии[113]. В целом масштаб таких проблем в науке поражает. Эти имена – лишь верхушка айсберга.
Спасти эту ситуацию может блокчейн. Одно из решений – платформа Frankl[114], которая интегрирует всех ученых в единую открытую сеть. Туда можно загружать данные и делиться ими друг с другом для проверки чужих или проведения своих подобных исследований. Если не вдаваться в подробности, то Frankl пытается создать распределенную сеть, где можно будет контролировать качество данных, что фактически снизит размер потенциальных фальсификаций.
Регистрировать все метаданные на блокчейне – самый простой шаг, но очень мощный, чтобы контролировать полноту данных, используемых в исследованиях.
Итак, метаданные – это в первую очередь явление чисто человеческое, то есть, его нет в природе. Человек разработал его специально для себя, чтобы обрабатывать большие объемы информации и оптимизировать поиск необходимого контента. Метаданные уже спроектированы и во многом генерируются автоматическими устройствами.
С другой стороны, мы вовсе не коснулись проектирования баз данных. И это хорошо, потому что это очень занудная для обычного читателя тема. Если кратко, то при проектировании сложных экосистем метаданные используются для управления потоками загрузки и обработки данных. Они формируют управляющую логику того, как данные собираются и обрабатываются.
Есть интересная работа, надеюсь, не поддельная, по оптимизации работы с базой данных Википедии[115]. В работе предложен специальный инструмент по управлению и архивированию исторических данных: индексы, каталоги, описание – все, что помогает оптимизировать поиск по историческим данным.
В зависимости от используемого решения систем хранения и обработки данных, на рынке предлагаются различные решения по управлению метаданными, использующими специальные сервера[116]. По версии «волшебного квадранта» Гартнера, лидером таких решений является Informatica[117]. Хотя, конечно, я слышал, что за то, чтобы попадать регулярно в этот квадрант, нужно платить определенную сумму, поэтому там нет начинающих или малоизвестных компаний.
Все эти решения отличаются как функциональными возможностями, так и пользовательским интерфейсом. Пользователями таких решений являются инженеры в области данных, они здесь самый ценный ресурс, так как этой компетенции, к сожалению, не обучают в ВУЗах, а количество специалистов на рынке стремится к минимуму.
Раньше процесс найма проходил в основном самостоятельно, в недрах IT. Сегодня за это должен отвечать отдельный лидер в организации. Но вопрос о том, где взять специалистов, по-прежнему актуален, поэтому приходится выкручиваться. Я, например, был сторонником того, чтобы поощрять горизонтальное движение сотрудников как внутри организации, так и за ее пределами.
Мы собирали ребят из службы IT-поддержки, потому что им по факту приходилось ковыряться в базах данных различных IT-систем, анализируя те или иные метаданные. Приглашали на работу сотрудников других компаний, которые занимались выпуском и проверкой финансовой отчетности. Такие люди понимают ценность данных и анализируют, в каких системах лежат наиболее ценные данные. Каждый такой кейс мы рассматривали отдельно.
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.
Оставить комментарий
-
Людмила Хофман10 июнь 22:13
У меня перевернулся мир после прочтения ваших книг! Так приятно и чисто на душе, ведь по сути неважно кто с кем , а только любовь...
Долгая игра - Рейчел Рид
-
Анна08 июнь 11:28
Спасибо за новую историю жизни и любви на сайте,прочитала с удовольствием ....
Давай поженимся - Юлия Резник
-
Елена08 июнь 11:13
Прочла несколько романов этого, без сомнения, талантливого автора. Впечатление прекрасное, но хотелось бы когда-нибудь прочесть...
Предатель. Ты врал мне годами - Арина Арская
