Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Книгу Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
245 0 10:01, 03-05-2023Книга Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман читать онлайн бесплатно без регистрации
Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.В формате PDF A4 сохранен издательский макет книги.
Открытия с помощью статистики
Статистика часто делится на описательную и индуктивную. Скорее всего, вы уже знакомы с описательной статистикой, даже если не используете это выражение. Описательная статистика – это числа, обобщающие некие данные, значения, которые вы видите в газете или на проекционном экране в офисе. Средние объемы продаж за последний квартал, рост по сравнению с прошлым годом, уровень безработицы и так далее. Такие показатели, как среднее значение, медиана, размах, дисперсия и стандартное отклонение, относятся к описательной статистике, и для их расчета требуются специальные формулы, которые во множестве встречаются в соответствующих учебниках.
Описательная статистика предполагает преднамеренное упрощение данных и позволяет, например, свести всю электронную таблицу с данными о продажах компании в несколько ключевых показателей. В аналогии с шариками описательная статистика предполагает простое суммирование шариков, оказавшихся в вашей руке.
Несмотря на полезность этой операции, мы редко на ней останавливаемся. Мы хотим сделать дополнительный шаг и понять, как мы можем сделать предположение о содержимом мешка на основании информации о шариках, оказавшихся в нашей руке. В этом заключается суть индуктивной статистики, которая позволяет «перейти от мира к данным, а затем от данных обратно к миру»[24]. (Подробнее об этом мы поговорим в главе 7.)
А пока давайте рассмотрим пример. Представьте, как бы вы отреагировали на заголовок «75 % американцев верят в существование НЛО!», зная о том, что этот результат был получен в ходе опроса 20 посетителей Международного музея и исследовательского центра НЛО в Розуэлле, штат Нью-Мексико. Как вы думаете, можно ли на основе подобного исследования сделать вывод об истинном проценте американцев, верящих в НЛО?
Главный по данным отнесся бы к такому результату весьма скептически, поскольку в данном случае показатель 75 % основан на:
– Предвзятой выборке. Люди, посещающие Розуэлл, с гораздо большей вероятностью верят в НЛО, чем среднестатистические жители США.
– Небольшой выборке. Вы уже знаете, какая значительная вариация может наблюдаться в выборке небольших размеров. Нет смысла делать выводы о том, что думают миллионы, на основе мнений 20 человек.
– Основополагающих допущениях. В заголовке говорится о том, что «американцы» верят в НЛО просто потому, что опрос был проведен в Америке. Однако данный музей – международная достопримечательность. Вы не можете быть уверены в том, что участники опроса были американцами.
Такие понятия, как предвзятость и размер выборки, – инструменты статистического вывода, помогающие нам понять, заслуживают ли доверия те статистические данные, которые мы видим или получаем в результате вычисления. Они – важная часть нашего инструментария. Основополагающие допущения также важно учитывать. Если вы хотите мыслить как главный по данным, не стоит принимать за чистую монету допущения, лежащие в основе высказанного вывода.
Сталкиваясь с какими-либо данными в своей работе, старайтесь не принимать предложенную информацию на веру и не прислушиваться к собственной интуиции.
Думайте статистически. Задавайте вопросы. Именно это делают главные по данным. В следующих главах вы найдете вопросы, которые помогут вам освоить статистический образ мышления.
Ресурсы для освоения статистического образа мышления
Ранее в этой главе мы сказали о том, что в ходе дальнейшего обсуждения статистического мышления мы собираемся лишь коснуться поверхности. К счастью, есть несколько отличных книг, в которых эта тема рассматривается более подробно. Больше всего нам нравятся следующие:
• «Damned Lies and Statistics: Untangling Numbers from the Media, Politicians, and Activists», Joel Best (University of California Press, 2001);
• «Как не ошибаться. Сила математического мышления», Джордан Элленберг (Издательство: Манн, Иванов и Фербер, 2021);
• «Как лгать при помощи статистики», Дарелл Хафф (Издательство: Альпина Паблишер, 2015);
• «Голая статистика. Самая интересная книга о самой скучной науке», Чарльз Уилан (Издательство: Манн, Иванов и Фербер, 2022);
• «Proofiness: How You’re Being Fooled by the Numbers», Charles Seife (Penguin Books, 1994);
• «(Не)совершенная случайность. Как случай управляет нашей жизнью», Леонард Млодинов (Издательство: Livebook, 2021);
• «Сигнал и Шум. Почему одни прогнозы сбываются, а другие – нет», Нейт Сильвер (Издательство: КоЛибри, 2016);
• «Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).
Подведение итогов
В этой главе мы заложили основы для освоения статистического образа мышления, от которых будем отталкиваться в следующих главах книги.
В частности, мы поговорили о важности вариаций и понимания их существования в контексте измеряемых нами вещей. Мы показали, что результаты опросов клиентов могут иметь широкий разброс не потому, что обслуживание было плохим (хотя и это возможно), а потому, что сам вопрос предрасполагает к даче совершенно разных ответов, которые до измерения могут характеризоваться как похожие.
Мы также поговорили о вероятности и статистике, которые помогают нам управлять вариациями, демонстрируя то, что некоторые из этих вариаций являются предсказуемыми, а некоторые не имеют значения в долгосрочной перспективе.
Теория вероятности позволяет нам двигаться от общего к частному, то есть делать выводы о небольшом фрагменте данных на основе знаний о совокупности информации. А статистика позволяет нам двигаться от частного к общему, то есть делать выводы о совокупности информации на основе доступных нам фрагментов. И теория вероятности, и статистика – инструменты, которые помогают нам узнать больше о полной картине, пока она остается для нас неясной. Наконец, мы поговорили об использовании знаний о теории вероятности и статистике для оттачивания навыка критического мышления.
Часть II
Говорите как главный по данным
Часть II, «Говорите как главный по данным», так же, как и первая, побуждает вас мыслить статистически и подвергать все сомнению. В ней вы найдете вопросы, которые следует задать, и вещи, которые следует обдумать независимо от того, о чьем проекте по работе с данными идет речь – о вашем или о чужом. Многие из этих вопросов отражены в названиях будущих разделов. Считайте это своеобразной подсказкой. Данная часть книги состоит из следующих глав:
Глава 4. Сомневайтесь в данных.
Глава 5. Исследуйте данные.
Глава 6. Изучайте вероятности.
Глава 7. Бросайте вызов статистике.
Прочитав эти главы, вы научитесь задавать правильные вопросы относительно данных и аналитики, с которыми будете сталкиваться на работе.
Глава 4
Сомневайтесь в данных
«Для извлечения разумного ответа из имеющейся совокупности данных одного страстного желания недостаточно»
Как главный по данным, именно вы должны подвергать сомнению данные, используемые в рамках того или иного проекта.
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.
Оставить комментарий
-
Ксения24 июнь 18:50
Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый...
В самом Сердце Стужи. Том VII - Александр Якубович
-
Riya23 июнь 00:13
Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса більше було і...
По праву вражды и истинности - Виктория Вашингтон
-
awaynice21 июнь 16:59
Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая....
Эхо забвения - Хелен Гард
