Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Книгу Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
245 0 10:01, 03-05-2023Книга Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман читать онлайн бесплатно без регистрации
Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.В формате PDF A4 сохранен издательский макет книги.
Вероятности и статистика
В нескольких предыдущих разделах мы говорили о вариации и о том, что она – источник неопределенности для многих бизнесов. Однако неопределенностью можно управлять, и именно здесь в игру вступают вероятность и статистика.
При описании математики, лежащей в основе результатов, мы часто используем термины «вероятность» и «статистика» как взаимозаменяемые. Давайте немного глубже разберемся в этих понятиях, чтобы по-настоящему осознать разницу между ними.
Представьте большой мешок со стеклянными шариками. Вы не знаете, какого они цвета. Вы не знаете ни их формы, ни размера. Вы даже не знаете, сколько их. Вы опускаете руку в мешок и вслепую берете горсть шариков.
Давайте остановимся на мгновение. У вас есть мешок, в который вы не заглядывали, и горсть стеклянных шариков в руке, которые вы никогда не видели. У вас нет никакой информации о том, что находится у вас в руке или в мешке.
И вот в чем разница. Теория вероятности позволяет вам угадать, что находится у вас в руке, если вам точно известно содержимое мешка. А статистика позволяет вам узнать о содержимом мешка на основании того, что оказалось у вас в руке.
Теория вероятности позволяет двигаться от общего к частному, а статистика – от частного к общему. Надеемся, так понятнее.
А теперь давайте рассмотрим два примера из реальной жизни.
– В основе работы казино Лас-Вегаса лежит вероятность. Каждый раз, когда вы играете в азартные игры, вы вытаскиваете из принадлежащего казино мешка шарики, которые являются либо выигрышами, либо проигрышами. Количество выигрышных шариков в этом мешке достаточно ровно для того, чтобы вы не утратили интерес к игре. Владельцы казино хорошо понимают суть вариации; более того, они ее коммерциализировали, оптимизировав выигрыши и проигрыши, чтобы поддерживать в вас определенный уровень интереса и возбуждения. Однако владельцы точно знают, что в долгосрочной перспективе казино окажется в выигрыше: именно они создали мешок, из которого игроки достают шарики, поэтому они точно знают, что внутри. Когда вы делаете ставку, кладете фишку на стол или дергаете за рычаг игрового автомата, казино точно знает вероятность вашего выигрыша. Если вы подумаете о том, каким количеством данных располагает казино, вы поймете, что они буквально живут в мире вариаций и при этом имеют четкое представление о возможных результатах.
– В основе политических опросов лежит статистика. В случае с казино содержимое мешка с шариками тщательно продумано, и из него постоянно делается выборка. Что касается выборов, то политики не знают, что на самом деле находится внутри всего мешка, вплоть до дня голосования, когда все шарики (то есть голоса) вытаскиваются наружу[21]. Только тогда политики могут узнать, что в мешке, и достаточно ли в нем выигрышных для них шариков. До выборов политики и политические партии имеют доступ лишь к небольшому набору случайных шариков (результатов опросов), и за этот доступ они платят огромные деньги. На основании анализа результатов опросов они делают выводы о закономерностях распределения шариков внутри мешка и соответственно корректируют свои предвыборные кампании. Поскольку их информация является неполной (и поскольку они часто допускают предвзятость и ошибки), они не всегда правильно ее понимают. Но когда им это удается, полученный результат определяет разницу между их победой и поражением на выборах.
Некоторые важные концепции теории вероятности и статистики мы кратко рассмотрим в следующих разделах.
Вероятность и интуиция
Ранее в этой главе мы говорили о том, что случайная вариация не поддается контролю. Однако ее можно измерить, и теория вероятности дает нам для этого инструменты.
Иногда вероятности для нас вполне понятны. Если вы бросили честный кубик, то вы знаете, какова вероятность выпадения того или иного числа (1 из 6) или буквы (1 из 4). При игре в простые азартные игры вероятности кажутся нам интуитивно понятными. Однако это интуитивное понимание зачастую скрывает сложность, лежащую в основе этих вероятностей. Например, рекламные ролики часто апеллируют к простым вероятностям, сводя их к тому, что кажется нам интуитивно понятным.
Табл. 3.1. Вероятность того, что стоматологи согласятся с рекламным утверждением
Вы наверняка видели рекламные ролики, в которых говорилось что-то вроде: «4 из 5 стоматологов согласны» с рекламным утверждением X (X может быть чем угодно, начиная с того, что жевательная резинка снижает риск развития кариеса, и заканчивая тем, что пищевая сода отбеливает зубы).
Теперь предположим, что перед вами сидят пять стоматологов. Если вы знаете, что 80 % всех стоматологов согласны с утверждением Х, насколько вероятно, что с ним согласны ровно четыре из пяти сидящих перед вами стоматологов?[22] 100 %, 90 % или 80 %?
На самом деле ответ равен 41 %.
Интуитивно он может показаться слишком маленьким, но он правильный. Давайте разберемся, почему. Таблица 3.1 отражает одну из комбинаций ответов пяти стоматологов на вопрос о том, согласны ли они с утверждением X.
Вероятность такой комбинации = 0,8 × 0,8 × 0,8 × 0,8 × 0,2 = 0,08192
Или, если кратко,
p = 0,84 × 0,2 = 0,08192
Однако ответ «Нет», показанный в табл. 3.2, может быть дан пятью разными стоматологами, поэтому существуют пять комбинаций ответов.
Таким образом, мы должны умножить исходную вероятность на пять: 0,08192 × 5 = 0,4096, что примерно равно 41 %.
Мы знаем, что с утверждением X соглашаются в среднем четверо из пяти стоматологов, но это не гарантирует того, что такой результат будет наблюдаться в каждой выборке, состоящей из пяти стоматологов. Вернемся к нашей аналогии с шариками. Если 80 % шариков в мешке соответствует ответу «да», а 20 % – ответу «нет», то иногда все пять шариков, оказавшихся у вас в руке, будут соответствовать положительному ответу, а в очень редких случаях – отрицательному. (Так проявляется вариация.)
Мы привели этот пример, чтобы еще раз подчеркнуть то, что люди часто недооценивают значение вариации, особенно когда имеют дело с небольшими числами. Их ожидания, основанные на интуиции, редко совпадают с реальными результатами расчета вероятностей. Недооценка вариации заставляет людей переоценивать свою уверенность в тех случаях, когда они имеют дело с небольшими значениями. Эта «склонность преувеличивать вероятность того, что малая выборка точно отражает свойства генеральной совокупности»[23] получила название «закона малых чисел».
Мыслить статистически, как и подобает главному по данным, значит помнить о том, что интуиция может сыграть с нами злую шутку. Мы рассмотрим еще несколько подобных примеров и заблуждений в следующих главах.
Табл. 3.2. Возможные комбинации из пяти стоматологов,
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.
Оставить комментарий
-
Ксения24 июнь 18:50
Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый...
В самом Сердце Стужи. Том VII - Александр Якубович
-
Riya23 июнь 00:13
Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса більше було і...
По праву вражды и истинности - Виктория Вашингтон
-
awaynice21 июнь 16:59
Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая....
Эхо забвения - Хелен Гард
