Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Книгу Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
245 0 10:01, 03-05-2023Книга Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман читать онлайн бесплатно без регистрации
Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.В формате PDF A4 сохранен издательский макет книги.
Урок: проверка того, что p-значение не превышает уровня значимости, с целью отбрасывания нулевой гипотезы – ключевая часть процесса построения статистического вывода. Разумеется, наличие вариаций и произвольный выбор уровня значимости чреваты ошибками при принятии решений.
Сбалансируйте ошибки, допускаемые при принятии решений
Когда вариация приводит к неправильному выводу, это называется ошибкой при принятии решения.
Существуют два типа подобных ошибок, названия которых мало о чем говорят: ошибка первого рода (ложноположительное заключение) и ошибка второго рода (ложноотрицательное заключение). Поскольку описательность названия имеет большое значение, мы предпочитаем называть ошибки первого и второго рода именно ложноположительными и ложноотрицательными заключениями.
Ложноположительное заключение возникает тогда, когда доказательства подтверждают альтернативную гипотезу, которую следовало бы отвергнуть (например, у мужчины оказывается положительный тест на беременность). С другой стороны, ложноотрицательное заключение имеет место тогда, когда вы принимаете ложную нулевую гипотезу (например, у беременной женщины оказывается отрицательный тест на беременность). В табл. 7.2 приведены дополнительные примеры ошибок первого и второго родов.
Вы как лицо, принимающее решения, выбираете вероятность ложноположительного заключения, устанавливая уровень значимости. Со статистической значимостью тесно связано такое понятие, как мощность – вероятность отклонения нулевой гипотезы, когда альтернативная гипотеза верна. Чем выше мощность теста, тем ниже вероятность ложноотрицательного заключения.
Табл. 7.2. Ложноположительные и ложноотрицательные заключения при принятии решения
Балансирование ошибок первого и второго родов предполагает компромисс, и, если вы не соберете больше данных, то не сможете уменьшить вероятность одного, не увеличив вероятность другого. Например, вы хотите обеспечить низкий уровень ложноположительных заключений в случае спама. Нулевая гипотеза заключается в том, что «электронное письмо не является спамом». В связи с этим ложноположительное заключение может привести к тому, что электронное письмо от вашей матери окажется в папке со спамом. Обратная сторона этого – большее количество спама в вашем почтовом ящике (больше ложноотрицательных заключений), но вы готовы мириться с этим ради того, чтобы получать большую часть своей личной электронной почты. Однако в случае скрининга заболеваний медицинское сообщество может допустить больше ложноположительных заключений, чтобы уменьшить количество ложноотрицательных (пропущенный диагноз). Если у кого-то есть заболевание, медики хотят его обнаружить.
Мораль: вариации усложняют процесс принятия решений. Иногда вам будет казаться, что ваша альтернативная гипотеза верна, хотя это не так (ложноположительное заключение), а иногда будете ошибочно думать, что верна нулевая гипотеза (ложноотрицательное заключение).
Процесс построения статистического вывода
В предыдущих пяти кратких уроках мы рассмотрели несколько компонентов процесса статистического вывода. Пришло время понять, как эти компоненты сочетаются друг с другом. Давайте попробуем обобщить их, чтобы вы как главный по данным могли понять и четко объяснить весь процесс построения статистического вывода.
Если вкратце, то в ходе этого процесса вы должны выполнить следующие действия:
1. Задайте осмысленный вопрос.
2. Сформулируйте гипотезы для проверки, используя статус-кво в качестве нулевой гипотезы, а свое предположение – в качестве альтернативной.
3. Задайте уровень значимости. (Чаще всего используется произвольное значение в 5 % или 0,05.)
4. Вычислите p-значение на основе результата статистического теста.
5. Вычислите соответствующие доверительные интервалы.
6. Отклоните нулевую гипотезу в пользу альтернативной, если p-значение оказалось меньше уровня значимости; в противном случае не отклоняйте нулевую гипотезу.
Остановитесь на мгновение и подумайте о перечисленных выше шагах. Если вы можете прочитать и понять все шесть шагов – поздравляем! Вы делаете успехи в изучении языка статистики. Единственное, что мы до этого упускали из виду, – это идея статистического теста, механизма вычисления p-значения. Мы использовали его при определении базовой вероятности в примере со стажером-баскетболистом (возведя 50 % в 10-ю степень). Однако существуют сотни статистических тестов, используемых для описания, сравнения, оценки рисков и взаимосвязей в данных. Именно этим инструментам уделяется основное внимание в учебниках по статистике. Мы не стали сосредоточиваться на статистических тестах здесь, поскольку вы можете и должны понимать логику, лежащую в основе статистики, независимо от метода расчета p-значения.
Возвращаясь к поставленной задаче, мы признаем, что главные по данным чаще всего будут потребителями статистических результатов, а не их создателями. Поэтому в следующем разделе мы перечислим вопросы, которые вам следует задать, чтобы бросить вызов тем статистическим показателям, с которыми вы сталкиваетесь. Если вы хорошо усвоили материал, изложенный в предыдущих разделах, вы уже должны быть готовы задавать эти вопросы.
Вопросы, позволяющие бросить вызов статистическим показателям
Мы составили список вопросов, которые вы можете задать своим товарищам по команде с целью критической оценки представленных статистических показателей:
– Каков контекст этой статистики?
– Каков размер выборки?
– Что вы тестируете?
– Какова нулевая гипотеза?
– Каков уровень значимости?
– Сколько тестов вы проводите?
– Каковы доверительные интервалы?
– Имеет ли это практическое значение?
– Предполагаете ли вы наличие причинно-следственной связи?
Давайте рассмотрим каждый из этих вопросов и разберемся в том, почему они важны.
Каков контекст этой статистики?
Контекст статистики не менее важен, чем сами показатели. Услышав фразу: «Продажи выросли на 10 %!» – вы должны спросить: «По сравнению с чем?»
Рассмотрим следующий пример. Маркетолог-аналитик сообщает своему начальнику о том, что продажи выросли на 10 % по сравнению с прошлым кварталом, но не говорит о том, что объем продаж его крупнейшего конкурента увеличился на 15 %. Начальник наверняка предпочел бы знать этот дополнительный контекст. Однако попытки обобщить информацию могут привести к путанице. Главные по данным должны выяснять контекст и базовые показатели для проведения сравнения.
Рассмотрим другой пример. Предположим, новая реклама на YouTube повышает вероятность клика по объявлению на 50 %. Без знания контекста это звучит весьма впечатляюще. Однако если рассматривать данный статистический показатель в контексте, становится ясно, что кликабельность рекламы (отношение числа людей, щелкнувших по объявлению, к числу людей, просмотревших рекламу) улучшился с 0,1 до 0,15 % (то есть с 10 из 10 000 до 15 из 10 000) или на 0,05 % в абсолютных величинах. Данный результат следует преподносить именно так. Указание относительного процентного изменения (0,0015–0,0001)/0,0001 × 100 = 50 % создает неверное представление о нем.
Вероятно, в своей работе вы уже сталкивались с подобными примерами, когда вы видите точный, однозначный и впечатляющий статистический показатель, но не знаете, что он на самом деле означает. В таких случаях смело спрашивайте: «Каков контекст
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.
Оставить комментарий
-
Ксения24 июнь 18:50
Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый...
В самом Сердце Стужи. Том VII - Александр Якубович
-
Riya23 июнь 00:13
Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса більше було і...
По праву вражды и истинности - Виктория Вашингтон
-
awaynice21 июнь 16:59
Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая....
Эхо забвения - Хелен Гард
