LoveRead.info » Книги » Разная литература » Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Книгу Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

245 0 10:01, 03-05-2023

Книга Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман читать онлайн бесплатно без регистрации

Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.В формате PDF A4 сохранен издательский макет книги.

    1 ... 26 27 28 29 30 31 32 33 34 ... 69
    Перейти на страницу:
    случайности (и количеством промахов). Иногда человек может плохо играть без всяких причин. Таким образом, уровень значимости – это некий условный установленный вами предел, до которого вы можете мириться со случайностью и необъяснимыми вариациями, продолжая считать нулевую гипотезу верной. Если p-значение меньше уровня значимости, вы отбрасываете нулевую гипотезу и говорите, что результат статистически значим.

    Урок: проверка того, что p-значение не превышает уровня значимости, с целью отбрасывания нулевой гипотезы – ключевая часть процесса построения статистического вывода. Разумеется, наличие вариаций и произвольный выбор уровня значимости чреваты ошибками при принятии решений.

    Сбалансируйте ошибки, допускаемые при принятии решений

    Когда вариация приводит к неправильному выводу, это называется ошибкой при принятии решения.

    Существуют два типа подобных ошибок, названия которых мало о чем говорят: ошибка первого рода (ложноположительное заключение) и ошибка второго рода (ложноотрицательное заключение). Поскольку описательность названия имеет большое значение, мы предпочитаем называть ошибки первого и второго рода именно ложноположительными и ложноотрицательными заключениями.

    Ложноположительное заключение возникает тогда, когда доказательства подтверждают альтернативную гипотезу, которую следовало бы отвергнуть (например, у мужчины оказывается положительный тест на беременность). С другой стороны, ложноотрицательное заключение имеет место тогда, когда вы принимаете ложную нулевую гипотезу (например, у беременной женщины оказывается отрицательный тест на беременность). В табл. 7.2 приведены дополнительные примеры ошибок первого и второго родов.

    Вы как лицо, принимающее решения, выбираете вероятность ложноположительного заключения, устанавливая уровень значимости. Со статистической значимостью тесно связано такое понятие, как мощность – вероятность отклонения нулевой гипотезы, когда альтернативная гипотеза верна. Чем выше мощность теста, тем ниже вероятность ложноотрицательного заключения.

    Табл. 7.2. Ложноположительные и ложноотрицательные заключения при принятии решения

    Балансирование ошибок первого и второго родов предполагает компромисс, и, если вы не соберете больше данных, то не сможете уменьшить вероятность одного, не увеличив вероятность другого. Например, вы хотите обеспечить низкий уровень ложноположительных заключений в случае спама. Нулевая гипотеза заключается в том, что «электронное письмо не является спамом». В связи с этим ложноположительное заключение может привести к тому, что электронное письмо от вашей матери окажется в папке со спамом. Обратная сторона этого – большее количество спама в вашем почтовом ящике (больше ложноотрицательных заключений), но вы готовы мириться с этим ради того, чтобы получать большую часть своей личной электронной почты. Однако в случае скрининга заболеваний медицинское сообщество может допустить больше ложноположительных заключений, чтобы уменьшить количество ложноотрицательных (пропущенный диагноз). Если у кого-то есть заболевание, медики хотят его обнаружить.

    Мораль: вариации усложняют процесс принятия решений. Иногда вам будет казаться, что ваша альтернативная гипотеза верна, хотя это не так (ложноположительное заключение), а иногда будете ошибочно думать, что верна нулевая гипотеза (ложноотрицательное заключение).

    Процесс построения статистического вывода

    В предыдущих пяти кратких уроках мы рассмотрели несколько компонентов процесса статистического вывода. Пришло время понять, как эти компоненты сочетаются друг с другом. Давайте попробуем обобщить их, чтобы вы как главный по данным могли понять и четко объяснить весь процесс построения статистического вывода.

    Если вкратце, то в ходе этого процесса вы должны выполнить следующие действия:

    1. Задайте осмысленный вопрос.

    2. Сформулируйте гипотезы для проверки, используя статус-кво в качестве нулевой гипотезы, а свое предположение – в качестве альтернативной.

    3. Задайте уровень значимости. (Чаще всего используется произвольное значение в 5 % или 0,05.)

    4. Вычислите p-значение на основе результата статистического теста.

    5. Вычислите соответствующие доверительные интервалы.

    6. Отклоните нулевую гипотезу в пользу альтернативной, если p-значение оказалось меньше уровня значимости; в противном случае не отклоняйте нулевую гипотезу.

    Остановитесь на мгновение и подумайте о перечисленных выше шагах. Если вы можете прочитать и понять все шесть шагов – поздравляем! Вы делаете успехи в изучении языка статистики. Единственное, что мы до этого упускали из виду, – это идея статистического теста, механизма вычисления p-значения. Мы использовали его при определении базовой вероятности в примере со стажером-баскетболистом (возведя 50 % в 10-ю степень). Однако существуют сотни статистических тестов, используемых для описания, сравнения, оценки рисков и взаимосвязей в данных. Именно этим инструментам уделяется основное внимание в учебниках по статистике. Мы не стали сосредоточиваться на статистических тестах здесь, поскольку вы можете и должны понимать логику, лежащую в основе статистики, независимо от метода расчета p-значения.

    Возвращаясь к поставленной задаче, мы признаем, что главные по данным чаще всего будут потребителями статистических результатов, а не их создателями. Поэтому в следующем разделе мы перечислим вопросы, которые вам следует задать, чтобы бросить вызов тем статистическим показателям, с которыми вы сталкиваетесь. Если вы хорошо усвоили материал, изложенный в предыдущих разделах, вы уже должны быть готовы задавать эти вопросы.

    Вопросы, позволяющие бросить вызов статистическим показателям

    Мы составили список вопросов, которые вы можете задать своим товарищам по команде с целью критической оценки представленных статистических показателей:

    – Каков контекст этой статистики?

    – Каков размер выборки?

    – Что вы тестируете?

    – Какова нулевая гипотеза?

    – Каков уровень значимости?

    – Сколько тестов вы проводите?

    – Каковы доверительные интервалы?

    – Имеет ли это практическое значение?

    – Предполагаете ли вы наличие причинно-следственной связи?

    Давайте рассмотрим каждый из этих вопросов и разберемся в том, почему они важны.

    Каков контекст этой статистики?

    Контекст статистики не менее важен, чем сами показатели. Услышав фразу: «Продажи выросли на 10 %!» – вы должны спросить: «По сравнению с чем?»

    Рассмотрим следующий пример. Маркетолог-аналитик сообщает своему начальнику о том, что продажи выросли на 10 % по сравнению с прошлым кварталом, но не говорит о том, что объем продаж его крупнейшего конкурента увеличился на 15 %. Начальник наверняка предпочел бы знать этот дополнительный контекст. Однако попытки обобщить информацию могут привести к путанице. Главные по данным должны выяснять контекст и базовые показатели для проведения сравнения.

    Рассмотрим другой пример. Предположим, новая реклама на YouTube повышает вероятность клика по объявлению на 50 %. Без знания контекста это звучит весьма впечатляюще. Однако если рассматривать данный статистический показатель в контексте, становится ясно, что кликабельность рекламы (отношение числа людей, щелкнувших по объявлению, к числу людей, просмотревших рекламу) улучшился с 0,1 до 0,15 % (то есть с 10 из 10 000 до 15 из 10 000) или на 0,05 % в абсолютных величинах. Данный результат следует преподносить именно так. Указание относительного процентного изменения (0,0015–0,0001)/0,0001 × 100 = 50 % создает неверное представление о нем.

    Вероятно, в своей работе вы уже сталкивались с подобными примерами, когда вы видите точный, однозначный и впечатляющий статистический показатель, но не знаете, что он на самом деле означает. В таких случаях смело спрашивайте: «Каков контекст

    1 ... 26 27 28 29 30 31 32 33 34 ... 69
    Перейти на страницу:
    1. Жалоба
    Отзывы - 0

    Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


    Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

    • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
    • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
    • 3. Просьба отказаться от нецензурной лексики.
    • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

    Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.


    Установить VPN и читай слушай бесплатно

    Новые отзывы

    1. Ксения Ксения24 июнь 18:50 Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый... В самом Сердце Стужи. Том VII - Александр Якубович
    2. Riya Riya23 июнь 00:13 Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса  більше було і... По праву вражды и истинности - Виктория Вашингтон
    3. awaynice awaynice21 июнь 16:59 Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая.... Эхо забвения - Хелен Гард
    Все комметарии
    Новинки бесплатной онлайн библиотеки