Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Книгу Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
245 0 10:01, 03-05-2023Книга Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман читать онлайн бесплатно без регистрации
Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.В формате PDF A4 сохранен издательский макет книги.
57
fivethirtyeight.com/features/when-we-say-70-percent-it-really-means-70-percent
58
Не забудьте оставить отзыв о нашей книге на сайте Amazon.
59
Как вы помните из главы 1, проект по работе с данными должен начинаться с формулирования четкого вопроса.
60
Мы понимаем, что 50 % – это отличный процент реализации бросков в баскетболе. У Леброна Джеймса, например, этот показатель за всю карьеру составляет 50 %. Так что нет, ваш стажер, скорее всего, не играет настолько хорошо, просто значение 50 % облегчает расчеты. Однако хорошо, что вы, как главный по данным, задумались о том, не слишком ли это оптимистично.
61
О'Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).
62
О'Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).
63
Об уточнении самого вопроса мы говорили в главе 1.
64
Мы использовали двусторонний точный тест Фишера.
65
В этом примере требуется выполнение так называемой проверки эквивалентности, обсуждение которой выходит за рамки данной главы. Однако имейте ее в виду, расскажите о ней своей команде и применяйте ее. Если вам понятна логика этой главы, у вас не возникнет сложностей с пониманием данной концепции.
66
“5 Sigma What’s That?” blogs.scientificamerican.com/observations/five-sigmawhats-that
67
Это можно исправить с помощью так называемой поправки на множественную проверку гипотез.
68
В статистике понятие «размер эффекта» может иметь множество значений. Здесь мы говорим о размере эффекта просто как о разнице между двумя числами.
69
Нет, на самом деле мы не собирали данные и не проводили подобное исследование.
70
Тест проводился с помощью языка программирования R для статистической обработки данных: 'prop.test(c(65, 50), c(100, 100), alternative = «greater»)'
71
Адамс, Скотт. Мультсериал «Дилберт». 3 января 2000 года.
72
Ну вроде того. На самом деле все не так просто.
73
Речь идет о наборе данных mtcars, входящем в состав программы R. http://stat.ethz.ch/R-manual/R-devel/library/datasets/html/mtcars.html. Для упрощения восприятия визуализации мы отображаем только 15 автомобилей из 32.
74
Поскольку признаки имеют разный размах, перед объединением их необходимо привести к одной числовой шкале.
75
Pearson, K. (1901). LIII. On lines and planes of closest fit to systems of points in space. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 2(11), 559–572.
76
Количество сочетаний из 30 по 2 = 30!/((30–2)! 2!) = 435.
77
Ни одна из программ не возвращает результаты АГК, показанные здесь. Чтобы обойтись без множества уравнений и чисел, мы решили сосредоточиться на визуализации.
78
АГК и кластеризация никак не связаны между собой, так что их можно использовать независимо друг от друга.
79
Lloyd, S. (1982). Least squares quantization in PCM. IEEE transactions on information theory, 28(2), 129–137.
80
В этом примере мы делаем множество упрощающих допущений. С технической точки зрения этот метод не подходит для группировки точек на сфере, поскольку координаты широты и долготы не находятся в евклидовом пространстве. Используемая нами метрика расстояния не учитывает кривизну Земли, а также практические ограничения, вроде доступа к автомагистралям.
81
«Голая статистика. Самая интересная книга о самой скучной науке», Чарльз Уилан (Издательство: Манн, Иванов и Фербер, 2022).
82
Когда вы слышите словосочетание «линейная регрессия», чаще всего речь идет именно о регрессии методом наименьших квадратов. Существуют и другие типы линейной регрессии, но метод наименьших квадратов наиболее популярен.
83
При изучении алгебры вы познакомились с уравнением прямой линии: y = mx + b. Для любого входа x вы можете получить выход y, умножив x на m и прибавив b. Если y = 2x + 5, то вход x = 7 дает выход y = 2×7 + 5 = 19.
84
Краткое напоминание по поводу терминологии: выход y называется переменной отклика, целевой или зависимой переменной. Вход x называется признаком, предиктором или независимой переменной. Вы можете столкнуться со всеми этими терминами в своей работе.
85
Использование абсолютных значений также позволило бы сделать отклонения положительными перед агрегированием. Однако возведение в квадрат более предпочтительно с математической точки зрения, поскольку оно имеет свойство дифференцируемости, что было жизненно важно на ранних этапах применения метода линейной регрессии, когда все расчеты приходилось делать вручную.
86
Для простой регрессии с одним входным параметром R2 представляет собой квадрат коэффициента корреляции, который мы обсуждали в главе 5. Однако значение R2 может быть и отрицательным. Такое бывает, когда модель линейной регрессии оказывается менее эффективной, чем предсказание среднего значения.
87
Верхний предел количества признаков/входных параметров в модели линейной регрессии составляет N – 1, где N – количество строк в наборе данных. Таким образом, для прогнозирования ежемесячных объемов продаж на 12-месячный период вы можете использовать до 11 входных параметров.
88
Модели линейной регрессии не вычисляются, если два входных параметра идеально коррелированы, поэтому мы добавили шум в данные в этом примере.
89
Этой идее посвящена целая область статистики под названием «Планирование экспериментов».
90
https://en.wikipedia.org/wiki/Leakage_(machine_learning)
91
Разница между объяснением и предсказанием с помощью моделей подробно описана в статье: Shmueli, G. (2010). To explain or to predict? Statistical science, 25(3), 289–310.
92
Не путайте кластеризацию с классификацией. Помните о том, что кластеризация не предполагает использование меток. При кластеризации если метки и присваиваются, то самим аналитиком и только впоследствии. При решении задач классификации метки изначально присутствуют в наборе данных.
93
Логистическая регрессия, как вы узнаете далее, предсказывает
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.
Оставить комментарий
-
Ксения24 июнь 18:50
Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый...
В самом Сердце Стужи. Том VII - Александр Якубович
-
Riya23 июнь 00:13
Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса більше було і...
По праву вражды и истинности - Виктория Вашингтон
-
awaynice21 июнь 16:59
Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая....
Эхо забвения - Хелен Гард
