LoveRead.info » Книги » Домашняя » Наука о данных - Брендан Тирни

Наука о данных - Брендан Тирни

Книгу Наука о данных - Брендан Тирни читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

83 0 10:02, 12-11-2021
Наука о данных - Брендан Тирни
12 ноябрь 2021
Автор: Джон Келлехер Брендан Тирни Жанр: Книги / Домашняя Год публикации: 2020
0 0

Книга Наука о данных - Брендан Тирни читать онлайн бесплатно без регистрации

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом. Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем. «Наука о данных» уже переведена на японский, корейский и китайский языки.
    1 ... 15 16 17 18 19 20 21 22 23 ... 43
    Перейти на страницу:

    Регрессионный анализ, использующий линейную зависимость, называется линейной регрессией. Простейшим применением линейной регрессии является моделирование взаимосвязи между двумя атрибутами: входным атрибутом X и целевым атрибутом Y. В этой задаче функция регрессии имеет следующий вид:

    Y = ω0 + ω1X.

    Это уравнение линейной функции (часто записываемой как y = mx + c), которая знакома большинству людей из курса средней школы[14]. Переменные ω0 и ω1 и являются параметрами функции регрессии. Изменение этих параметров меняет и то, как функция отображает прямую между входящим X и выходящим Y. Параметр ω0 (или c из школьной формулы) — это точка пересечения прямой с осью ординат, когда X равен нулю. Параметр ω1 определяет угол наклона прямой (т. е. он эквивалентен m из школьной формулы).

    В регрессионном анализе параметры функции регрессии изначально неизвестны. Установка этих параметров эквивалентна поиску строки, которая наилучшим образом соответствует данным. Стратегия установки этих параметров состоит в том, чтобы начать со случайных значений, а затем итеративно обновлять параметры, уменьшая общее отклонение функции в наборе данных. Общее отклонение рассчитывается в три этапа:

    1. Функция применяется к набору данных и для каждого объекта в наборе оценивает значение целевого атрибута.

    2. Отклонение функции для каждого объекта вычисляется путем вычитания оценочного значения целевого атрибута из его фактического значения.

    3. Отклонение функции для каждого объекта возводится в квадрат, а затем эти возведенные в квадрат значения суммируются.


    Отклонение функции для каждого объекта возводится в квадрат на последнем шаге так, чтобы отклонение, когда функция завышает значение, не отменялось отклонением, когда цель недооценена. Возведение в квадрат и в том и в другом случае придает отклонению положительное значение. Этот параметр известен как сумма квадратов отклонений, а стратегия подбора линейной функции путем поиска параметров, минимизирующих сумму квадратов отклонений (SSE), называется методом наименьших квадратов. SSE определяется как


    Наука о данных

    где набор данных содержит n объектов, targeti — это значение целевого атрибута для объекта i в наборе данных, а predictioni — оценка функцией цели для того же объекта.

    Чтобы создать линейную регрессионную модель прогнозирования, которая оценивает вероятность развития диабета у человека с учетом его ИМТ, мы заменяем Х на атрибут ИМТ, а Y — на атрибут «Диабет» и применяем алгоритм наименьших квадратов, чтобы найти наиболее подходящую прямую для этого набора данных. Рис. 11 a иллюстрирует эту прямую и ее расположение относительно объектов в наборе данных. На рис. 11 b пунктирными линиями показано отклонение (или остаток) для каждого объекта в этой прямой. При использовании метода наименьших квадратов линией наилучшего соответствия будет прямая, которая минимизирует сумму квадратов отклонений. Вот уравнение для этой прямой:

    Диабет = −7,38431 + 0,55593 × ИМТ.

    Значение угла наклона прямой = 0,55593 указывает на то, что для каждого увеличения ИМТ на 1 единицу модель увеличивает предполагаемую вероятность развития диабета у человека чуть более чем на 0,5 %. Чтобы предсказать вероятность развития диабета у человека, мы просто вводим его значение ИМТ в модель. Например, когда ИМТ = 20, модель возвращает прогноз 3,73 % для атрибута «Диабет», а для ИМТ = 21 модель прогнозирует 4,29 % вероятности[15].

    Линейная регрессия, использующая метод наименьших квадратов, рассчитывает средневзвешенное значение для объектов. Фактически значение сдвига линии по вертикали ω0 = −7,38431 гарантирует, что линия наилучшего соответствия проходит точку, определенную средним значением ИМТ и средним значением диабета для набора данных. Если ввести среднее значение ИМТ в наборе данных (ИМТ = 24,0932), модель оценивает атрибут диабета как 4,29 %, что является средним значением для всего набора данных.


    Наука о данных

    Взвешивание объектов основано на их расстоянии от линии — чем дальше объект находится от линии, тем его отклонение выше и алгоритм будет взвешивать экземпляр по квадрату этого отклонения. Как следствие, объекты, которые имеют экстремальные значения (выбросы), могут оказать непропорционально большое влияние на процесс вычерчивания линии, в результате чего она будет удалена от других объектов. Поэтому перед использованием метода наименьших квадратов важно проверить наличие выбросов в наборе данных.

    Модели линейной регрессии могут быть расширены, чтобы принимать несколько входных значений. Новый параметр добавляется в модель для каждого нового входного атрибута, а уравнение обновляется, чтобы суммировать результат умножения нового атрибута. Например, чтобы расширить модель для включения в нее в качестве входных данных атрибутов веса и времени, затраченного на физические упражнения, структура функции регрессии станет такой:

    Диабет = ω0 + ω1ИМТ + ω2Упражнения + ω3Вес.

    В статистике функция регрессии, которая прогнозирует переменную на основе нескольких факторов, называется функцией множественной линейной регрессии. Структура функции такой регрессии является основой для ряда алгоритмов машинного обучения, включая и нейронные сети.

    Между корреляцией и регрессией наблюдаются сходства, поскольку и та и другая представляют собой техники, сосредоточенные на выявлении зависимостей между столбцами в наборе данных. Корреляция ищет взаимосвязь между двумя атрибутами, а регрессия сосредоточена на прогнозировании значений зависимой переменной при нескольких входных атрибутах. В частных случаях коэффициент корреляции Пирсона измеряет степень линейной зависимости двух атрибутов, а линейная регрессия, обученная по методу наименьших квадратов, представляет собой процесс поиска линии наилучшего соответствия, которая прогнозирует значение одного атрибута при заданном значении другого.

    Нейронные сети и глубокое обучение

    Нейронная сеть состоит из нейронов, соединенных друг с другом. Нейрон принимает набор числовых значений в качестве входных данных и сопоставляет их с одним выходным значением. По своей сути нейрон — это функция линейной регрессии с несколькими входами. Единственное существенное различие состоит в том, что в нейроне выходной сигнал определяется другой функцией, которая называется функцией активации.

    1 ... 15 16 17 18 19 20 21 22 23 ... 43
    Перейти на страницу:
    1. Жалоба
    Отзывы - 0

    Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


    Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

    • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
    • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
    • 3. Просьба отказаться от нецензурной лексики.
    • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

    Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.


    Установить VPN и читай слушай бесплатно

    Новые отзывы

    1. Ксения Ксения24 июнь 18:50 Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый... В самом Сердце Стужи. Том VII - Александр Якубович
    2. Riya Riya23 июнь 00:13 Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса  більше було і... По праву вражды и истинности - Виктория Вашингтон
    3. awaynice awaynice21 июнь 16:59 Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая.... Эхо забвения - Хелен Гард
    Все комметарии
    Новинки бесплатной онлайн библиотеки