LoveRead.info » Книги » Домашняя » Наука о данных - Брендан Тирни

Наука о данных - Брендан Тирни

Книгу Наука о данных - Брендан Тирни читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

83 0 10:02, 12-11-2021
Наука о данных - Брендан Тирни
12 ноябрь 2021
Автор: Джон Келлехер Брендан Тирни Жанр: Книги / Домашняя Год публикации: 2020
0 0

Книга Наука о данных - Брендан Тирни читать онлайн бесплатно без регистрации

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом. Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем. «Наука о данных» уже переведена на японский, корейский и китайский языки.
    1 ... 5 6 7 8 9 10 11 12 13 ... 43
    Перейти на страницу:

    Номинальные (также известные как категориальные) атрибуты принимают значения из ограниченного набора. Эти значения являются именами (поэтому они и называются номинальными) для категорий, классов или обстоятельств. Примеры номинальных атрибутов включают семейное положение (холост, женат, разведен) или тип пива (эль, светлый эль, пильзнер, портер, стаут и т. д.). Бинарный атрибут — это особый случай номинального атрибута, у которого набор возможных значений ограничен только двумя. Примером может служить бинарный атрибут «спам», который описывает, является электронная почта спамом (да) или не является (нет). К номинальным атрибутам не могут быть применены упорядочивание или арифметические операции. Обратите внимание, что номинальный атрибут может быть отсортирован в алфавитном порядке, но эта операция не тождественна упорядочиванию. В таблице 1 автор и название являются примерами номинальных атрибутов.

    Порядковые атрибуты аналогичны номинальным, но с той разницей, что можно ранжировать значения переменных. Например, атрибут, описывающий ответ на вопрос анкетирования, может принимать значения из области определения: «очень не нравится», «не нравится», «нейтрально», «нравится» и «очень нравится». Существует естественное упорядочивание этих значений — от сильной неприязни к сильной симпатии (или, наоборот, в зависимости от условия). Тем не менее важной особенностью порядковых атрибутов является отсутствие понятия равного расстояния между этими значениями. Например, когнитивное расстояние между неприязнью и нейтральным отношением может быть отличным от расстояния между симпатией и сильной симпатией. В результате неуместно применять арифметические операции (такие, как усреднение) к порядковым атрибутам. В таблице 1 атрибут «издание» является примером порядкового атрибута. Граница между номинальными и порядковыми данными не всегда четкая. Для примера возьмем атрибут, который описывает погоду и может принимать значения «солнечно», «дождливо», «пасмурно». Один человек может сказать, что этот атрибут номинальный, значения которого не упорядочены, в то время как другой будет утверждать, что атрибут является порядковым, при этом рассматривая облачность как промежуточное значение между «солнечно» и «дождливо»{2}.

    Тип атрибута (числовой, порядковый, номинальный) влияет на методы анализа и понимания данных. Эти методы включают в себя как основную статистику, которую мы можем использовать для описания распределения значений атрибута, так и более сложные алгоритмы, которые мы применяем для выявления закономерностей отношений между атрибутами. На базовом уровне анализа числовые атрибуты допускают арифметические операции, а типичный статистический анализ, применяемый к числовым атрибутам, заключается в измерении центральной тенденции (с использованием среднего значения атрибута) и разброса значений атрибутов (с использованием дисперсии или стандартного отклонения). Однако не имеет смысла применять арифметические операции к номинальным или порядковым атрибутам. Базовый анализ этих типов атрибутов включает в себя подсчет того, сколько раз значение встречается в наборе данных, и/или вычисление процента вхождения этого значения.

    Данные генерируются в процессе абстракции, поэтому они всегда являются результатом принятых человеком решений и сделанного им выбора. В основе каждой абстракции конкретный человек или группа людей решают, от чего абстрагироваться и какие категории или измерения использовать в полученном отображении. Поэтому данные никогда не являются объективным описанием мира. Данные всегда частичны и предвзяты. Как заметил Альфред Коржибски: «Карта не является отображаемой ею территорией, но если она верная, то имеет структуру, подобную территории, которая содержит информацию о ее полезности{3}».


    Наука о данных

    Другими словами, данные не являются идеальным отображением сущностей и процессов реального мира, которые мы пытаемся постичь, но если быть аккуратным при моделировании и сборе данных, то результаты анализа могут дать полезную информацию для решения наших реальных проблем. Сюжет фильма «Человек, который изменил все» (Moneyball), о котором упоминалось в главе 1, служит примером того, что определяющим фактором успеха во многих проектах науки о данных являются абстракции (атрибуты), подходящие для использования в данной конкретной области. Напомним, что ключом в этой истории было осознание клубом «Окленд Атлетикс» того, что процентное соотношение попадания игрока на базу и упущенных возможностей является более информативным показателем его успешности, чем традиционно принятые в бейсболе статистические данные, такие как средний уровень достижений. Использование различных атрибутов для описания игроков дало «Окленд Атлетикс» лучшую, нежели у других команд, модель, которая позволила им выявлять недооцененных игроков и конкурировать с крупными клубами при меньшем бюджете.

    Эта история иллюстрирует применимость старой поговорки «Что посеешь — то и пожнешь» к науке о данных: если входные данные вычислительного процесса неверны, то выходные данные также будут неправильны. Действительно, наука о данных имеет две особенности, которые всегда необходимо учитывать: а) для успешности проектов необходимо уделять много внимания созданию самих данных (как с точки зрения выбора, который мы делаем при моделировании абстракции, так и с точки зрения качества данных, полученных в процессе) и б) необходимо проверять результаты процесса, хотя бы потому, что выявленная компьютером закономерность может оказаться основанной на отклонениях модели и увести нас в сторону от реального понимания анализируемых процессов.

    Перспективы данных

    Помимо типов (числовые, номинальные и порядковые), существуют и другие полезные способы классификации данных. Один из них различает структурированные и неструктурированные данные. Структурированными называются данные, которые могут храниться в таблице, где каждый объект имеет одинаковую структуру (т. е. набор атрибутов). В качестве примера можно привести демографические данные населения, где каждая строка в таблице описывает одного человека и состоит из одного и того же набора атрибутов (имя, возраст, дата рождения, адрес, пол, образование, статус занятости и т. д.). Структурированные данные можно легко хранить, систематизировать, искать, переупорядочивать и объединять с другими структурированными данными. К ним легко применяемы методы науки о данных, поскольку по определению они уже находятся в формате, который подходит для интеграции в аналитическую запись. Неструктурированные данные описывают такие данные, где каждый объект в наборе может иметь собственную внутреннюю структуру и эта структура необязательно одинакова для каждого объекта. Представьте себе набор веб-страниц, где у каждой есть структура, но при этом отличная от других. Неструктурированные данные встречаются гораздо чаще, чем структурированные. Например, естественные текстовые массивы (электронные письма, твиты, СМС, посты, романы и т. д.) можно считать неструктурированными данными; то же относится к коллекциям звуковых, графических и видеофайлов. Различия в структуре между отдельными элементами не позволяют анализировать неструктурированные данные в необработанном виде. Зачастую мы можем извлекать структурированные данные из неструктурированных, используя методы искусственного интеллекта (такие, как обработка естественного языка или машинное обучение), цифровую обработку сигналов или компьютерное зрение. Однако внедрение и тестирование этих процессов преобразования данных является дорогостоящим и трудоемким и может привести к значительным накладным расходам в проекте.

    1 ... 5 6 7 8 9 10 11 12 13 ... 43
    Перейти на страницу:
    1. Жалоба
    Отзывы - 0

    Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


    Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

    • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
    • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
    • 3. Просьба отказаться от нецензурной лексики.
    • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

    Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.


    Установить VPN и читай слушай бесплатно

    Новые отзывы

    1. Ксения Ксения24 июнь 18:50 Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый... В самом Сердце Стужи. Том VII - Александр Якубович
    2. Riya Riya23 июнь 00:13 Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса  більше було і... По праву вражды и истинности - Виктория Вашингтон
    3. awaynice awaynice21 июнь 16:59 Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая.... Эхо забвения - Хелен Гард
    Все комметарии
    Новинки бесплатной онлайн библиотеки