LoveRead.info » Книги » Домашняя » Наука о данных - Брендан Тирни

Наука о данных - Брендан Тирни

Книгу Наука о данных - Брендан Тирни читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

83 0 10:02, 12-11-2021
Наука о данных - Брендан Тирни
12 ноябрь 2021
Автор: Джон Келлехер Брендан Тирни Жанр: Книги / Домашняя Год публикации: 2020
0 0

Книга Наука о данных - Брендан Тирни читать онлайн бесплатно без регистрации

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом. Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем. «Наука о данных» уже переведена на японский, корейский и китайский языки.
    1 2 3 ... 43
    Перейти на страницу:


    Наука о данных

    Специалист по данным должен иметь экспертный опыт в предметной сфере. Большинство проектов начинаются с реальной проблемы и необходимости разработать ее решения. Специалист по данным должен понимать и проблему, и то, как ее решение могло бы вписаться в организационные процессы. Этот экспертный опыт направляет специалиста при поиске оптимального решения. Он также позволяет конструктивно взаимодействовать с отраслевыми экспертами, чтобы докопаться до самой сути проблемы. Кроме того, специалист по данным может использовать его в работе над аналогичными проектами в той же или смежной областях и быстро определять их фокус и охват.

    В центре всех проектов науки о данных находятся сами данные. Однако тот факт, что организация имеет доступ к данным, не означает, что у нее есть формальное или этическое право на их использование. В большинстве юрисдикций существует антидискриминационное законодательство и законы о защите персональных данных. Специалист по данным должен знать и понимать эти правила, а также (в более широком смысле) понимать этические последствия своей работы, если хочет использовать данные на законных основаниях и надлежащим образом. Мы вернемся к этой теме в главе 7, где обсудим правовые нормы и этические вопросы, связанные с наукой о данных.

    В большинстве организаций значительная часть данных поступает из баз, размещенных внутри самой организации. Но по мере роста архитектуры данных проекты начнут получать их из множества других источников, в том числе из источников больших данных. Данные в этих источниках могут существовать в различных форматах, но, как правило, представляют собой базы на основе реляционной модели, NoSQL или Hadoop. Эти данные должны быть интегрированы, очищены, преобразованы, нормализованы и т. д. Такие задачи могут называться по-разному, например: ETL (извлечение, преобразование, загрузка), подготовка, слияние, уплотнение данных и др. Результаты обработки должны храниться и управляться, как и исходные данные. Для этого также используют базы, чтобы результаты можно было легко распределить между частями организации или обеспечить им совместный доступ. Следовательно, специалист по данным должен обладать навыками взаимодействия с базами данных и обработки содержащейся в них информации.

    Понятие «компьютерные науки» используется здесь для обозначения целого ряда навыков и инструментов, которые позволяют специалисту работать с большими данными и преобразовывать их в новую значимую информацию. Высокопроизводительные вычисления (HPC) предполагают агрегацию вычислительных мощностей для достижения большей производительности, чем может дать автономный компьютер. Многие проекты имеют дело с очень большими наборами данных и/или алгоритмами машинного обучения, которые требуют дорогостоящих вычислений. В таких ситуациях важно иметь навыки доступа к ресурсам HPC и их использования. Помимо HPC, мы уже упоминали о задачах сбора, очистки и интегрирования веб-данных, стоящих перед специалистом. Сюда же входит умение обрабатывать неструктурированный текст и изображения. Кроме того, неплохо, если специалист по данным способен сам написать приложение для выполнения конкретной задачи или изменить существующее, чтобы настроить его под конкретные данные и сферу деятельности. Наконец, необходима компьютерная грамотность, чтобы понимать и разрабатывать модели машинного обучения и интегрировать их в производственные, аналитические или внутренние приложения организации.

    Графическое отображение данных существенно упрощает их просмотр и понимание. Визуализация применяется на всех этапах процесса. Работая с данными в табличной форме, легко пропустить такие вещи, как выбросы, тренды в распределениях или незначительные изменения данных во времени. Правильное графическое отображение выявляет эти и другие аспекты. Визуализация является важной и растущей областью науки о данных, и мы рекомендуем работы Эдварда Туфта{5} и Cтефана Фью{6} как отличное введение в ее принципы и методы.

    В процессе обработки данных (от их первоначального сбора и исследования до сравнения результатов различных моделей и типов анализа) используются статистические и вероятностные методы. Машинное обучение применяет их для поиска закономерностей. Специалист по данным не обязан уметь писать алгоритмы машинного обучения, но должен понимать, как и для чего они используются, что означают сгенерированные ими результаты и на каком типе данных могут выполняться конкретные алгоритмы. Иначе говоря, воспринимать их как «серый ящик» — систему с частично известной внутренней структурой. Это позволит сконцентрироваться на прикладных аспектах и провести тестирование различных алгоритмов машинного обучения, чтобы понять, какие из них лучше всего подходят для конкретного сценария.

    Наконец, важным аспектом успешности специалиста по данным является умение рассказать с их помощью историю. Это может быть история прозрения, которое дал анализ, или история о моделях, созданных в ходе проекта, которые идеально впишутся в процессы организации и благотворно повлияют на ее функционирование. В потрясающем проекте по обработке данных нет никакого смысла, если его результаты не будут использованы, но для этого надо сообщить о них коллегам, не имеющим технического образования, в такой форме, чтобы они смогли все понять.

    Где используется наука о данных?

    Наука о данных определяет принятие решений практически во всех сферах современного общества. В этом разделе мы опишем три тематических кейса, которые иллюстрируют ее влияние на потребительские компании, использующие науку о данных в продажах и маркетинге, на правительства, совершенствующие с ее помощью здравоохранение, правосудие и городское планирование, и на профессиональные спортивные клубы, проводящие на ее основе отбор игроков.

    Наука о данных в продажах и маркетинге

    Компания Walmart (и другие розничные сети) имеет доступ к большим наборам данных о предпочтениях своих покупателей, собирая их через системы торговых точек, отслеживая поведение клиентов в интернет-магазине и анализируя комментарии о компании и ее продуктах в социальных сетях. Уже более 10 лет Walmart использует науку о данных для оптимизации уровня запасов в магазинах. Хорошо известен пример, когда Walmart пополняла ассортимент пирожных с клубникой в магазинах на пути следования урагана «Фрэнсис» в 2004 г. на основе анализа данных о продажах в период прохождения урагана «Чарли» несколькими неделями ранее. Недавно Walmart использовала науку о данных для увеличения розничных доходов, начав внедрять новые продукты на основе анализа тенденций в социальных сетях, анализировать активность по кредитным картам для составления рекомендаций клиентам, а также оптимизировать и персонализировать взаимодействие с клиентами через официальный сайт. Walmart связывает увеличение объема онлайн-продаж на 10–15 % именно с использованием науки о данных{7}.

    В онлайн-мире эквивалентом апселлинга (продажи более дорогих версий товара) и перекрестных продаж являются рекомендательные системы. Если вы смотрели фильмы на Netflix или покупали что-нибудь на Amazon, то знаете, что эти сайты собирают и используют данные, а затем предлагают вам варианты следующих просмотров или покупок. Одни рекомендательные системы направляют вас к блокбастерам и бестселлерам, а другие — к нишевым продуктам, соответствующим вашим вкусам. В книге Криса Андерсона «Длинный хвост: Эффективная модель бизнеса в интернете»{8} утверждается, что по мере удешевления производства и дистрибуции рынки переходят от продажи большого количества небольшого набора хитов к продажам меньшего количества более разнообразных нишевых продуктов. Этот компромисс между стимулированием продаж популярных и нишевых продуктов лежит в основе разработки рекомендательных систем и влияет на алгоритмы обработки данных, используемые в этих системах.

    1 2 3 ... 43
    Перейти на страницу:
    1. Жалоба
    Отзывы - 0

    Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


    Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

    • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
    • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
    • 3. Просьба отказаться от нецензурной лексики.
    • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

    Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.


    Установить VPN и читай слушай бесплатно

    Новые отзывы

    1. Ксения Ксения24 июнь 18:50 Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый... В самом Сердце Стужи. Том VII - Александр Якубович
    2. Riya Riya23 июнь 00:13 Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса  більше було і... По праву вражды и истинности - Виктория Вашингтон
    3. awaynice awaynice21 июнь 16:59 Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая.... Эхо забвения - Хелен Гард
    Все комметарии
    Новинки бесплатной онлайн библиотеки