LoveRead.info » Книги » Домашняя » Код бестселлера - Мэтью Л. Джокерс

Код бестселлера - Мэтью Л. Джокерс

Книгу Код бестселлера - Мэтью Л. Джокерс читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

375 0 03:02, 22-05-2019
Код бестселлера - Мэтью Л. Джокерс
22 май 2019
Автор: Джоди Арчер Мэтью Л. Джокерс Жанр: Книги / Домашняя Год публикации: 2017
0 0

Книга Код бестселлера - Мэтью Л. Джокерс читать онлайн бесплатно без регистрации

«Если верить расхожему мнению, любой бестселлер – аномалия. Удачная флуктуация на рынке. Интересный мутант. Черный лебедь. Но если это правда, то, единожды найдя писателя, способного выдавать бестселлеры, надо вкладывать все деньги в него? Зачем рисковать миллионами, ставя их на никому не известного двадцатилетнего юношу вместо Стивена Кинга?Используя компьютерную систему, которая читает книги, распознает в них определенные характеристики и просеивает тысячи таких характеристик в тысячах текстов, мы открыли, что существуют удивительные сочетания параметров, свойственные книгам, которые с наибольшей вероятностью будут пользоваться успехом на рынке. Наша система обрабатывала каждую книгу так, словно это новая, никому не известная рукопись, а затем не просто выносила один из двух вердиктов – “вероятно, бестселлер” или “скорее всего, нет”, – но и вычисляла индекс, указывающий, каковы шансы книги обрести популярность. Эти индексы сами по себе чрезвычайно интересны, и мы не только расскажем, как они устроены, но и объясним, что держит читателя как магнитом, заставляя переворачивать страницы одну за другой».Джоди Арчер, Мэттью Л. Джокерс
    1 ... 47 48 49 50 51 52 53 54 55 56
    Перейти на страницу:

    В 5-й главе мы использовали NER для лучшего понимания героев книг и исследования их агентивности. Но еще важнее для изучения персонажей оказался метод, называемый разбором зависимостей. Программы для разбора зависимостей анализируют предложение и размечают его синтаксическую структуру. Программа разбора понимает, какие слова связаны между собой и где в предложении подлежащее, сказуемое и дополнение. Как и описанный выше алгоритм разбора по частям речи, эта программа использует информацию из предложений, предварительно разобранных специалистами-людьми. Эта информация помогает определять наиболее вероятную структуру введенных в программу предложений. Для 5-й главы нам нужно было исследовать агентивность героев на основе глаголов, обычно связанных с мужскими и женскими персонажами[253]. Возьмем, например, это предложение из «Сферы»:

    Mae knew Renata was watching her, and she knew her face was betraying something like horror[254]. Пропустив это предложение через программу разбора зависимостей, получаем на выходе следующее:[255]

    nsubj(knew-2, Mae-1)

    root(ROOT-0, knew-2)

    nsubj(watching-5, Renata-3)

    aux(watching-5, was-4)

    ccomp(knew-2, watching-5)

    dobj(watching-5, her-6)

    cc(knew-2, and-8)

    nsubj(knew-10, she-9)

    conj(knew-2, knew-10)

    nmod: poss(face-12, her-11)

    nsubj(betraying-14, face-12)

    aux(betraying-14, was-13)

    ccomp(knew-10, betraying-14)

    dobj(betraying-14, something-15)

    case(horror-17, like-16)

    nmod(betraying-14, horror-17)

    Первая строка вывода показывает связь подлежащего (Mae)[256] с основным глаголом (knew)[257]. Кстати сказать, цифры рядом со словами показывают их порядок в предложении: Mae – первое слово, knew – второе, затем идет Renata и т. д. Обратите внимание: программа заметила связь между Ренатой, другим персонажем романа и глаголом watching[258], а также между местоимением she и вторым вхождением глагола knew. Объединив результаты анализа зависимостей и данные об именах персонажей, полученные с помощью NER, мы смогли понять, какие глаголы характерны для того или иного персонажа. Например, в этом предложении Мэй знает, а Рената наблюдает.

    Из всех задач, с которыми мы столкнулись в ходе исследований, разбор зависимостей требует наибольшего объема вычислительных мощностей. Обработка одного романа занимает до пятнадцати часов, а романов у нас были тысячи. К тому же после разбора нужно было пройти по всем текстам еще раз, чтобы извлечь интересующие нас сочетания подлежащего и сказуемого. Это настолько трудоемкий процесс, что нам понадобился кластер из тысячи компьютеров, чтобы обрабатывать тысячу книг одновременно.

    С точки зрения сложности вычислительных задач самой простой, вероятно, была описанная в 3-й главе – построение сюжетных графиков на основе слов, означающих эмоциональное состояние героев. Ученые, работающие в этой области (она называется «анализ тональности текста»), разработали несколько подходов к исследованию слов, обозначающих эмоции. Самые совершенные из этих методов делают выводы на основе статистических данных – примерно так же, как и программы разбора по частям речи и разбора зависимостей. Сейчас эти методы используются для анализа отзывов потребителей о товарах и услугах, а также для определения общего эмоционального настроя различных текстов, в том числе электронных писем. Мы экспериментировали с разными методами анализа тональности, но оказалось, что для выделения эмоционально нагруженных слов из текста более простые методы работают лучше.

    В методе, который мы сочли наиболее эффективным, использовалось несколько специальных словарей, содержащих эмоционально окрашенные слова. Эти «словари эмоций» представляют собой просто списки слов, для которых указана эмоциональная окраска (положительная или отрицательная) и «валентность». Например, слово «любить» имеет сильную положительную окраску, а «ненавидеть» – сильную отрицательную. Мы научили программу читать книгу слово за словом, регистрировать эмоциональную окраску каждого, а затем давать оценку всему предложению. Последовательности позитивно и негативно окрашенных предложений и создают кривые графиков, приведенные в 3-й главе. Возьмем фразу из речи Эймона в «Сфере»: «Я люблю вас, как трава росинку, как птица ветку». Такое предложение алгоритм определит как положительно окрашенное. Вот еще одна фраза из «Сферы» – ее произносит Энни, только что узнавшая, что ее предки были рабовладельцами: «Ты вообще представляешь, какой бардак сейчас у нас в семье?» Неудивительно, что эту фразу алгоритм пометит как окрашенную отрицательно. Количество положительно и отрицательно окрашенных предложений в отрывке текста, как правило, отражает состояние главного героя в текущий момент и показывает, в каком месте сюжета мы находимся.

    Все процессы интеллектуального анализа текста, которые мы обсуждали до сих пор, имеют дело с выделением и распознаванием отдельных компонентов текста. После вычленения слов уже легко узнать, как часто каждое из них встречается. Определив границы предложений, можно подсчитать, например, среднюю длину предложения или соотношение объема диалогов с объемом остального текста. Выполнив разбор по частям речи, мы можем исследовать типы существительных, прилагательных и глаголов, используемых разными авторами. Можно даже начать искать закономерности, характерные для одних писателей и отсутствующие у других. Извлеченные существительные можно ввести в алгоритм моделирования тем (как было показано во 2-й главе), а результаты разбора зависимостей позволяют нам исследовать синтаксис предложений и увидеть, какие связки «подлежащее – сказуемое» используются в каждой книге.

    Вся эта вычислительная работа – на самом деле лишь подготовка. Обычно ее называют «предобработкой», предшествующей выделению и извлечению параметров текста. Лишь исследовав различные методы извлечения интересующих нас параметров, можно переходить к более интересной работе – использованию этих методов для классификации книг. Эта вторая фаза построения бестселлерометра называется машинным обучением.

    1 ... 47 48 49 50 51 52 53 54 55 56
    Перейти на страницу:
    1. Жалоба
    Отзывы - 0

    Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


    Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

    • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
    • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
    • 3. Просьба отказаться от нецензурной лексики.
    • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

    Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.


    Установить VPN и читай слушай бесплатно

    Новые отзывы

    1. Ксения Ксения24 июнь 18:50 Очень понравился цикл книг "В самом сердце стужи". Интересная история, написанная с огромным вниманием к деталям. Не избитый... В самом Сердце Стужи. Том VII - Александр Якубович
    2. Riya Riya23 июнь 00:13 Остані 20 сторінок ледве дочитала, сам роман тримав в напрузі, але воно того було варте хотілося щоб про Лоренса  більше було і... По праву вражды и истинности - Виктория Вашингтон
    3. awaynice awaynice21 июнь 16:59 Книга в которой начинаешь сходить с ума вместе с героем: было или не было? Ксчастб, она короткая.... Эхо забвения - Хелен Гард
    Все комметарии
    Новинки бесплатной онлайн библиотеки