Правительство Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Национальный исследовательский университет «Высшая школа экономики» Факультет Бизнес-информатики Отделение Прикладной математики и информатики Кафедра Анализа данных и искусственного интеллекта ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА БАКАЛАВРА на тему Вероятностные методы сопоставления литературных текстов Выполнила студентка группы 471 Переславцева Алёна Сергеевна Научный руководитель к.т.н., доцент Чеповский Андрей Михайлович Москва 2014 Оглавление Введение ................................................................................................................... 4 1. История, развитие и становление компьютерной лингвистики как научного направления............................................................................................. 8 1.1. История развития компьютерной лингвистики .......................................... 8 1.2. Наука о языке и математика ....................................................................... 11 1.2.1. Комбинаторная и квантитативная лингвистика .................................... 13 1.2.2. Применение статистических методов в языкознании .......................... 15 2. Математический аппарат для исследования текстов на естественном языке ....................................................................................................................... 16 2.1. Частотный анализ текстов на естественном языке .................................. 16 2.2. Частотный анализ в литературоведческих исследованиях ..................... 21 2.3. Частотные словари поэтов и ранговый корреляционный анализ поэтических текстов.............................................................................................. 22 3. Программное обеспечение для исследования частотных характеристик и рангового корреляционного анализа текстов ..................................................... 24 3.1. Составление частотных словарей .............................................................. 24 3.2. Вычисление коэффициента ранговой корреляции Спирмена ................ 26 3.3. Тестирование и модификация программного обеспечения .................... 27 4. Анализ и сопоставление литературных текстов .......................................... 29 4.1. Применение частотного анализа к поэтическим текстам........................ 30 4.2. Применение рангового корреляционного анализа к поэтическим текстам .................................................................................................................... 33 Заключение ............................................................................................................ 52 Список использованной литературы ................................................................... 56 Приложение 1 ........................................................................................................ 57 2 Приложение 2 ........................................................................................................ 99 3 Введение В современном мире, как научная сфера, так и повседневная жизнь людей невообразима без автоматизированных информационных технологий. На протяжении последних десятилетий их значение стремительно растет. В то время как развитие вычислительной техники и средств коммуникации достигло невероятных успехов, достижения в области смысловой обработки информации несколько скромнее. Это объясняется, прежде всего, тем, что необходимо более глубоко изучить процессы человеческого мышления и формирования речи, а также научиться их моделировать с использованием компьютеров. В настоящее время поиск решения проблем автоматической обработки текстовой информации на естественном языке представляет особый интерес для ученых. Это объясняется тем, что естественный язык является не только инструментом мышления и общения между людьми, но и универсальным средством накопления, хранения, обработки и передачи информации. Применение естественного языка в системах автоматической обработки информации является областью изучения такой науки, как компьютерная лингвистика. Компьютерная лингвистика – сравнительно молодая наука: она возникла около шестидесяти лет назад. Однако за недолгий период существования этой науки были достигнуты значительные успехи, получены определенные научные и практические результаты, а именно: предложены инновационные, перспективные методы и идеи, связанные с разработкой различных прикладных программных систем. К сожалению, пока еще не все из них нашли выражение в программных продуктах, применяемых на практике. Именно поэтому в компьютерной лингвистике существует еще множество областей, требующих глубокого изучения, а также дальнейшего применения на практике полученных результатов. Область приложений компьютерной лингвистики постоянно расширяется. Наиболее известными прикладными 4 задачами являются: информационный поиск, классификация и кластеризация текстов, создание словарей, систем машинного перевода текстов с одних естественных языков на другие и систем автоматического анализа устной речи и многое другое. Данное исследование непосредственно относится к одной из наиболее обширных областей компьютерной лингвистике – автоматической обработке текстовой информации – и посвящено такой проблеме, как выявление сходства между литературной деятельностью поэтов. Актуальность данной работы определяется необходимостью решения различных задач искусственного интеллекта и в частности усовершенствования существующих методов анализа и сопоставления литературных текстов. Построение математических и компьютерных моделей поэтических текстов может найти широкое применение в различных областях, например, в рекомендательных системах. Так, модель, построенная на основании литературных произведений автора, может быть рассмотрена в качестве модели так называемого авторского «художественного мира». В свою очередь умение сравнивать, анализировать и выявлять сходство между литературными произведениями позволит значительно улучшить качество рекомендаций, получаемых пользователями с помощью рекомендательных систем. Кроме того, определение сходств и различий между авторскими текстами позволит решить проблемы вычисления авторского инварианта, установления авторства анонимных и написанных под псевдонимами текстов, а также выявления плагиата в текстах. Ввиду того, что подобного рода задачи стали актуальными для искусственного интеллекта не так давно, то в настоящее время пока лишь небольшое число работ посвящено данной проблеме. Одной из наиболее известных является работа ученого В.С. Баевского, результаты которой подробно изложены в его книге «Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы». 5 В.С. Баевский применял статистические методы (частотный анализ, ранговый корреляционный анализ) для анализа литературной ситуации в поэтическом мире в определенные исторические периоды. Другими словами, автор показал, как можно получить статистическое отображение литературных процессов и явлений в области поэзии. Исследование, проведенное В.С. Баевским, сделало возможным нахождение ответов на многие вопросы, которые ставят перед собой не только филологи и ученые – литературоведы, но и обычные любители поэзии. Например, чье творчество ближе к литературной деятельности Блока – Ахматовой или Гумилева? Какова «связь» между творчеством поэтов, представляющих тот или иной исторический период в литературе? Применение достаточно мощного аппарата математической статистики позволяет проводить глубокое исследование историко-литературных процессов и, возможно, с его помощью в ближайшее время станет возможным найти решение такой актуальной проблемы в литературоведении, как определение наличия или отсутствия влияния одних писателей на других, а также вычисление степени этого влияния. Основными целями данной работы являются выявление сходства между литературной деятельностью русских поэтов, а также определение характеристик, которые могут быть использованы для сопоставления поэтических текстов. Главными задачами проводимого исследования являются: вычисление частотных характеристик литературных текстов; определение «близости» «художественных миров» поэтов; сопоставление поэтических текстов. Предметом исследования является вопрос, связанный с определением того, насколько в рамках одного литературного течения «близки» в своем творчестве поэты, которые, по мнению литературоведов, являются 6 представителями акмеизма, имажинизма, символизма и футуризма – направлений в «поэзии серебряного века. В качестве основных инструментов для проведения данного исследования используются частотный анализ и ранговый корреляционный анализ. В качестве объекта исследования выступают литературные произведения поэтов, чье творчество относится к «поэзии серебряного века» (конец XIX – начало XX вв.). Новизна данной работы заключается в применении частотного и корреляционного анализа к поэтическим текстам с целью разработки методики их сопоставления для выявления «близости» литературной деятельности авторов. Также принципиально новым в данной работе является использование частотных словарей, состоящих из N-грамм, N=3, 4, 5, для сравнения литературных текстов поэтов. Первая глава данной работы рассказывает об истории развития компьютерной лингвистики и основных этапах ее формирования как научного направления. Также в этой главе говорится о взаимодействии науки о языке и математики и о том, как методы математической статистики нашли свое применение при решении ряда задач, в результате чего и была сформирована квантитативная (статистическая) лингвистика. Вторая глава посвящена описанию математического аппарата для исследований текстов на естественном языке и, в частности, для проведения литературоведческих исследований. В третье главе представлено описание программного обеспечения, с помощью которого производится анализ и сопоставление литературных текстов. Четвертая глава рассказывает о результатах применения математических методов для анализа и последующего сопоставления литературных текстов. 7 Завершает работу список использованной литературы и два приложения. 1. История, развитие и становление компьютерной лингвистики как научного направления 1.1. История развития компьютерной лингвистики Процесс становления и формирования современной лингвистики как науки о естественном языке представляет собой длительное историческое развитие лингвистического знания. В основе лингвистического знания лежат элементы, формирование которых происходило в процессе деятельности, неразрывно связанной с освоением структуры устной речи, появлением, дальнейшим развитием и совершенствованием письма, обучением письму, а также толкованием и расшифровкой текстов. Естественный язык как объект лингвистики занимает центральное место в этой науки. В процессе развития языка менялись и представления о нем. Если раньше не придавалось особого значения внутренней организации языка, и он рассматривался, прежде всего, в контексте взаимосвязи с внешним миром, то, начиная с конца XIX – начала XX вв., особая роль отводится внутреннему формальному строению языка. Именно в этот период известным швейцарским лингвистом Фердинандом де Соссюром были разработаны основы таких наук, как семиология и структурная лингвистика, и подробно изложены в его книге «Курс общей лингвистики» (1916). Ученому принадлежит идея рассмотрения языка как единого механизма, целостной системы знаков, что в свою очередь дает возможность описать язык математически. Соссюр первым предложил структурный подход к языку, а именно: описание языка посредством изучения соотношений между его единицами. Под единицами, или «знаками» он понимал слово, которое объединяет в себе и смысл, и звучание. В основе концепции, предложенной швейцарским ученым, лежит теория языка как системы знаков, состоящей из 8 трех частей: языка (от фр. langue), речи (от фр. parole) и речевой деятельности (от фр. langage). Сам ученый определял создаваемую им науку семиологию как «науку, изучающую жизнь знаков в рамках жизни общества».[1] Поскольку язык – это знаковая система, то в поиске ответа на вопрос о том, какое место лингвистика занимает среди других наук, Соссюр утверждал, что лингвистика – это часть семиологии. Принято считать, что именно швейцарский филолог заложил теоретический фундамент нового направления в лингвистике, став основоположником, «отцом» современного языкознания. Концепция, выдвинутая Ф. де Соссюром, получила дальнейшее развитие в работах многих выдающихся ученых: в Дании – Л. Ельмслев, в Чехии – Н. Трубецкой, в США – Л. Блумфилд, 3. Харрис, Н. Хомский. Что касается нашей страны, то здесь структурная лингвистика начала свое развитие примерно в тот же период времени, что и на Западе, – на рубеже XIX-XX вв. - в трудах Ф. Фортунатова и И. Бодуэн де Куртенэ. Следует отметить, что И. Бодуэн де Куртенэ тесно сотрудничал с Ф. де Соссюром. Если Соссюр заложил теоретический фундамент структурной лингвистики, то Бодуэн де Куртенэ может считаться человеком, заложившим основы практического применения методов, предложенных швейцарским ученым. Именно он определил лингвистику как науку, использующую статистические методы и функциональные зависимости, и отделил ее от филологии. Первым опытом применения математических методов в языкознании стала фонология – наука о структуре звуков языка. Следует отметить, что постулаты, выдвинутые Ф. де Соссюром, смогли найти отражение в проблемах лингвистики актуальных в середине XX века. Именно в это период и намечается явная тенденция к математизации науки о языке. Практически во всех крупных странах начинается бурное развитие науки и вычислительной техники, что в свою очередь потребовало все более 9 новых лингвистических основ. Результатом всего этого стало быстрое сближение точных и гуманитарных наук, а также активное взаимодействие математики и лингвистики нашло практическое применение при решении актуальных научных проблем. В 50-е годы XX века на стыке таких наук, как математика, лингвистика, информатика и искусственный интеллект, возникло новое направление науки – компьютерная лингвистика (известной также под названием машинная лингвистика или автоматическая обработка текстов на естественном языке). Основные этапы развития этого направления происходили на фоне эволюции методов искусственного интеллекта. Мощным толчком к развитию компьютерной лингвистики послужило создание первых ЭВМ. Однако с появлением в 60-х годах нового поколения компьютеров и языков программирования начинается принципиально новый этап в развитии этой науки. Также следует отметить, что истоки компьютерной лингвистики восходят к трудам известного американского ученого-лингвиста Н. Хомского в области формализации структуры языка. Результаты его исследований, полученные на стыке лингвистики и математики, сформировали основу для развития теории формальных языков и грамматик (порождающих, или генеративных, грамматик), которая широко применяется для описания как естественных, так и искусственных языков, в частности языков программирования. Если говорить точнее, то эта теория является вполне математической дисциплиной. Ее можно считать одной из первых в таком направлении прикладной лингвистики, как математическая лингвистика. Первые эксперименты и первые разработки в компьютерной лингвистике относятся к созданию систем машинного перевода, а также систем, моделирующих языковые способности человека. В конце 80-х годов с появлением и активным развитием сети Интернет произошел бурной рост объемов текстовой информации, доступной в электронном виде. Это привело к тому, что технологии информационного поиска перешли на качественно 10 новую ступень своего развития. Возникла необходимость автоматической обработки текстов на естественном языке, появились совершенно новые задачи и технологии. Ученые столкнулись с такой проблемой, как быстрая обработка огромного потока неструктурированных данных. С целью найти решение для данной проблемы большое значение стало уделяться разработке и применению статистических методов в области автоматической обработки текстов. Именно с их помощью оказалось возможным решение таких задач, как разбиение текстов на кластеры, объединенные общей тематикой, выделение в тексте определенных фрагментов и т.д. Кроме этого, применение методов математической статистики и машинного обучения позволило решить задачи распознавания речи и создания поисковых систем. Ученые не останавливались на достигнутых результатах: они продолжали ставить перед собой все новые цели и задачи, разрабатывать новые приемы и методы исследования. Все это привело к тому, что языкознание стало выступать в качестве прикладной науки, объединяющей в себе ряд других наук, ведущая роль среди которых принадлежала математике с ее многообразием количественных методов и возможностью их применять для более глубокого осмысления изучаемых явлений. Так начала свое формирование и развитие математическая лингвистика. На данный момент это достаточно «молодая» наука (существует около пятидесяти лет), однако, несмотря на свой весьма «юный возраст», она представляет собой уже сложившуюся область научных знаний с множеством успешных достижений. 1.2. Наука о языке и математика В период научно-технической революции, когда вычислительная техника развивалась очень быстрыми темпами, происходила математизация практически всех сфер человеческой деятельности. Не осталась в стороне даже такая гуманитарная наука, как языкознание. Проникновение в 11 лингвистику математических методов происходила по определенным причинам. Во-первых, в ходе развития теоретической и прикладной лингвистики требовалось введение очень точных и объективных методов для анализа языка и текстов. В то же время применение на практике математических методов и приемов для систематизации и обобщения лингвистического материала, а также качественная интерпретация полученных результатов предоставили ученым-лингвистам возможность глубже проникнуть и осознать скрытые на первый взгляд особенности образования языка и построения текстов. Во-вторых, слияние языкознания с другими, совершенно не похожими на него научными областями такими, как кибернетика, вычислительная техника, физиология высшей нервной деятельности и многие другие, невозможно без участия математических дисциплин, а точнее языка математики, характеризующегося высокой степенью общности и универсальности. Отдельно следует отметить, что математизация гуманитарной науки лингвистики происходила по причине того, что в системах машинного перевода и человеко-машинного диалога, также в информационных и управленческих системах сообщения на естественном языке должны быть представлены в той форме, которая будет «понятна» компьютеру, а именно перекодирована в математический язык. Говоря о взаимодействии науки о языке и математики, следует иметь в виду тот факт, что естественный язык, также как и язык математики являются семиотическими, или знаковыми, системами. Это взаимодействие требует, чтобы каждому лингвистическому объекту был поставлен в соответствие некоторый математический объект. Например, слово и составляющие его буквы, слоги, фонемы и т.д. должны быть представлены с помощью математических обозначений. Другими словами, подобная математическая интерпретация включает в себя выделение в 12 лингвистическом объекте смысловых компонент, которые и становятся объектом дальнейшего исследования. Главной целью применения математических методов в языкознании является замена интуитивно сформулированной лингвистической задачи, не имеющей полного решения, одной или несколькими понятными, четко сформулированными, алгоритмизированными математическими задачами. Подобный подход крайне необходим, прежде всего, при решении проблем и задач прикладной лингвистики, связанных с анализом устной речи и автоматической обработкой текстов (составление частотных словарей, пословный, а также семантический машинный перевод). 1.2.1. Комбинаторная и квантитативная лингвистика Выбор соответствующего математического аппарата для различных лингвистических исследований очень важен. В первую очередь он зависит от того, как определяется предмет и основные понятия структурноматематической лингвистики. Многие ученые-лингвисты считают, что основным объектом для изучения в структурно-математической лингвистике являются грамматики, порождающие текст. Под грамматикой понимается конечное множество детерминированных правил, а под языком – бесконечное число регулярных цепочек слов, которые порождаются этой грамматикой. При таком подходе обычно опираются на методы так называемой «неколичественной» математики, в которой доминирующая роль отведена математической логике, теории алгоритмов, теории множеств. Что касается «количественных» математических методов – теории вероятностей, математической статистики, математического анализа, – то они используются в качестве методов, играющих, как правило, вспомогательную роль. Таким образом, в зависимости от того, какой 13 математический аппарат – «качественный» («неколичественный») или «количественный» – применяется, в теоретическом языкознании выделяют соответственно комбинаторную и квантитативную лингвистику. Решение важнейших задач и проблем современной прикладной лингвистики становится возможным только в случае применения методов как «качественной», так и «количественной» математики. Говоря подробнее о термине квантитативная лингвистика, следует отметить, что он характеризует междисциплинарное направление в исследованиях прикладной лингвистики, в котором в качестве основного инструмента изучения языка выступают статистические методы анализа. Этот раздел науки о языке изучает частотные характеристики языка – слов, словосочетаний, синтаксических конструкций и др. При этом используются методы теории вероятностей и математической статистики, поэтому эту науку часто называют статистической лингвистикой. С теоретической точки зрения, применение статистических методов в лингвистических исследованиях позволяет создать структурновероятностную модель языка, другими словами, структурная языковая модель дополняется вероятностными компонентами. В результате чего ее так называемый «объяснительный потенциал» значительно возрастает. С этой точки зрения, количественные методы математики могут рассматриваться в качестве приложения статистики в языкознании. Иначе говоря, задача построения структурно-вероятностной модели языка принадлежит к числу актуальных теоретических проблем современной лингвистики. Что касается прикладной области языкознания, то здесь квантитативная лингвистика представлена определенными фрагментами данной языковой модели, широко используемыми для мониторинга функционирования языка, атрибуции текста, дешифровки кодированного текста и много другого. 14 В силу всего вышесказанного, статистическая лингвистика как прикладное направление науки о языке ориентирована на создание модели рассматриваемой предметной области, обладающей только теми свойствами, которые необходимы для решения конкретной практической лингвистической задачи. Говоря другими словами, в то время как теоретические исследования имеют своей целью дать полное и подробное описание проблемной области со всеми ее особенностями, прикладная наука стремится найти решения для конкретных задач. Следует отметить, что прикладные модели языка, в отличие от теоретических, часто ориентированы на подъязыки, а не на весь язык в целом. Более того они требуют большей степени формализации, безусловно, «огрубляют» представления о моделируемом объекте и не накладывают жестких ограничений на инструментарий, используемый при моделировании. 1.2.2. Применение статистических методов в языкознании Использование подсчетов и измерений в лингвистике при изучении языка и речи опирается главным образом на математическую статистику. Именно по этой причине подобные методы и носят название статистических методов. Как и все математические методы, они обладают свойством общности и универсальности, поэтому могут быть применимы к объектам различной природы. В лингвистике количественные методы применяются для анализа единиц языка любого уровня. Например, при решении прикладных задач фонетики ученые опираются на тот же математический аппарат, что и при изучении физики. В то же время при использовании статистических методов в языкознании возникают специфические аспекты, связанные с противопоставлением таких понятий, как язык и речь. Основным объектом применения количественных методов является речь, а точнее текст. Именно методы математической статистики дают возможностью вычислить значения 15 определенных показателей, которые дают информацию о самом тексте. Ярким примером является статистическая стилистика, которая основана на том факте, что различия между стилями и жанрами языка носят статистический характер. Также применение количественных методов дает возможность отражать тематическую отнесенность текстов языка через лексику, проводить описание и классификацию текстов (например, при атрибуции текстов, в частности при установлении авторства анонимных текстов) на основе подсчета стилистических особенностей изучаемых произведений. 2. Математический аппарат для исследования текстов на естественном языке 2.1. Частотный анализ текстов на естественном языке Современные статистические методы, широко применяемые при решении различных проблем и задач компьютерной лингвистики, основываются главным образом на обработке информационных ресурсов, представленных в виде корпусов текстов. Под корпусами текстов понимают набор (совокупность, коллекцию) текстов (документов). Именно они являются основным источником создания специальных словарей, а также предоставляют возможность для создания и дальнейшего усовершенствования инструментария автоматического анализа различных текстов. Одним из наиболее мощных инструментов анализа естественных языков, в основе которого лежат методы математической статистики, является составление частотных словарей. Частотный словарь – разновидность словаря (как правило, одноязычного), в котором лексические единицы характеризуются с точки зрения частоты их употребления в коллекции (совокупности) текстов, которые могут представлять или язык в 16 целом, или определенный функциональный стиль речи, или творчество определенного автора. В зависимости оттого, какие лексические единицы используются, различают частотные словари слов, словоформ, основ слов, словосочетаний и т.п. Применение использовать статистических такое методов понятие, в как лингвистике требует словоупотребление. Под словоупотреблением понимается любой «графически подозрительный» на слово набор букв между разделителями (пробелами, знаками препинания). Естественно, одно слово (в разных формах) может использоваться в тексте несколько раз. При этом каждый раз это будет рассматриваться как новое словоупотребление. По этой причине количество словоупотреблений в тексте – это количество встреченных наборов символов, которые понимаются как слова при просмотре текста. Принято различать абсолютную и относительную характеристики употребительности лексической абсолютной лексических единицы в единиц. коллекции характеристикой. Частота исследуемых Что качается появления тексов данной называется относительной характеристики, то для ее вычисления необходимо разделить частоту употребления данной лексической единица на общее количество слов в рассматриваемом тексте (корпусе текстов). Пусть частотный словарь содержит i-тую словоформу и соответствующую ей частоту 𝐹𝑖 , тогда 𝐹𝑖 = 𝑁𝑖 𝑁 , (1) где 𝑁 – общее количество слов или словоформ, встреченных в исследуемом тексте, либо в совокупности текстов, либо во всех текстах на данном языке, 𝑖 – данная словоформа, 𝑁𝒊 – количество вхождений данной лексической единицы во множество всех встреченных слов или словоформ. 17 Важным для составления частотных словарей является использование такого понятия, как ранг. Рангом слова называют порядковый номер этого слова в частотном словаре, в котором все лексические единицы упорядочены по частоте. Как правило, слова в частотном словаре располагаются по уменьшению частоты их употребления. Таким образом, чаще всего под рангом слова имеют в виду номер этого слова в словаре, упорядоченном по уменьшению частоты слов. Получаем, что для описания частотных словарей языка мы имеем такие понятия, как: словоупотребление; частота употребления слов – количество конкретных словоупотреблений в совокупности текстов, деленное на общее количество словоупотреблений; частотный словарь, составленный и словоформ с частотами их употреблений; ранг слова (если словоформы в частотном словаре упорядочены по уменьшению частоты). В большинстве частотных словарей представлены значения как абсолютных, так и относительных характеристик употребительности лексических единиц. В роли относительной характеристики может выступать либо ранг слова, либо какой-то другой признак, по которому ранг может быть вычислен с определенной точностью. Обычно частотные словари строятся не для одного текста, а для корпусов текстов. То есть, берется набор текстов, например, из определенной предметной области или представительный для языка в целом, для конкретного функционального стиля речи, для творчества конкретного автора, и из него извлекаются словоформы, части речи, словосочетания или основы слов. 18 Следует отметить, что при составлении частотных словарей могут возникнуть следующие вопросы и сложности: будут ли идентичными результаты, полученные на разных корпусах текстов; всплеск частоты отдельных слов в зависимости от смысловой направленности текстов; нерациональное ранжирование менее частотных слов (сложно определить их позиции в частотном словаре). Все эти проблемы можно объяснить тем, что употребление слов языка, со статистической точки зрения, представляет собой большое количество редких событий. Другими словами, лишь небольшое число слов языка используется очень часто, в то время как подавляющее большинство лексических единиц употребляется крайне редко. Несмотря на определенные сложности, возникающие при составлении списков слов по частоте их употребления, подобного рода словари являются полезным инструментом для сравнения двух корпусов текстов, позволяя определить слова наиболее характерные для каждого из них. Кроме этого, они используются для разработки высокоэффективных методик обучения языку, а также для решения многих задач в различных областях (информатика, теория связи). Как уже было отмечено, частотные словари применяются для анализа и сравнения двух корпусов текстов. По причине того, что коллекции исследуемых текстов могут иметь разный объём, учеными-лингвистами была введена такая оценка частоты, как частота на миллион словоформ (чмс), или instances per million words (ipm). На практике для определения списка ключевых слов, характеризующих исследуемые корпуса текстов, применяются разнообразные статистические меры. 19 Значительная часть частотных словарей, создаваемых в современное время, помимо частотных характеристик словоупотреблений содержат информацию о частоте встречаемости отдельных букв или буквосочетаний в определенных текстах на одном из естественных языков. Кроме частотных словарей, составленных для общих корпусов текстов на естественных языках, особый интерес для решения многих практических задач представляют списки слов по частоте их употребления, составленные ограниченных множеств текстов: корпусов авторских текстов, текстов определенной тематики. Например, частотные словари используются при сравнении политических текстов, что позволяет делать выводы о направленности действий не только отдельных политиков и политических партий, но и целых государств. Самый первый частотный словарь русского языка был опубликован в 1953 году и состоял из 1700 слов [6]. В научной школе в Таллине в 1963 году был издан первый в Советском Союзе частотный словарь русского языка [5], включающий в себя 2500 слов. Такое небольшое количество слов (1700 и 2500) в словарях объясняется тем, что все вычисления проводились лингвистами вручную. Использование ЭВМ для создания списка слов по частоте их употребления для русского языка произошло в 1977 году. Так был составлен частотный словарь Л.Н. Засориной, содержащий 40000 слов [3]. Однако при создании этого словаря обрабатывались в основном тексты, связанные с атрибутикой советской власти, и по этой причине в него входило очень мало слов, используемых в настоящее время. Так начинает свое формирование научное направление, занимающееся составлением списков слов по частоте их употребления с использованием компьютерных технологий. Таким образом, частотный словарь представляет собой список слов, в котором все лексические единицы расположены в порядке, соответствующем уменьшению частоты их употребления. В таком словаре порядковый номер 20 каждого слова представляет собой его ранг. Ранг может выступать в качестве относительной характеристики употребительности лексических единиц, а абсолютной характеристикой служит частота появления данного словоупотребления или слова в исследуемой совокупности текстов. Обычно в частотных словарях представлены данные как об абсолютных, так и об относительных характеристиках употребительности слов. В зависимости от разновидности лексических единиц различают частотные словари слов, словоформ, основ слов, словосочетаний и т.п. Несмотря на то, что первый частотный словарь был составлен около шестидесяти лет назад, в настоящее время подобного рода словари является очень эффективным и широко используемым на практике инструментом для решения многих проблем искусственного интеллекта. Главной целью составления списков слов по частоте является анализ корпусов текстов, определение наиболее характерных для них слов и последующий сравнительный анализ. 2.2. Частотный анализ в литературоведческих исследованиях Первым, кто применил математические методы для анализа литературных текстов, был один из известнейших математиков Андрей Андреевич Марков (старший). В 1913 году вышла в свет его работа, посвященная результатам применения статистических методов для анализа произведения А.С. Пушкина «Евгений Онегин». Исследование поэтического текста романа проводилось ученым с целью проанализировать то, как распределены гласные и согласные буквы среди первых 20000 букв. Позже подобного рода исследования были проведены на текстах других литературных произведений. Метод цепей А.А. Маркова нашел широкое применение в современных исследованиях текстов на естественном языке. Например, эта методика активно используется для анализа литературных произведений с целью определения авторства текста. 21 Особого внимания заслуживает применение математических методов для анализа стихотворной речи. Значительный вклад в использование методов теории вероятностей и математической статистики для анализа поэтических текстов внес великий ученый Андрей Николаевич Колмогоров. А.Н. Колмогоров занимался математическим моделированием поэтических текстов русских авторов XX века. Ученый исследовал ритмику произведений известных поэтов таких, как А. С. Пушкин, М. И. Цветаева, А. А. Ахматова, Б.Л.Пастернак и многие другие. В основе исследований, проводимых А.Н. Колмогоровым, лежало утверждение, которое состояло в том, что в поэтических текстах имеют место определенные количественные закономерности, и их можно рассматривать без привязки к содержанию произведения. По мнению ученого, главное отличие поэтических текстов от других литературных текстов заключается в том, что каждый стих характеризуется так называемой «внутренней мерой», а именно поэтическим метром. Поэтическим метром А.Н. Колмогоров называл закономерность ритма, случаи нарушения которого можно четко зафиксировать. Таким образом, для исследования и описания поэтических текстов были введены методы, использующие аппарат математической статистики. 2.3. Частотные словари поэтов и ранговый корреляционный анализ поэтических текстов Частотные словари представляют собой очень эффективный инструмент для проведения литературоведческих исследований. Так, например, применение частотного и рангового корреляционного анализа позволило В.С. Баевскому проанализировать литературную ситуацию, наблюдаемую в различные периоды в поэтическом мире, и помогло найти ответы на многие вопросы филологов и литературоведов. Например, В.С. Баевский показал, как можно проводить сравнение «художественных миров» и творчества 22 поэтов, а также определять «связь» между литературной деятельностью писателей. Ученым было предложено рассматривать частотный словарь, составленный на основании какого-то конкретного произведения или же совокупности литературных произведений, написанных определенным автором, в качестве математической модели литературного текста или поэтического мира автора и произведения. Сравнение частотных словарей заключается в сравнении наиболее частотных в них слов. «Расстояние» между списками слов по частоте их употребления можно рассматривать в качестве характеристики «близости» «художественных миров» поэтов или тематики поэтических произведений. Учеными был проведен анализ произведений знаменитых русских поэтов – Пушкина, Лермонтова, Тютчева и т.д. – и были составлены соответствующие им частотные словари. Результаты исследований показали, что для полноценного сопоставления частотных словарей достаточно рассмотреть30 наиболее частотных слов. Построение математической модели «связи» между частотными словарями, характеризующей «близость» словарей, происходит на основании рангового корреляционного анализа. С этой целью каждому слову в отсортированном по уменьшению частоты словаре ставится в соответствие его порядковый номер. Если за di обозначить разницу рангов i-того слова словаря размером N (i=1,…,N), то можно вычислить коэффициент ранговой корреляции Спирмена по формуле: 𝑅 =1− 6 𝑁(𝑁2 −1) 2 ∑𝑁 𝑖=1 𝑑𝑖 (2) Его значение позволяет определить «связь» между частотными словарями и, как следствие, «близость» творчества поэтов. 23 Как известно, коэффициент ранговой корреляции Спирмена принимает значения от -1 до 1. Рассмотрим следующие возможные варианты: R=1 указывает на наличие прямой зависимости, то есть, на полное совпадение двух словарей; R=0 говорит об отсутствии зависимости между рассматриваемыми словарями; R= -1 указывает на наличие обратной зависимости, характеризующей ситуацию в которой слова, наиболее частотные в одном словаре, наименее частотны в другом; 0<R<1 указывает на существование прямой с некоторой вероятностью зависимости между словарями, свидетельствующей об их близости; -1<R<0 указывает на существование обратной с некоторой вероятностью зависимости между словарями, свидетельствующей о противостоянии двух частотных словарей. Вывод о «близости» словарей делается на основании принадлежности значения коэффициента корреляции допустимому интервалу. Следует отметить, что рассмотренный выше подход к исследованию и сравнению поэтических текстов нашел широкое применение в литературоведении. 3. Программное обеспечение для исследования частотных характеристик и рангового корреляционного анализа текстов Для анализа и сопоставления литературных текстов были использованы базовые варианты программ под названием «FrequencyDictionary» и «Spearman». 3.1. Составление частотных словарей Для проведения частотного анализа литературных текстов и составления частотных словарей поэтов была использована программа «FrequencyDictionary», которая включает в себя исполняемый файл 24 «01_FrequencyDictionary.exe», а также вспомогательные файлы: «ru_dict.bin» - словарь русского языка и «config.cfg» - конфигурационный файл модуля построения словарей. Для построения частотного словаря исследуемый текст (исходные данные) должен находиться в кодировке UTF-8 и иметь расширение “.txt". Его название будет соответствовать названию будущего частотного словаря. В конфигурационном файле «config.cfg» содержится описание параметров необходимых для корректной работы программы «01_FrequencyDictionary.exe». Другими словами, файл содержит список частей речи, наборов частей речи, а также N-грамм, настраивая который можно строить частотные словари, состоящие как из определенных частей речи, так и из различных их комбинаций. Кроме того, в данном варианте программы возможно построение частотных словарей для именных групп, глагольных групп и N-грамм, где N=1, …, 8. Для того, чтобы построить частотный словарь с необходимым набором признаков, то есть словарь, содержащий только слова определенных частей речи, необходимо при настройке параметров конфигурационного файла поставит значение 1 напротив тех типов признаков, которые будут включены, и соответственно 0 – напротив тех типов признаков, которые не должны быть включены в частотный словарь. В настоящее время программа «FrequencyDictionary» построения частотных словарей способна обрабатывать языки, основанные на кириллице. При необходимости ее также можно модифицировать для работы с языками, основанными на латинице. В результате работы программы создаются частотные словари в формате «dictionary_<имя соответствует словаря>.txt». количеству входных Количество файлов. На созданных словарей выходе программы 25 составленный частотный словарь содержит только те признаки, которые были отмечены в конфигурационном файле. Отдельно следует «CreateBarChart» в виде отметить, что исполняемого с помощью файла программы «CreateBarChart.exe» построенные частотные словари возможно представить в виде столбчатой диаграммы. Говоря точнее, по каждому из словарей автоматически строится гистограмма, отражающая частоту встречаемости каждой словоформы из словаря в тексте. Это позволяет визуализировать словари для удобства их дальнейшего анализа. На гистограмме отображаются первые 30 наиболее частотных слов по той причине, что, согласно мнению многих ученыхлингвистов, именно такого количества слов достаточно для проведения полноценного анализа исследуемого текста. В результате выполнения программы «CreateBarChart» создаются файлы с расширением «.xls», в которых будут представлены графики соответствующих частотных словарей. 3.2. Вычисление коэффициента ранговой корреляции Спирмена Между частотными словарями, построенными с помощью программы «FrequencyDictionary», необходимо посчитать значение коэффициента ранговой корреляции Спирмена. Для его вычисления использовалась программа «Spearman». Входными параметрами для данной программы являются текстовые файлы “.txt” в кодировке UTF-8, содержащие частотные словари, полученные с помощью программы «01_FrequencyDictionary.exe». В результате работы программы в той же директории, где расположен исполняемый файл «02_СountSpearman.exe»., создается текстовый файл «metrices.txt». Структура файла следующая: в каждой строке результирующего файла содержатся текст 26 “spearman(<название частотного словаря_1>, <название частотного словаря_2>) = <значение коэффициента ранговой корреляции Спирмена>” При подсчете коэффициента ранговой корреляции может получиться значение NaN. Это означает, что частотный словарь, составленный по данному тексту, содержит менее пяти элементов из проранжированного списка слов. Другими словами, мощность их пересечения составляет менее пяти элементов. Общая схема работы программы “02_СountSpearman.exe” такова: 1. считывание входных данных – частотных словарей, созданных по текстам с помощью «01_FrequencyDictionary.exe»; 2. вычисление коэффициента ранговой корреляции Спирмена между частотными словарями, построенными на основе анализируемых текстов, с использованием формулы (2). 3.3. Тестирование и модификация программного обеспечения В ходе данного исследования обе программы – «FrequencyDictionary» и «Spearman» – были протестированы на различных корпусах поэтических текстов, и в ходе чего были обнаружены некоторые ошибки и неточности в реализации. Так, исходный вариант программы «FrequencyDictionary», предоставленный для проведения анализа частотных характеристик литературных текстов, вычислял частоту 𝐹𝑖 i-того слова по следующей формуле: 𝐹𝑖 = 𝑁𝑖 𝑛 , (3) где 𝑛 – общее количество тех слов или словоформ в исследуемом тексте, которые обладают признаком, указанном в конфигурационном файле, (то 27 есть, являются определенной частью речи), 𝑖 – данное слово, 𝑁𝒊 – количество вхождений данной лексической единицы, являющейся указанной частью речи, во множество всех встреченных слов или словоформ. Однако в соответствии с правилами составления частотных словарей и вычисления частоты употребления слова в знаменателе данной формулы должно находиться общее количество всех слов в тексте в не зависимости от того, к какой части речи они относятся. При тестировании программы «FrequencyDictionary» данная ошибка была замечена. Впоследствии в программу были внесены соответствующие коррективы, что позволило безошибочно вычислять частоту слов для последующего составления частотных словарей. Кроме этого, после того, как были составлены частотные словари для различных корпусов поэтических текстов, практически в каждом из них был обнаружен ряд слов, не существующих в русском языке, такие, как «вс», «акваль», «химизм», «многополный» и т.п. Это было связано с тем, что морфологический словарь русского языка, представленный во вспомогательном файле «ru_dict.bin», был неполон, а также содержал некоторые неточности. Также в ходе работы данной программы некоторые слова записывались в один и тот же частотный словарь несколько раз, причем с различными частотами. Подобного рода ошибки в работе программы были исправлены, что позволило провести точный ранговый корреляционный анализ частотных словарей поэтов. После выявления всех этих ошибок разработчикам были предложены варианты для дальнейших модификаций обеих программ. Таким образом, после того, как в данные программы были внесены соответствующие изменения, стало возможным их применения для анализа и сопоставления литературных текстов поэтов. 28 4. Анализ и сопоставление литературных текстов Главной целью исследования, проводимого в рамках выпускной квалификационной работы, является анализ и сопоставление литературных текстов посредством применения методов математической статистики. Объектом исследования являются литературные произведения русских поэтов, творчество которых относится к периоду с конца XIX по начало XX вв., а именно к «серебряному веку» русской литературы. Как известно, в литературе «серебряного века» принято выделять различные литературные направления такие, как символизм, акмеизм, футуризм, кубофутуризм, эгофутуризм, новокрестьянская поэзия и имажинизм, каждое из которых имеет свои отличительные особенности. Так, например, представители символизма поднимали в своих произведениях глобальные вопросы идеалистической философии, в то время как поэты, представляющие акмеизм, провозглашали материальность, точность слова и образов. Для проведения данного исследования были выбраны двенадцать наиболее известных и выдающихся русских поэтов, являющиеся представителями таких течений «серебряного века», как акмеизм, имажинизм, символизм и футуризм: А.А. Ахматова, Н. С. Гумилев, О. Э. Мандельштам (акмеизм); С.А. Есенин, А.Б. Мариенгоф, В.Г. Шершеневич (имажинизм); К.Д. Бальмонт, А. Белый, А.А. Блок (символизм); Д.А. Бурлюк, В.В. Маяковский, И. Северянин (футуризм). Далее творчество вышеуказанных поэтов было подробно изучено, и для каждого из них были составлены корпуса поэтических текстов. На данном этапе работы главной целью являлось выбрать и включить в соответствующие коллекции текстов как можно больше произведений рассматриваемых поэтов для того, чтобы объем составляемых корпусов был 29 достаточным для проведения глубокого анализа и дальнейшего сопоставления литературных текстов. Применение математических методов для сопоставления поэтических текстов позволяет найти ответ на главный вопрос данного исследования: насколько «близки» друг другу русские поэты в своем творчестве, насколько «близки» их «художественные миры»? 4.1. Применение частотного анализа к поэтическим текстам После того, как для каждого из выбранных поэтов были составлены и подготовлены для дальнейшей автоматической обработки текстовые корпуса, с помощью программы «FrequencyDictionary» были составлены частотные словари поэтов, отражающие «художественный мир» каждого из них. В рамках работы над дипломным проектом были составлены частотные словари только для определенных частей речи (имен существительных, имен прилагательных и причастий, наречий, глаголов), а также N-грамм для случаев, когда N=3, 4, 5. С помощью программы «CreateBarChart» полученные частотные словари были визуализированы в виде столбчатых диаграмм, отражающих 30 наиболее часто употребляемых поэтом в своих произведениях слов данной части речи, а также соответствующие значения частот. Результаты частотного анализа поэтических текстов поэтов «серебряного века» представлены в Приложении 1. Как показывают результаты частотного анализа поэтических произведений, относящихся к «серебряному веку», частотные словари представителей одних и тех же литературных направлений содержат большое количество одинаковых слов. Это говорит о том, что поэты, относящиеся к одним литературным течениям, «близки» друг другу в своем творчестве, а их «художественные миры» обладают определенным «сходством». 30 Среди наиболее частотных слов, употребляемых представителями акмеизма в своих поэтических произведениях, можно выделить следующие: «год», «день», «ночь», «небо», «человек», «душа», «сердце» (имена существительные); «полный», «большой», «любимый», «зеленый», «черный», «темный», «высокий» (имена прилагательные и причастия); «всегда», «долго», «здесь», «страшно», «где» (наречия); «быть», «мыть», «жить», «знать», «хотеть», «говорить» (глаголы). Среди наиболее частотных слов, употребляемых представителями имажинизма в своих поэтических произведениях, можно выделить следующие: «глаз», «год», «день», «любовь», «ночь» (имена существительные); «белый», «новый», «любимый», «золотой» (имена прилагательные и причастия); «вместе», «где», «еще», «снова» (наречия); «быть», «идти», «мыть» (глаголы). Среди наиболее частотных слов, употребляемых представителями символизма в своих поэтических произведениях, можно выделить следующие: «ветер», «год», «день», «небо», «ночь», «сердце» (имена существительные); «белый», «нежный», «тихий», «черный» (имена прилагательные и причастия); «вдруг», «где», «вновь», «опять» (наречия); «быть», «видеть», «глядеть», «знать», «любить» (глаголы). 31 Среди наиболее частотных слов, употребляемых представителями футуризма в своих поэтических произведениях, можно выделить следующие: «глаз», «год», «жизнь», «небо», «ночь», «человек» (имена существительные); «белый», «большой», «живой» (имена прилагательные и причастия); «вдруг», «вновь», «где», «опять» (наречия); «быть», «видеть», «дать», «любить», «жить» (глаголы). Также нельзя не отметить, что между частотными словарями всех рассматриваемых поэтов «серебряного века» вне зависимости от того, к какому направлению литературы они относятся, наблюдается некоторое сходство в наиболее часто употребляемых словах. Интересно отметить, что среди имен существительных, имен прилагательных, причастий, а также глаголов, которые поэты «серебряного века» употребляли в своих произведениях, наиболее частотными являются такие слова, как «год», «душа», «любовь», «жизнь», «небо», «человек», «полный», «живой», «любимый», «быть», «жить», «любить», «знать». Безусловно, эти слова придают творчеству русских поэтов поэтическое звучание и помогают передать переживания, всю глубину чувств и мыслей авторов. В данной работе было проведено сравнение частоты для имен существительных, имен прилагательных и причастий, наречий, глаголов, а также N-грамм, N=3, 4, 5, для корпусов поэтических текстов поэтов, являющихся представителями акмеизма, имажинизма, символизма и футуризма. Для всех одинаковых слов из частотных словарей поэтов, представляющих одно литературное направление, вычислим разность рангов. 32 На основании полученных результатов были построены гистограммы распределения разностей рангов одинаковых слов соответствующих частей речи. Результаты представлены в Приложении 2. 4.2. Применение рангового корреляционного анализа к поэтическим текстам В результате проведения частотного анализа произведений русских поэтов «серебряного века» были получены частотные словари каждого из рассматриваемых авторов для имен существительных, имен прилагательных и причастий, наречий, глаголов, а также N-грамм при N=3, 4, 5. Списки наиболее частотных слов, используемых авторами в своих литературных произведениях, являются отражением «художественных миров» поэтов, а также характеризуют неповторимый стиль их творчества. Одной из основных задач проводимого исследования является определение «близости» «художественных миров» поэтов, которые являются представителями различных направлений литературы «серебряного века». С этой целью было проведено вычисление коэффициента ранговой корреляции Спирмена между частотными словарями поэтов (для каждой из рассматриваемых частей речи и N-грамм, N=3, 4, 5), относящихся к одному направлению. Именно значение метрики Спирмена рассматривается в данном случае в качестве числовой характеристики, определяющей степень «близости» творчества русских поэтов. Результаты рангового корреляционного анализа представлены ниже (см. таблицы 1 – 12). 33 Акмеизм Таблица 1 Значение коэффициента корреляции Спирмена между частотными словарями Ахматовой и Гумилева Часть речи Коэффициент Гла- Имена Имена голы существи- прилагательные тельные и причастия 0,493 0,561 0,532 Наречия N=3 N=4 N=5 0,553 0,859 0,685 0,494 корреляции 0,523 0,444 Глаголы Существительные 0,455 Прилагательные и причастия 0,701 Наречия 0,44 N=3 N=4 0,868 0,508 N=5 Рис. 4.2.1. Значение коэффициента корреляции Спирмена между частотными словарями Ахматовой и Гумилева Как видно из таблицы 1, наибольшее значение коэффициент корреляции принимает между частотными словарями, состоящими из имен прилагательных и причастий. Однако следует отметить, что между словарями, состоящими из других частей речи, корреляция также достаточно высока. 34 Что касается частотных словарей Ахматовой и Гумилева, включающих в себя N-граммы, N=3, 4, 5, то между ними наблюдается очень сильная «связь». Так, для случая, когда N=3, коэффициент корреляции достигает наибольшее из значений, представленных в таблице 1. Таблица 2 Значение коэффициента корреляции Спирмена между частотными словарями Ахматовой и Мандельштама Часть речи Коэффициент Гла- Имена Имена голы существи- прилагательные тельные и причастия 0,476 0,5 0,523 0,444 0,497 Наречия N=3 N=4 N=5 0,464 0,851 0,658 0,468 корреляции Глаголы Существительные 0,455 Прилагательные и причастия 0,701 Наречия 0,44 N=3 N=4 0,868 0,508 N=5 Рис. 4.2.2. Значение коэффициента корреляции Спирмена между частотными словарями Ахматовой и Мандельштама Согласно таблице 2, коэффициент корреляции принимает близкие значения между частотными словарями, состоящими из различных самостоятельных частей речи. Наибольшее значение коэффициента наблюдается между словарями из имен прилагательных и причастий. 35 Корреляция между словарями, состоящими из триграмм, очень высокая и составляет более 0,8. Таблица 3 Значение коэффициента корреляции Спирмена между частотными словарями Гумилева и Мандельштама Часть речи Коэффициент Гла- Имена Имена голы существи- прилагательные тельные и причастия 0,509 0,559 0,534 Наречия N=3 N=4 N=5 0,542 0,879 0,715 0,554 корреляции 0,523 0,444 Глаголы Существительные 0,455 Прилагательные и причастия 0,701 Наречия 0,44 N=3 N=4 0,868 0,508 N=5 Рис. 4.2.3. Значение коэффициента корреляции Спирмена между частотными словарями Гумилева и Мандельштама Согласно таблице 3, коэффициент корреляции принимает наибольшее значение между словарями, составленными из имен прилагательных и причастий. Что касается словарей, включающих в себя остальные части речи, то корреляция между ними несколько меньше, однако больше 0,5. Это говорит о наличии достаточно сильной «связи» между ними и, как следствие, между творчеством рассматриваемых поэтов. Как и в предыдущих случаях, 36 между частотными словарями, состоящими из N-грамм, N=3, 4, 5, наблюдается высокая корреляция. Имажинизм Таблица 4 Значение коэффициента корреляции Спирмена между частотными словарями Есенина и Мариенгофа Часть речи Коэффициент Гла- Имена Имена голы существи- прилагательные тельные и причастия 0,28 0,447 0,523 0,444 0,165 Наречия N=3 N=4 N=5 0,427 0,581 0,324 0,251 корреляции Глаголы Существительные 0,455 Прилагательные и причастия 0,701 Наречия 0,44 N=3 N=4 0,868 0,508 N=5 Рис. 4.2.4. Значение коэффициента корреляции Спирмена между частотными словарями Есенина и Мариенгофа Среди частотных словарей, состоящих из самостоятельных частей речи, наибольшая корреляция наблюдается между словарями из имен прилагательных и причастий. Нельзя не отметить, что «связь» между частотными словарями, состоящими из глаголов и имен существительных, очень слабая, и корреляция в данных случаях составляет менее 0,3. В отличие 37 от случаев, рассмотренных выше, корреляция между словарями Есенина и Мариенгофа, состоящими из N-грамм, N=3, 4, 5, значительно ниже. Таблица 5 Значение коэффициента корреляции Спирмена между частотными словарями Есенина и Шершеневича Часть речи Коэффициент Гла- Имена Имена голы существи- прилагательные тельные и причастия 0,494 0,538 0,478 Наречия N=3 N=4 N=5 0,538 0,866 0,686 0,511 корреляции 0,523 0,444 Глаголы Существительные 0,455 Прилагательные и причастия 0,701 Наречия 0,44 N=3 N=4 0,868 0,508 N=5 Рис. 4.2.5. Значение коэффициента корреляции Спирмена между частотными словарями Есенина и Шершеневича Согласно таблице 5, коэффициент корреляции принимает наибольшее значение в случае рассмотрения частотных словарей, состоящих из имен прилагательных и причастий, а также наречий. Что касается словарей для других частей речи, то корреляция между ними также достаточно высока и составляет чуть меньше, чем 0,5. Между словарями, состоящими из N-грамм, N=3, 4, 5, «связь» очень сильная, особенно в случае, когда N=3. 38 Таблица 6 Значение коэффициента корреляции Спирмена между частотными словарями Мариенгофа и Шершеневича Часть речи Коэффициент Гла- Имена Имена голы существи- прилагательные тельные и причастия 0,287 0,398 0,096 Наречия N=3 N=4 N=5 0,346 0,579 0,323 0,258 корреляции 0,523 0,444 Глаголы Существительные 0,455 Прилагательные и причастия 0,701 Наречия 0,44 N=3 N=4 0,868 0,508 N=5 Рис. 4.2.6. Значение коэффициента корреляции Спирмена между частотными словарями Мариенгофа и Шершеневича Согласно результатам, представленным в таблице 6, между частотными словарями, состоящими из глаголов, имен существительных, имен прилагательных и причастий, а также наречий, «связь» достаточно слабая. Во всех этих случаях коэффициент корреляции составляет менее 0,4. Самое низкое значение наблюдается между словарями, составленными для глаголов. Корреляция между словарями из N-грамм, N=3, 4, 5, достаточно слабая; только в случае, когда N=3, коэффициент корреляции составляет более 0,5. 39 Символизм Таблица 7 Значение коэффициента корреляции Спирмена между частотными словарями Бальмонта и Белого Часть речи Коэффициент Гла- Имена Имена голы существи- прилагательные тельные и причастия 0,522 0,469 0,493 Наречия N=3 N=4 N=5 0,448 0,847 0,681 0,512 корреляции 0,523 0,444 Глаголы Существительные 0,455 Прилагательные и причастия 0,701 Наречия 0,44 N=3 N=4 0,868 0,508 N=5 Рис. 4.2.7. Значение коэффициента корреляции Спирмена между частотными словарями Бальмонта и Белого В данном случае среди словарей, включающих в себя самостоятельные части речи, наиболее сильная «связь» наблюдается между частотными словарями, состоящими из имен существительных. Что касается словарей, включающих в себя глаголы, имена прилагательные и причастия, а также наречия, то корреляция между ними практически одинакова и составляет 40 менее 0,5. Наблюдается сильная «связь» между словарями из N-грамм, N=3, 4, 5. Таблица 8 Значение коэффициента корреляции Спирмена между частотными словарями Бальмонта и Блока Часть речи Коэффициент Гла- Имена Имена голы существи- прилагательные тельные и причастия 0,576 0,584 0,527 Наречия N=3 N=4 N=5 0,542 0,87 0,719 0,546 корреляции 0,523 0,444 Глаголы Существительные 0,455 Прилагательные и причастия 0,701 Наречия 0,44 N=3 N=4 0,868 0,508 N=5 Рис. 4.2.8. Значение коэффициента корреляции Спирмена между частотными словарями Бальмонта и Блока Как видно из таблицы 8, среди частотных словарей для различных самостоятельных частей речи, коэффициент корреляции принимает наибольшее значение между словарями, состоящими из имен прилагательных и причастий. Однако между словарями, включающими в себя другие части речи, корреляция незначительно меньше. Очень сильная 41 «связь» между словарями, включающими в себя N-граммы, в случае, когда N=3, 4. Таблица 9 Значение коэффициента корреляции Спирмена между частотными словарями Белого и Блока Часть речи Коэффициент Гла- Имена Имена голы существи- прилагательные тельные и причастия 0,555 0,513 0,476 Наречия N=3 N=4 N=5 0,46 0,846 0,655 0,493 корреляции 0,523 0,444 Глаголы Существительные 0,455 Прилагательные и причастия 0,701 Наречия 0,44 N=3 N=4 0,868 0,508 N=5 Рис. 4.2.9. Значение коэффициента корреляции Спирмена между частотными словарями Белого и Блока Из таблицы 9 можно сделать вывод о том, что при рассмотрении частотных словарей для самостоятельных частей речи коэффициент корреляции принимает наибольшее значение между словарями из имен существительных. В остальных случаях его значение несколько меньше. Особенно «сильная» связь наблюдается между частотными словарями из Nграмм, когда N=3, 4. 42 Футуризм Таблица 10 Значение коэффициента корреляции Спирмена между частотными словарями Бурлюка и Маяковского Часть речи Коэффициент Гла- Имена Имена голы существи- прилагательные тельные и причастия 0,434 0,424 0,45 Наречия N=3 N=4 N=5 0,335 0,841 0,641 0,465 корреляции 0,523 0,444 Глаголы Существительные 0,455 Прилагательные и причастия 0,701 Наречия 0,44 N=3 N=4 0,868 0,508 N=5 Рис. 4.2.10. Значение коэффициента корреляции Спирмена между частотными словарями Бурлюка и Маяковского Результаты, представленные в таблице 10, говорят о том, что между всеми частотными словарями, составленными для самостоятельных частей речи, коэффициент корреляции меньше 0,5. Между частотными словарями, включающими в себя N-граммы, N=3,4, наблюдается очень высокая корреляция. 43 Таблица 11 Значение коэффициента корреляции Спирмена между частотными словарями Бурлюка и Северянина Часть речи Коэффициент Гла- Имена Имена голы существи- прилагательные тельные и причастия 0,507 0,496 0,443 Наречия N=3 N=4 N=5 0,382 0,874 0,708 0,513 корреляции Глаголы Существительные 0,513 0,443 0,507 0,708 Прилагательные, причастия Наречия 0,496 N=3 0,874 0,382 N=4 N=5 Рис. 4.2.11. Значение коэффициента корреляции Спирмена между частотными словарями Бурлюка и Северянина Согласно таблице 11, наиболее сильная «связь» между частотными словарями для различных частей речи наблюдается для словарей из имен существительных. В остальных случаях значение коэффициента корреляции незначительно ниже. В случае, когда N=3, 4, между словарями, состоящими из N-грамм, коэффициент корреляции достаточно высок и составляет более 0,7. 44 Таблица 12 Значение коэффициента корреляции Спирмена между частотными словарями Маяковского и Северянина Часть речи Коэффициент Гла- Имена Имена голы существи- прилагательные тельные и причастия 0,455 0,44 0,444 Наречия N=3 N=4 N=5 0,508 0,868 0,701 0,523 корреляции 0,523 0,444 Глаголы Существительные 0,455 Прилагательные и причастия 0,701 Наречия 0,44 N=3 N=4 0,868 0,508 N=5 Рис. 4.2.12. Значение коэффициента корреляции Спирмена между частотными словарями Маяковского и Северянина Согласно результатам, представленным в таблице 12, среди частотных словарей, составленных для самостоятельных частей речи, наиболее сильная «связь» наблюдается между словарями из наречий. В остальных случаях коэффициент корреляции принимает более низкие значения (менее 0,5). Что касается словарей, включающих в себя N-граммы, N=3,4, то между ними наблюдается высокая корреляция более 0,7. Рассматривая коэффициент ранговой корреляции Спирмена в качестве характеристики, позволяющей анализировать и сопоставлять литературные тексты, выявлять сходство между творчеством различных авторов, 45 определять степень «близости» «художественных миров» поэтов, можно сделать определенные выводы на основании результатов рангового корреляционного анализа. Следует отметить, что практически для всех представителей четырех рассматриваемых литературных направлений (акмеизм, имажинизм, символизм, футуризм) наибольшее сходство «художественных миров» русских поэтов «серебряного века» наблюдается при сравнении их частотных словарей, составленных для имен прилагательных и причастий. Так, для многих поэтов, являющихся представителями акмеизма и символизма, значение коэффициента корреляции Спирмена, вычисленного между частотными словарями из имен прилагательных и причастий, принимает достаточно высокие значения более 0,5. Также следует отметить, что для многих поэтов наблюдается высокая корреляция между частотными словарями, составленными для имен существительных. Например, между словарями из имен существительных для Бальмонта и Белого, Белого и Блока, Бурлюка и Северянина, коэффициент корреляции, определяющий силу «связи» творчества поэтов, принимает значения выше, чем 0,5. Это позволяет сделать вывод о том, что сходство «художественных миров» соответствующих пар поэтов проявляется в употреблении в их литературных произведениях большого числа одинаковых имен существительных. Что касается степени «близости» частотных словарей русских поэтов, составленных для наречий, то, например, между словарями Ахматовой и Гумилева, Гумилева и Мандельштама, Есенина и Шершеневича, Бальмонта и Блока, Маяковского и Северянина, коэффициент корреляции составляет более 0,5 и в некоторых случаях очень близок к 0,55. Это также свидетельствует о наличии достаточно «сильной» связи между творчеством данных поэтов, что проявляется в использовании ими в своих поэтических произведениях определенного количества одинаковых наречий. 46 Необходимо отметить, что в некоторых случаях, например, между частотными словарями Ахматовой и Гумилева, Гумилева и Мандельштама, Бальмонта и Блока, составленными для глаголов, наблюдается высокая корреляция (около 0, 53). Для остальных «пар» поэтов это значение несколько ниже. Отдельно следует выделить случаи сопоставления творчества поэтовимажинистов. Так, например, сравнивая «художественные миры» Есенина и Мариенгофа, можно отметить, что коэффициент корреляции между частотными словарями, составленных для имен существительных и глаголов, принимает невысокие значения – 0,28 и 0,165 соответственно. Аналогично, корреляция между частотными словарями Мариенгофа и Шершеневича, составленными для имен существительных и глаголов, составляет 0,287 и 0,096 соответственно. Опираясь на эти значения, можно предположить, что творчество поэта Мариенгофа отличается от творчества других представителей имажинизма (Есенина и Шершеневича). Возможно, произведения, написанные им, отличаются особой лексикой, о чем свидетельствует небольшое количество одинаковых имен существительных и глаголов, употребляемых Мариенгофом в своих поэтических произведениях и Есениным и Шершеневичем в своих стихотворениях. Для поэтов, представляющих одно и то же литературное направление «серебряного века», наблюдается очень высокая корреляция между частотными словарями, состоящими из N-грамм, N=3, 4, 5. Во всех рассмотренных случаях, за исключением тех, в которых происходит сопоставление частотных словарей Есенина и Мариенгофа, а также Мариенгофа и Шершеневича, наблюдается очень высокая корреляция между словарями, включающими в себя N-граммы. Для случаев, когда N=3, значение коэффициента корреляции Спирмена составляет более, чем 0,8, что говорит о наличии очень сильной «связи» между частотными словарями поэтов. 47 Как видно из результатов, для всех рассматриваемых поэтов значение коэффициента корреляции между словарями уменьшается с ростом N, то есть при N=3 корреляция достаточно высокая, а при N=4 и N=5 она несколько ниже. Подводя итоги корреляционного анализа, можно сделать следующие выводы о «близости» творчества поэтов «серебряного века», относящихся к четырем различным направлениям в литературе. Акмеизм Между частотными словарями, включающими в себя самостоятельные части речи (имена существительные, имена прилагательные и причастия, наречия и глаголы), для представителей акмеизма (Ахматовой, Гумилева, Мандельштама) наблюдается достаточно высокая корреляция. Это свидетельствует о наличии достаточно «сильной» связи между творчеством поэтовакмеистов, а также между их «художественными мирами». Для всех представителей акмеизма коэффициент корреляции достигает своего наибольшего значения между частотными словарями, состоящими из имен прилагательных и причастий. Следовательно, в поэтических произведениях представителей акмеизма можно наблюдать большое количество одинаковых имен прилагательных. О высокой степени «близости» между творчеством поэтовакмеистов также свидетельствуют высокие значения коэффициента корреляции между частотными словарями поэтов, состоящими из N-грамм, N=3, 4, 5. 48 Имажинизм Больше всего оказались «близки» друг другу в своем литературном творчестве такие поэты, как Есенин и Шершеневич: для данных поэтов корреляция между их частотными словарями, состоящими как из самостоятельных частей речи, так и из Nграмм, N=3, 4, 5, достаточно высокая. Это является подтверждением «близости» «художественных миров» Есенина и Шершеневича. Произведения поэтов-имажинистов Есенин и Мариенгоф, а также Мариенгоф и Шершеневич продемонстрировали незначительное сходство в тех именах существительных и глаголах, которые являются наиболее частотными для поэтических произведений каждого из данных поэтов. Об этом свидетельствуют очень низкие значения коэффициента корреляции между частотными словарями из соответствующих частей речи, составленными для Есенина, Мариенгофа и Шершеневича. Между творчеством Есенина и Мариенгофа, а также Мариенгофа и Шершеневича наблюдается определенное «сходство» в именах прилагательных, причастиях и наречиях, употребляемых ими в своих стихотворениях. Символизм Представители символизма (Бальмонт, Белый, Блок) отличаются достаточно высокой степенью «близости» своих «художественных миров». Об этом говорят значения коэффициента ранговой корреляции Спирмена между частотными словарями соответствующих поэтов-символистов, составленными как для различных самостоятельных частей речи, так и для N-грамм, N=3, 4, 5. 49 Особенно «близки» в своем творчестве Бальмонт и Блок: значения коэффициента корреляции между частотными словарями данных поэтов, составленными для имен существительных, имен прилагательных и причастий, наречий, глаголов, а также N-грамм, N=3, 4, 5, достаточно высоки и превышают 0,52. Футуризм Между творчеством поэтов-футуристов таких, как Бурлюк и Маяковский, Бурлюк и Северянин, была выявлена определенная «близость» их «художественных миров», которая проявилось, прежде всего, в определенном «сходстве» между частотными словарями поэтов, составленными из имен существительных, имен прилагательных и причастий, а также глаголов (о чем, например, нельзя сказать в случае частотных словарей из наречий). Наибольшую «степень» близости своего творчества и своих «художественных миров» продемонстрировали поэты Маяковский и Северянин: корреляция между частотными словарями данных поэтов, составленными для самостоятельных частей речи, высока и составляет более 0,44. Наибольшее «сходство» в творчестве Маяковского и Северянина проявилось в одинаковых наречиях, которые являются наиболее часто используемыми в произведениях соответствующих поэтов-футуристов. О «близости» между творчеством поэтов-футуристов также свидетельствуют высокие значения коэффициента корреляции между частотными словарями поэтов, состоящими из N-грамм, N=3, 4, 5. Результаты рангового корреляционного анализа подтвердили предположение о том, что между творчеством поэтов, представляющих одни и те же направления в литературе «серебряного века», существует 50 достаточно сильная «связь». Несмотря на то, что каждый из поэтов имеет уникальный стиль и манеру написания стихотворений, корреляционный анализ частотных словарей поэтов показал, что их «художественные миры» «близки» друг другу. Это подтверждается теми значениями, которые принимает коэффициент ранговой корреляции Спирмена между частотными словарями поэтов, (чье творчество относится к одним литературным течениям) составленными для различных самостоятельных частей речи, а также N-грамм, N=3, 4, 5. 51 Заключение Выпускная квалификационная работа на тему «Вероятностные методы сопоставления литературных текстов» посвящена применению методов теории вероятностей и математической статистики для анализа и сравнения литературных текстов. Исследование, проведенное в рамках дипломной работы, относится к автоматической обработке текстов – обширной области компьютерной лингвистики. Актуальность данной работы определяется необходимостью усовершенствования существующих и разработки новых методов анализа и сопоставления литературных текстов. Основными целями данной работы являлись определение характеристик, которые могут быть использованы для сопоставления литературных текстов, выявление сходства между литературными произведениями русских поэтов, а также определение степени «близости» творчества поэтов и их «художественных миров». Для достижения указанных целей перед началом работы был поставлен ряд задач: вычисление частотных характеристик литературных текстов; определение «близости» «художественных миров» поэтов; сопоставление поэтических текстов. При решении задачи, связанной с вычислением частотных характеристик, были подробно изучены и отобраны поэтические произведения русских поэтов, представляющих основные течения в литературе «серебряного века»: акмеизм, имажинизм, символизм и футуризм. На основании выбранных литературных произведений были составлены и подготовлены для дальнейшей автоматической обработки корпуса текстов поэтов. С помощью программного обеспечения был проведен частотный анализ поэтических текстов, в результате чего были 52 составлены и впоследствии визуализированы частотные словари поэтов для различных самостоятельных частей речи (имен существительных, имен прилагательных и причастий, глаголов и наречий), а также N-грамм при N=3, 4, 5. Предварительно используемое программное обеспечение было протестировано на различных корпусах текстов поэтов. После выявления ряда ошибок и неточностей в работе программ, программное обеспечение было модифицировано. Частотные словари, составленные в результате частотного анализа поэтических текстов, позволили определить среди различных частей речи слова, наиболее характерные для творчества конкретных авторов. Результаты частотного анализа поэтических текстов показали, что поэты, представляющие одно и то же литературное направление «серебряного века», использовали в своих произведениях большое количество одинаковых слов, относящихся к различным частям речи. Также было замечено, что между творчеством практически всех поэтов в рамках каждого из четырех литературных направлений наблюдается большое «сходство» в именах существительных, именах прилагательных и причастиях, употребляемых поэтами в литературных произведениях. Отдельно следует отметить, что при сопоставлении творчества таких поэтов, как Есенин и Мариенгоф (имажинизм), Мариенгоф и Шершеневич (имажинизм), Маяковский и Северянин (футуризм) было обнаружено значительное «сходство» между частотными словарями, состоящими из наречий. Так как частотный словарь может рассматриваться в качестве математической модели «художественного мира» и творчества поэтов, то для решения задачи, связанной с определением «близости» «художественных миров» двух авторов, необходимо проанализировать и сравнить соответствующие частотные словари. Основным методом, используемым при решении данной задачи, являлся ранговый корреляционный анализ, основанный на вычислении «расстояния» (в математическом смысле) между 53 частотными словарями поэтов с помощью метрики Спирмена. С помощью предварительно протестированного и исправленного программного обеспечения были вычислены значения коэффициента ранговой корреляции Спирмена между частотными словарями поэтов, составленными для различных частей речи и N-грамм, N=3, 4, 5. Главным результатом рангового корреляционного анализа поэтических текстов является «близость», совпадение с некоторой вероятностью частотных словарей, состоящих из различных самостоятельных частей речи и N-грамм, N=3, 4, 5, для поэтов «серебряного века», представляющих одно и то же литературное направление. Именно результаты рангового корреляционного анализа позволили решить задачу, связанную с анализом и сопоставлением поэтических текстов, относящихся к литературе «серебряного века». В результате этого был получен ответ на главный вопрос, поставленный в начале данного исследования: русские поэты, представляющие одно литературное течение «серебряного века» «близки» друг другу в своем творчестве, а их «художественные миры» обладают определенным сходством. Несмотря на то, что каждый из авторов, безусловно, имеет свой собственный стиль и уникальную манеру написания стихотворений, между творчеством поэтов, представляющих одни и те же направления в литературе «серебряного века», существует достаточно сильная «связь». Результаты корреляционного анализа частотных словарей поэтов показали, что их «художественные миры» «близки» друг другу. Об этом свидетельствуют те значения, которые принимает коэффициент ранговой корреляции Спирмена между частотными словарями, составленными для различных самостоятельных частей речи, а также N-грамм, N=3, 4, 5. Таким образом, в ходе исследования, проводимого в рамках выпускной квалификационной работы, были решены поставленные задачи, что позволило достичь основной цели данной работы. Несмотря на то, что были 54 проведены основательный анализ и сопоставление литературных текстов русских поэтов, исследование на этом не заканчивается. В дальнейшем планируется проведение более глубокого исследования, посвященного проблеме сопоставления литературных текстов. 55 Список использованной литературы 1. Баевский В.С. Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы — М.: Языки славянской культуры, 2001. — 336 с. 2. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. – М.: Высшая школа, 1977. — 383 с. 3. Частотный словарь русского языка / Под редакцией Л. Н. Засориной. – М.: Русский язык, 1977. – 936 с. 4. Чатуев М.Б., Чеповский А.М. Частотные методы в компьютерной лингвистике. – М.: МГУП, 2011. – 88 с. 5. Штейнфельд А.Э.А. Частотный словарь современного русского литературного языка. Таллин, 1963 - 2500 слов. – 316с. 6. Jоsselson Н. Н. The Russian Word Count and Frequency Analysis of Grammatical Categories of Standard Literary Russian. Detroit, Wayne University Press, 1953 56 "полный" "белый" "милый" "черный" "узкий" "веселый" "тихий" "темный" "царский" "легкий" "любимый" "нежный" "страшный" "высокий" "большой" "последний" "светлый" "серый" "новый" "спокойный" "странный" "синий" "больший" "душный" "горький" "другой" "долгий" "больной" "зеленый" "влюбленный" "год" "рука" "сердце" "любовь" "день" "глаз" "голос" "дом" "ветер" "друг" "стихотворение" "небо" "слово" "песня" "ночь" "село" "вода" "час" "душа" "окно" "душ" "стих" "свет" "солнце" "вечер" "лицо" "земля" "тоска" "луч" "смерть" Приложение 1 Имена существительные 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 1. Частоты употреблений имен существительных в произведениях Ахматовой Имена прилагательные и причастия 0,02 0,018 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 2. Частоты употреблений имен прилагательных и причастий в произведениях Ахматовой 57 "быть" "мыть" "знать" "стать" "любить" "сказать" "хотеть" "видеть" "петь" "прийти" "сесть" "жить" "глядеть" "мочь" "говорить" "душить" "слышать" "ждать" "смотреть" "плакать" "идти" "уйти" "дать" "казаться" "забыть" "простить" "умереть" "запахнуть" "гореть" "есть" "где" "еще" "здесь" "всегда" "снова" "страшно" "больше" "совсем" "напрасно" "лучше" "весело" "много" "скоро" "давно" "отчего" "тихо" "зачем" "долго" "сразу" "можно" "навсегда" "спокойно" "верно" "нынче" "опять" "столько" "часто" "завтра" "жаль" "странно" Наречия 0,0025 0,002 0,0015 0,001 0,0005 0 Рис. 3. Частоты употреблений наречий в произведениях Ахматовой Глаголы 0,009 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 4. Частоты употреблений глаголов в произведениях Ахматовой 58 " не " " на " " как" "как " " что" "ной " "ный " "мне " " мне" " про" " при" " ты " "что " "ого " "ала " " люб" "его " "ать " "кой " " ста" " под" " стр" " и с" "вой " " все" "й и " " так" " сер" "тся " " зна" "и" " не" "ой " "не " " по" " на" "в" " пр" "но " "на " " ст" "ть " "ла " "ый " " мо" "я" "то " " ка" " за" "го " " то" "ет " " ве" "ом " "ак " "ей " "е с" " мн" "ли " " го" N-граммы N=3 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0 Рис. 5. Частоты употреблений N-грамм при N=3 в произведениях Ахматовой N-граммы N=4 0,025 0,02 0,015 0,01 0,005 0 Рис. 6. Частоты употреблений N-грамм при N=4 в произведениях Ахматовой 59 "год" "день" "ночь" "сердце" "небо" "рука" "мир" "сон" "глаз" "взор" "душа" "море" "солнце" "бог" "человек" "земля" "слово" "гора" "лес" "жизнь" "любовь" "кровь" "друг" "звезда" "вода" "страна" "луна" "час" "огонь" "люди" " как " " мне " " что " "меня " " меня" "лько " "олько" " стра" "огда " "тольк" " все " " так " " не п" " стих" " его " "я не " " толь" " серд" "матов" "ного " "ахмат" "лась " " ахма" "хмато" "сердц" "когда" " прос" " мой " " слов" " свет" N-граммы N=5 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 7. Частоты употреблений N-грамм при N=5 в произведениях Ахматовой Имена существительные 0,01 0,009 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 8. Частоты употреблений имен существительных в произведениях Гумилева 60 "где" "еще" "здесь" "всегда" "много" "вдруг" "снова" "точно" "вновь" "давно" "зачем" "тихо" "опять" "сладко" "вечно" "странно" "долго" "больше" "совсем" "верно" "когда-то" "назад" "страшно" "слишком" "дивно" "туда" "больно" "поздно" "медленно" "высоко" "полный" "белый" "золотой" "страшный" "тихий" "красный" "большой" "черный" "нежный" "старый" "влюбленный" "странный" "темный" "веселый" "сладкий" "милый" "светлый" "высокий" "зеленый" "вечный" "дорогой" "святой" "ночной" "святый" "легкий" "бледный" "больший" "дикий" "узкий" "точный" Имена прилагательные и причастия 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 9. Частоты употреблений имен прилагательных и причастий в произведениях Гумилева Наречия 0,0035 0,003 0,0025 0,002 0,0015 0,001 0,0005 0 Рис. 10. Частоты употреблений наречий в произведениях Гумилева 61 "и" " не" "ой " " по" " на" "в" "не " "на " "но " " пр" "ый " " ст" "ть " " ка" " за" "то " "ет " "я" "ли " "ом " "ак " " мо" " во" " ко" " то" "ей " "го " "ся " "и с" "ный" "быть" "мыть" "знать" "видеть" "любить" "стать" "жить" "идти" "петь" "душить" "смотреть" "есть" "хотеть" "сказать" "говорить" "ждать" "пойти" "умереть" "верить" "увидеть" "прийти" "гореть" "бежать" "дать" "плакать" "думать" "помнить" "бродить" "понять" "стоять" Глаголы 0,01 0,009 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 11. Частоты употреблений глаголов в произведениях Гумилева N-граммы N=3 0,06 0,05 0,04 0,03 0,02 0,01 0 Рис. 12. Частоты употреблений N-грамм при N=3 в произведениях Гумилева 62 " как " " что " " мне " " стра" "огда " " все " "нный " "когда" " его " " так " " где " " когд" "лись " "ного " "стран" " слов" " свет" " крас" "лько " "олько" " над " "енный" " был " "тольк" "золот" " золо" "ется " " пред" " не с" " меня" " не " "ный " " на " " как" "как " "ной " " что" " про" "что " " стр" " он " " но " "его " " при" "ных " "ого " " все" " и с" " ты " " и в" "ные " "тся " "стра" "гда " "й и " "енны" " гор" "мне " " под" " мне" N-граммы N=4 0,018 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 13. Частоты употреблений N-грамм при N=4 в произведениях Гумилева N-граммы N=5 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 14. Частоты употреблений N-грамм при N=5 в произведениях Гумилева 63 "полный" "черный" "легкий" "темный" "белый" "большой" "нежный" "другой" "тяжелый" "чужой" "высокий" "зеленый" "золотой" "больший" "прозрачный" "узкий" "сухой" "страшный" "блаженный" "холодный" "поздний" "живой" "молодой" "красный" "огромный" "далекий" "темный" "последний" "тихий" "дорогой" "год" "ночь" "вода" "земля" "небо" "воздух" "рука" "день" "человек" "мир" "жизнь" "глаз" "звезда" "май" "январь" "голова" "губа" "слово" "век" "дом" "душа" "веко" "лес" "солнце" "сердце" "декабрь" "кровь" "сон" "ноябрь" "море" Имена существительные 0,01 0,009 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 15. Частоты употреблений имен существительных в произведениях Мандельштама Имена прилагательные и причастия 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 16. Частоты употреблений имен прилагательных и причастий в произведениях Мандельштама 64 "быть" "мыть" "есть" "любить" "сказать" "жить" "хотеть" "петь" "идти" "стоять" "говорить" "знать" "душить" "играть" "пойти" "видеть" "стоить" "гореть" "дышать" "глядеть" "весить" "пить" "лежать" "спать" "лететь" "слышать" "взять" "умереть" "стать" "плыть" "где" "еще" "здесь" "поздно" "вдруг" "немного" "больше" "вместе" "нельзя" "лучше" "прямо" "хорошо" "опять" "совсем" "всегда" "слишком" "вновь" "зачем" "очень" "однажды" "снова" "страшно" "много" "далеко" "скоро" "медленно" "долго" "темно" "нужно" "близко" Наречия 0,003 0,0025 0,002 0,0015 0,001 0,0005 0 Рис. 17. Частоты употреблений наречий в произведениях Мандельштама Глаголы 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 18. Частоты употреблений глаголов в произведениях Мандельштама 65 " x x" "x x " " на " " не " " как" "ный " "как " "ной " "тся " " про" "ого " "кой " " что" " и в" "а и " " при" "ных " "ать " " под" " и с" "ные " "ает " " все" "что " "его " "енны" "сть " " гор" " пол" " и п" "и" " не" " по" "ой " " на" "x" "в" "на " "не " "ть " " ка" " пр" "ый " "x x" "ет " "ся " " ст" "ом " "но " "ая " "ак " " мо" " во" " ко" "то " "го " " за" "как" " го" "ный" N-граммы N=3 0,06 0,05 0,04 0,03 0,02 0,01 0 Рис. 19. Частоты употреблений N-грамм при N=3 в произведениях Мандельштама N-граммы N=4 0,025 0,02 0,015 0,01 0,005 0 Рис. 20. Частоты употреблений N-грамм при N=4 в произведениях Мандельштама 66 "год" "сердце" "песня" "душа" "земля" "поле" "рука" "жизнь" "ветер" "свет" "глаз" "небо" "день" "луна" "дорога" "песнь" "звезда" "заря" "край" "месяц" "поэт" "друг" "мир" "ночь" "слово" "любовь" "солнце" "снег" "страна" "вода" "xx" " как " " что " " мне " "нный " "ется " "ного " " все " " черн" "енный" "огда " " где " "когда" " пере" "ской " "ив" " не п" " голо" "ится " " прос" " еще " " так " "и на " " когд" " меня" " стра" " не с" " возд" "ость " " для " N-граммы N=5 0,025 0,02 0,015 0,01 0,005 0 Рис. 21. Частоты употреблений N-грамм при N=5 в произведениях Мандельштама Имена существительные 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 22. Частоты употреблений имен существительных в произведениях Есенина 67 "где" "много" "тихо" "здесь" "снова" "опять" "еще" "скоро" "лучше" "больше" "хорошо" "жаль" "вдруг" "всегда" "равно" "часто" "давно" "где-то" "очень" "вместе" "навеки" "вновь" "нужно" "недаром" "нежно" "спокойно" "довольно" "немного" "грустно" "нынче" "полный" "синий" "тихий" "белый" "любимый" "милый" "новый" "дорогой" "голубой" "черный" "веселый" "нежный" "золотой" "родимый" "далекий" "красный" "родной" "большой" "зеленый" "старый" "отчий" "русский" "златой" "легкий" "желтый" "нужный" "немой" "больший" "горький" "темный" Имена прилагательные и причастия 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 23. Частоты употреблений имен прилагательных и причастий в произведениях Есенина Наречия 0,0025 0,002 0,0015 0,001 0,0005 0 Рис. 24. Частоты употреблений наречий в произведениях Есенина 68 " по" "и" " не" "ой " "не " "в" " на" "ть " "на " " за" "ет " " пр" "я" "то " "ом " " ка" " ст" " ко" "ый " " мо" "ая " "сь " "ли " "ся " "ак " "но " " то" " ве" " го" "ей " "быть" "мыть" "петь" "знать" "любить" "видеть" "жить" "есть" "душить" "хотеть" "идти" "говорить" "плакать" "стать" "пойти" "дать" "сказать" "слышать" "стоять" "пить" "гореть" "сесть" "ходить" "махать" "смотреть" "звенеть" "пройти" "полоть" "стоить" "светить" Глаголы 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 25. Частоты употреблений глаголов в произведениях Есенина N-граммы N=3 0,05 0,045 0,04 0,035 0,03 0,025 0,015 0,02 0,01 0,005 0 Рис. 26. Частоты употреблений N-грамм при N=3 в произведениях Есенина 69 " как " " что " " мне " " все " " под " " свет" " не с" "лько " "олько" " серд" " меня" " стра" " песн" "ется " "сердц" "меня " " так " " друг" " не п" "и не " " слов" "ь не " "тольк" " над " " толь" "ость " " голо" " кто " " мой " " земл" " не " " на " " как" "как " " про" " что" " ты " " под" "что " "ный " "ать " " при" " все" "мне " " мне" "ной " "сть " "тся " " за " "ого " " по " "кой " " пол" " но " "е по" "ами " "все " " гол" "и по" " стр" N-нрамммы N=4 0,025 0,02 0,015 0,01 0,005 0 Рис. 27. Частоты употреблений N-грамм при N=4 в произведениях Есенина N-граммы N=5 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 28. Частоты употреблений N-грамм при N=5 в произведениях Есенина 70 "полный" "золотой" "белый" "синий" "любимый" "черный" "голубой" "тяжелый" "желтый" "звездный" "звонкий" "легкий" "каменный" "влюбленный" "кривой" "новый" "обрюзгший" "окровавленный" "осенний" "приезжающий" "родной" "розовый" "чужой" "сомкнутый" "вышитый" "лунный" "звенящий" "кривой" "горячий" "грязный" "год" "рука" "глаз" "день" "тишина" "встреча" "стих" "ладонь" "губа" "луна" "заря" "кровь" "фонарь" "тело" "сумерки" "век" "ночь" "асфальт" "облако" "след" "зрачок" "песня" "пол" "любовь" "поле" "лист" "девушка" "веко" "путь" "ресница" Имена существительные 0,018 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 29. Частоты употреблений имен существительных в произведениях Мариенгофа Имена прилагательные и причастия 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 30. Частоты употреблений имен прилагательных и причастий в произведениях Мариенгофа 71 "быть" "есть" "обвязать" "пролиться" "лечь" "беречь" "опустить" "горбиться" "нести" "мыть" "идти" "влиться" "вытечь" "петлить" "снимать" "собирать" "вбить" "вихриться" "влачить" "влачиться" "войти" "волочить" "вонзать" "всосать" "встать" "встретить" "вступать" "выдернуть" "вынуть" "выплеснуть" Наречия 0,005 0,0045 0,004 0,0035 0,003 0,0025 0,002 0,0015 0,001 0,0005 0 Рис. 31. Частоты употреблений наречий в произведениях Мариенгофа Глаголы 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 32. Частоты употреблений глаголов в произведениях Мариенгофа 72 " на " " не " " как" "ный " "ами " " про" "как " " стр" " и с" "ной " "тся " " по " "ать " " пер" " и н" " под" "олот" "пере" "стре" "и и " "золо" " зол" " кол" " рук" "ого " "е по" " бел" "и не" "сть " " вст" "и" " по" " не" " на" "ть " "не " "на " "ой " " ст" "в" " ко" " ка" "и с" "ми " "стр" "ый " "ли " " пе" " пр" "ки " "ере" "ет " "как" " ра" "оло" "и н" "ые " "ак " " бе" "ах " N-граммы N=3 0,05 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0 Рис. 33. Частоты употреблений N-грамм при N=3 в произведениях Мариенгофа N-граммы N=4 0,03 0,025 0,02 0,015 0,01 0,005 0 Рис. 34. Частоты употреблений N-грамм при N=4 в произведениях Мариенгофа 73 "год" "сердце" "глаз" "любовь" "день" "поэт" "губа" "душа" "рука" "небо" "ночь" "слово" "жизнь" "город" "стих" "мир" "солнце" "лирика" "лирик" "женщина" "земля" "дом" "голова" "лицо" "грудь" "улица" "слеза" "строка" "счастье" "палец" " как " "золот" " пере" " золо" "и на " " глаз" "олоты" " тиши" "руки " " руки" "нный " " не б" "ется " "стреч" "тишин" " и сн" "встре" " встр" " снов" "как в" "звезд" "ладон" "меня " "ак в " "глаза" "нова " "ный к" "вать " " кров" "и не " N-граммы N=5 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 35. Частоты употреблений N-грамм при N=5 в произведениях Мариенгофа Имена существительные 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 36. Частоты употреблений имен существительных в произведениях Шершеневича 74 "где" "еще" "вдруг" "здесь" "снова" "опять" "много" "скучно" "нынче" "совсем" "очень" "часто" "слишком" "неужели" "точно" "легко" "просто" "прямо" "всегда" "зачем" "завтра" "как-то" "больше" "вместе" "вниз" "выше" "далеко" "немного" "скоро" "вновь" "полный" "любимый" "последний" "узкий" "черный" "огромный" "красный" "влюбленный" "белый" "простой" "легкий" "милый" "страшный" "новый" "большой" "земной" "нежный" "тихий" "скучный" "звонкий" "глупый" "золотой" "веселый" "далекий" "дикий" "дорогой" "точный" "святой" "правый" "лунный" Имена прилагательные и причастия 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 37. Частоты употреблений имен прилагательных и причастий в произведениях Шершеневича Наречия 0,0025 0,002 0,0015 0,001 0,0005 0 Рис. 38. Частоты употреблений наречий в произведениях Шершеневича 75 " по" "и" "ой " " не" " на" "в" " ка" " пр" "ак " "ть " "не " "на " "как" "то " " мо" "но " " ст" " за" "ся " "ом " "ет " "ый " " ко" "я" "про" "ей " " то" "ли " " ве" " во" "быть" "мыть" "знать" "душить" "стать" "хотеть" "смотреть" "любить" "жить" "говорить" "видеть" "помнить" "весить" "кричать" "глядеть" "плакать" "стоять" "нести" "стоить" "петь" "идти" "казаться" "биться" "верить" "пойти" "дрожать" "слушать" "сказать" "слышать" "проходить" Глаголы 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 39. Частоты употреблений глаголов в произведениях Шершеневича N-граммы N=3 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0 Рис. 40. Частоты употреблений N-грамм при N=3 в произведениях Шершеневича 76 " как " " что " " мне " " все " "ется " "олько" "лько " " серд" "нный " " пере" "сердц" "огда " " глаз" " стра" " так " " слов" "тольк" " толь" " прос" " поэт" "когда" "ного " "ться " " это " "и как" " под " " когд" " меня" " любо" "меня " " как" "как " " не " " на " " про" " что" "ный " "ной " "что " "тся " "ами " " при" " под" "ать " "ого " "кой " " стр" " все" " люб" " из " " и в" "ает " "ных " " раз" " ты " " мне" "мне " " так" "и по" " это" N-граммы N=4 0,025 0,02 0,015 0,01 0,005 0 Рис. 41. Частоты употреблений N-грамм при N=4 в произведениях Шершеневича N-граммы N=5 0,025 0,02 0,015 0,01 0,005 0 Рис. 42. Частоты употреблений N-грамм при N=5 в произведениях Шершеневича 77 "полный" "светлый" "белый" "вечный" "нежный" "немой" "живой" "другой" "темный" "красный" "далекий" "золотой" "тихий" "бледный" "голубой" "новый" "влюбленный" "яркий" "морской" "страшный" "мертвый" "воздушный" "тайный" "зеленый" "глубокий" "черный" "синий" "красивый" "вольный" "странный" "год" "день" "сон" "цвет" "душа" "мир" "свет" "сердце" "небо" "солнце" "море" "звезда" "ночь" "огонь" "вода" "земля" "мечта" "человек" "жизнь" "волна" "час" "бог" "ветер" "глаз" "луна" "любовь" "луч" "дух" "путь" "слово" Имена существительные 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 43. Частоты употреблений имен существительных в произведениях Бальмонта Имена прилагательные и причастия 0,01 0,009 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 44. Частоты употреблений имен прилагательных и причастий в произведениях Бальмонта 78 "быть" "есть" "мыть" "любить" "знать" "идти" "петь" "видеть" "душить" "гореть" "жить" "хотеть" "говорить" "весить" "светить" "глядеть" "сказать" "дышать" "стать" "ждать" "дать" "спать" "прийти" "пойти" "смотреть" "слышать" "понять" "цвести" "уйти" "морить" "где" "здесь" "всегда" "много" "вновь" "еще" "вечно" "снова" "вдруг" "зачем" "точно" "больше" "прочь" "вдали" "кругом" "далеко" "всюду" "опять" "сладко" "навсегда" "где-то" "светло" "везде" "вместе" "дальше" "нужно" "выше" "нежно" "нельзя" "туда" Наречия 0,0035 0,003 0,0025 0,002 0,0015 0,001 0,0005 0 Рис. 45. Частоты употреблений наречий в произведениях Бальмонта Глаголы 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 46. Частоты употреблений глаголов в произведениях Бальмонта 79 "ный " " как" " не " "как " "ной " " все" " что" " све" " ты " "сть " " про" "свет" " на " "что " " стр" "цвет" "ных " "тся " " без" "ные " " при" " и в" " но " " был" " цве" " он " "все " "ого " "стра" "крас" "и" "в" " не" "ой " " по" " на" "ть " "ет " " пр" "не " "но " "ый " "вет" " во" "то " "я" " за" " ка" "на " "ей " "ак " " св" " ве" "ся " " ст" " мо" " бе" "ом " " вс" "ли " N-граммы N=3 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0 Рис. 47. Частоты употреблений N-грамм при N=3 в произведениях Бальмонта N-граммы N=4 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 48. Частоты употреблений N-грамм при N=4 в произведениях Бальмонта 80 "год" "день" "рука" "небо" "ветер" "ночь" "огонь" "окно" "поле" "колодезь" "душа" "солнце" "свет" "грудь" "сон" "туман" "даль" "око" "заря" "лицо" "слеза" "туча" "друг" "мир" "тень" "сердце" "нога" "лазурь" "взор" "волна" " как " " что " " свет" " все " " цвет" " мне " " стра" " крас" "ость " "звезд" " где " "есть " "ность" "ного " " так " " был " " звез" "нный " "светл" " есть" " пред" " там " "ется " " серд" " кто " " солн" "сердц" " для " " нет " " над " N-граммы N=5 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 49. Частоты употреблений N-грамм при N=5 в произведениях Бальмонта Имена существительные 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 50. Частоты употреблений имен существительных в произведениях Белого 81 "где" "опять" "здесь" "вновь" "вдали" "туда" "вдруг" "вдоль" "где-то" "больно" "вдаль" "снова" "скоро" "нежно" "грустно" "прочь" "поздно" "лениво" "невольно" "давно" "ныне" "тихо" "много" "зачем" "выше" "беззвучно" "сладко" "когда-то" "довольно" "точно" "зеленый" "седой" "нежный" "больной" "старинный" "голубой" "вечный" "ночной" "сухой" "мертвый" "синий" "вечерний" "грядущий" "полный" "золотой" "серебряный" "белый" "холодный" "красный" "далекий" "старый" "бледный" "черный" "тихий" "темный" "злой" "немой" "легкий" Имена прилагательные и причастия 0,009 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 51. Частоты употреблений имен прилагательных и причастий в произведениях Белого Наречия 0,0018 0,0016 0,0014 0,0012 0,001 0,0008 0,0006 0,0004 0,0002 0 Рис. 52. Частоты употреблений наречий в произведениях Белого 82 "в" "ой " " на" " по" "и" " пр" "ый " "ом " "ет " " за" " не" "на " " ст" "ся " " во" "про" " мо" "ный" "но " " ве" "ли " "оло" "не " "сь " " ко" " ка" "ей " "ые " "ит " " бе" "мыть" "быть" "идти" "стоять" "душить" "стоить" "лететь" "бежать" "ждать" "видеть" "знать" "дать" "пойти" "пройти" "смеяться" "глядеть" "петь" "гореть" "полоть" "плакать" "посвящаться" "молчать" "кричать" "сказать" "весить" "сидеть" "забыть" "шуметь" "любить" "смотреть" Глаголы 0,0045 0,004 0,0035 0,003 0,0025 0,002 0,0015 0,001 0,0005 0 Рис. 53. Частоты употреблений глаголов в произведениях Белого N-граммы N=3 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0 Рис. 54. Частоты употреблений N-грамм при N=3 в произведениях Белого 83 " над " " как " "ется " "нный " " там " " мне " "золот" " золо" " прос" " все " " стар" " сере" "еребр" "сереб" " моск" "москв" "осква" "сква " "лись " "ный к" " свет" " коло" " что " "ится " "енный" "туман" "прост" "бледн" " тума" "ается" "ный " " про" " на " "ной " "тся " " над" "над " " как" "ные " "как " " при" " не " "ных " " сер" "али " "ает " " ты " "ным " " кол" " пол" "вой " "енны" "ется" "ном " " стр" "ами " " бле" "олот" " под" "там " N-граммы N=4 0,02 0,018 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 55. Частоты употреблений N-грамм при N=4 в произведениях Белого N-граммы N=5 0,009 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 56. Частоты употреблений N-грамм при N=5 в произведениях Белого 84 "полный" "черный" "тихий" "далекий" "грядущий" "легкий" "страшный" "темный" "белый" "влюбленный" "ночной" "светлый" "другой" "узкий" "глухой" "безумный" "последний" "забытый" "пустой" "новый" "страстный" "синий" "холодный" "печальный" "нежный" "странный" "милый" "старый" "дикий" "больной" "год" "ночь" "день" "жизнь" "сердце" "сон" "душа" "рука" "час" "ветер" "любовь" "друг" "свет" "огонь" "глаз" "туман" "око" "мир" "взор" "путь" "страсть" "плечо" "март" "кровь" "земля" "мечта" "голос" "небо" "миро" "декабрь" Имена существительные 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 57. Частоты употреблений имен существительных в произведениях Блока Имена прилагательные и причастия 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 58. Частоты употреблений имен прилагательных и причастий в произведениях Блока 85 "быть" "мыть" "петь" "душить" "идти" "знать" "пройти" "смотреть" "спать" "есть" "лететь" "любить" "забыть" "жить" "стать" "звать" "ждать" "помнить" "хотеть" "дать" "видеть" "встать" "глядеть" "сказать" "уйти" "плакать" "дышать" "искать" "верить" "понять" "где" "опять" "здесь" "еще" "вдруг" "вновь" "равно" "тихо" "когда-то" "много" "больше" "давно" "навсегда" "странно" "точно" "туда" "слишком" "сладко" "зачем" "всегда" "напрасно" "вместе" "далеко" "больно" "кругом" "вдали" "прочь" "страстно" "впервые" "навеки" Наречия 0,0025 0,002 0,0015 0,001 0,0005 0 Рис. 59. Частоты употреблений наречий в произведениях Блока Глаголы 0,009 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 60. Частоты употреблений глаголов в произведениях Блока 86 "ный " " не " "ной " " ты " " на " " про" " как" " что" "как " " все" " стр" "сть " "что " " тво" "стра" " ноч" "вой " " при" "й и " "все " " и с" "гда " "нет " " под" " мне" " и в" "мне " "кой " "тся " " и п" "и" "ой " " не" "в" " по" " на" "не " "ый " "ть " " пр" "ет " " за" "на " " ст" "ом " "но " "ный" "ты " "то " " ка" " мо" " вс" " ве" " но" "ак " " то" "ей " "я" "сь " "ся " N-граммы N=3 0,06 0,05 0,04 0,03 0,02 0,01 0 Рис. 61. Частоты употреблений N-грамм при N=3 в произведениях Блока N-граммы N=4 0,02 0,018 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 62. Частоты употреблений N-грамм при N=4 в произведениях Блок 87 "год" "ночь" "день" "небо" "жизнь" "луна" "ветер" "глаз" "час" "дом" "огонь" "камень" "весна" "свет" "поле" "волна" "солнце" "море" "сердце" "город" "человек" "рука" "туман" "вода" "цвет" "сон" "луч" "облако" "лето" "путь" " как " " что " " все " " стра" " мне " "огда " "когда" "нный " " когд" " жизн" " свет" " над " "ость " " под " " пуст" " серд" " нет " " ночь" "сердц" " так " "ночь " " меня" "меня " " друг" " не с" "енный" "траст" "страс" " твой" " голо" N-граммы N=5 0,01 0,009 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 63. Частоты употреблений N-грамм при N=5 в произведениях Блок Имена существительные 0,01 0,009 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 64. Частоты употреблений имен существительных в произведениях Бурлюка 88 "где" "здесь" "всегда" "вдруг" "много" "еще" "ныне" "больше" "вечно" "снова" "всюду" "вдоль" "навсегда" "выше" "везде" "нежно" "вдали" "вновь" "столько" "назад" "вниз" "опять" "часто" "когда-то" "внизу" "немного" "легко" "давно" "тщетно" "вверх" "полный" "черный" "злой" "белый" "старый" "зеленый" "далекий" "синий" "живой" "забытый" "темный" "голубой" "вечный" "новый" "ночной" "большой" "грядущий" "тайный" "больший" "немой" "прошлый" "желтый" "последний" "косой" "весенний" "серый" "легкий" "нежный" "пьяный" "веселый" Имена прилагательные и причастия 0,01 0,009 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 65. Частоты употреблений имен прилагательных и причастий в произведениях Бурлюка Наречия 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 66. Частоты употреблений наречий в произведениях Бурлюка 89 " по" "ой " " не" "и" " на" " пр" "на " "ый " " ст" "ом " "ть " "в" " за" "не " "ет " " ка" "ост" " ве" "но " " ко" "ей " "ий " "ный" "ста" "то " "ся " "ых " " во" "ли " " бе" "быть" "стать" "мочь" "жить" "идти" "знать" "мыть" "душить" "видеть" "играть" "прийти" "дать" "бросить" "бросать" "хотеть" "лежать" "смотреть" "морить" "полоть" "глядеть" "раздеть" "весить" "сидеть" "любить" "петь" "дрожать" "звать" "искать" "упасть" "плыть" Глаголы 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 67. Частоты употреблений глаголов в произведениях Бурлюка N-граммы N=3 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0 Рис. 68. Частоты употреблений N-грамм при N=3 в произведениях Бурлюка 90 " где " " как " " что " "нный " " под " " стар" "ость " " над " "огда " " все " "когда" "енный" " когд" " свет" "ность" " так " " жизн" " для " "ости " " прос" " цвет" "лись " "ного " " черн" "нной " " здес" "здесь" "десь " " глаз" " не в" "ный " " не " " на " " про" "ной " " при" "ных " " под" " что" " как" " ста" "где " " где" "как " " все" "что " " пол" " op " "ные " "кой " "тся " "сть " " гор" " сво" " над" " раз" " стр" "ами " "гда " "енны" N-граммы N=4 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 69. Частоты употреблений N-грамм при N=4 в произведениях Бурлюка N-граммы N=5 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 70. Частоты употреблений N-грамм при N=5 в произведениях Бурлюка 91 "полный" "рабочий" "другой" "красный" "белый" "узкий" "простой" "новый" "последний" "больший" "грядущий" "любимый" "черный" "русский" "огромный" "живой" "дорогой" "советский" "тихий" "большой" "старый" "готовый" "далекий" "ударный" "человечий" "великий" "нужный" "чистый" "разный" "убитый" "год" "товарищ" "день" "слово" "человек" "глаз" "стих" "земля" "поэт" "жизнь" "рука" "небо" "дело" "люди" "солнце" "вода" "душа" "сердце" "мир" "улица" "рот" "лицо" "дом" "ночь" "сегодня" "нога" "город" "время" "лето" "рота" Имена существительные 0,02 0,018 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 71. Частоты употреблений имен существительных в произведениях Маяковского Имена прилагательные и причастия 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 72. Частоты употреблений имен прилагательных и причастий в произведениях Маяковского 92 "быть" "идти" "знать" "жить" "мыть" "есть" "стоять" "пойти" "хотеть" "смотреть" "стать" "стоить" "дать" "говорить" "видеть" "взять" "душить" "сказать" "сидеть" "весить" "думать" "прийти" "бросить" "придти" "ходить" "писать" "давать" "любить" "глядеть" "забыть" "где" "еще" "здесь" "мало" "много" "просто" "вперед" "опять" "снова" "сразу" "сейчас" "нельзя" "очень" "лучше" "вдруг" "больше" "довольно" "долой" "дальше" "нынче" "можно" "вновь" "сюда" "прямо" "должно" "скоро" "хорошо" "ежедневно" "назад" "совсем" Наречия 0,0018 0,0016 0,0014 0,0012 0,001 0,0008 0,0006 0,0004 0,0002 0 Рис. 73. Частоты употреблений наречий в произведениях Маяковского Глаголы 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 74. Частоты употреблений глаголов в произведениях Маяковского 93 " не " " на " " про" " что" " как" "тся " "ого " "как " "ать " " под" "ный " " раз" "что " " это" "ами " " при" " по " "ной " " все" " и в" " из " " за " "сть " "кой " " пер" " так" " от " "его " "ных " "ает " " по" "и" " на" " не" "в" "не " "ть " "ой " " пр" "на " "то " "ет " " за" " ра" " ка" "ся " "ли " " ст" "ом " " во" " ко" " то" "ки " "и в" "но " "про" " го" "ый " "го " "ей " N-граммы N=3 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0 Рис. 75. Частоты употреблений N-грамм N=3 в произведениях Маяковского N-граммы N=4 0,02 0,018 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 76. Частоты употреблений N-грамм N=4 в произведениях Маяковского 94 "год" "душа" "день" "любовь" "сердце" "жизнь" "глаз" "мечта" "человек" "поэт" "море" "весна" "солнце" "мир" "сон" "стих" "слово" "ночь" "лето" "друг" "люди" "лес" "земля" "цвет" "женщина" "рука" "лицо" "том" "небо" "май" " как " " что " " это " " чтоб" "ется " " рабо" "чтоб " "ться " " все " " под " "ного " "овари" " пере" " вот " " голо" " слов" " прос" "товар" " това" "варищ" "ский " "если " "ится " " не с" " если" " крас" " не п" " мне " " без " "нный " N-граммы N=5 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 77. Частоты употреблений N-грамм N=5 в произведениях Маяковского Имена существительные 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 78. Частоты употреблений имен существительных в произведениях Северянина 95 "где" "всегда" "здесь" "еще" "вдруг" "много" "точно" "больше" "вновь" "снова" "опять" "совсем" "зачем" "давно" "вместе" "очень" "вечно" "часто" "просто" "нежно" "везде" "тихо" "слегка" "лучше" "вовсе" "мало" "вскоре" "столько" "вчера" "всего" "полный" "любимый" "узкий" "большой" "белый" "немой" "милый" "живой" "больший" "нежный" "влюбленный" "дорогой" "злой" "вечный" "точный" "новый" "тихий" "другой" "святой" "голубой" "русский" "светлый" "простой" "больной" "весенний" "правый" "веселый" "прекрасный" "земной" "легкий" Имена прилагательные и причастия 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 79. Частоты употреблений имен прилагательных и причастий в произведениях Северянина Наречия 0,0035 0,003 0,0025 0,002 0,0015 0,001 0,0005 0 Рис. 80. Частоты употреблений наречий в произведениях Северянина 96 "и" "в" " по" " не" "ой " "не " " на" " пр" "на " "ть " "но " "то " " ка" "ет " "ак " " мо" "я" " за" " ст" " вс" "ей " "ом " " ве" " то" "ый " " во" "ая " "ост" "ли " "ла " "быть" "мыть" "душить" "любить" "жить" "знать" "петь" "идти" "хотеть" "есть" "стать" "сказать" "дать" "говорить" "видеть" "смотреть" "весить" "пойти" "ждать" "прийти" "понять" "верить" "мочь" "помнить" "казаться" "звать" "морить" "плакать" "искать" "забыть" Глаголы 0,01 0,009 0,008 0,007 0,006 0,005 0,004 0,003 0,002 0,001 0 Рис. 81. Частоты употреблений глаголов в произведениях Северянина N-граммы N=3 0,05 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0 Рис. 82. Частоты употреблений N-грамм при N=3 в произведениях Северянина 97 " как " " что " " мне " " все " "огда " " она " " стра" " так " " где " "когда" "ость " "ного " " серд" " его " "нный " " меня" " когд" "меня " " жизн" " для " " мечт" "сердц" "ется " " прос" " нет " " глаз" " это " " мой " "олько" "ность" " не " " как" "как " " на " " все" " что" " при" " про" "ный " "что " "ной " " ты " "сть " "ого " " мне" "мне " " люб" " и в" " стр" " но " "все " "его " " сво" "ать " "а и " " был" " и с" " так" "гда " "тся " N-граммы N=4 0,018 0,016 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 83. Частоты употреблений N-грамм при N=4 в произведениях Северянина N-граммы N=5 0,014 0,012 0,01 0,008 0,006 0,004 0,002 0 Рис. 84. Частоты употреблений N-грамм при N=5 в произведениях Северянина 98 Приложение 2 Разница рангов 25 20 15 10 5 0 Имена существительные Рис. 1. Гистограмма разницы рангов имен существительных в произведениях Ахматовой и Гумилева разница рангов 25 20 15 10 5 0 Имена существительные Рис. 2. Гистограмма разницы рангов имен существительных в произведениях Ахматовой и Мандельштама Разница рангов 25 20 15 10 5 "человек" "солнце" "слово" "сердце" "рука" "ночь" "небо" "море" "мир" "лес" "кровь" "земля" "звезда" "жизнь" "душа" "день" "год" "глаз" "вода" 0 Имена существительные Рис. 3. Гистограмма разницы рангов имен существительных в произведениях Гумилева и Мандельштама 99 "черный" "узкий" "тихий" "темный" "страшный" "странный" "светлый" "полный" "нежный" "милый" "легкий" "зеленый" "высокий" "влюбленный" "веселый" "большой" "больший" "белый" Разница рангов 30 25 20 15 10 5 0 Имена прилагательные и причастия Рис. 4. Гистограмма разницы рангов имен прилагательных и причастий в произведениях Ахматовой и Гумилева Разница рангов 25 20 15 10 5 0 Имена прилагательные и причастия Разница рангов Рис. 5. Гистограмма разницы рангов имен прилагательных и причастий в произведениях Ахматовой и Мандельштама 35 30 25 20 15 10 5 0 Имена прилагательные и причастия Рис. 6. Гистограмма разницы рангов имен прилагательных и причастий в произведениях Гумилева и Мандельштама 100 Разница рангов 25 20 15 10 5 0 Наречия Разница арнгов Рис. 7. Гистограмма разницы рангов наречий в произведениях Ахматовой и Гумилева 18 16 14 12 10 8 6 4 2 0 Наречия Рис. 8. Гистограмма разницы рангов наречий в произведениях Ахматовой и Мандельштама Разница рангов 30 25 20 15 10 5 0 Наречия Рис. 9. Гистограмма разницы рангов наречий в произведениях Гумилева и Мандельштама 101 "хотеть" "умереть" "слышать" "сказать" "петь" "мыть" "любить" "идти" "знать" "жить" "есть" "гореть" "душить" "гореть" "говорить" "глядеть" "видеть" "быть" Разница рангов "хотеть" "умереть" "слышать" "сказать" "петь" "мыть" "любить" "идти" "знать" "жить" "есть" "гореть" "душить" "гореть" "говорить" "глядеть" "видеть" "быть" Разница рангов "быть" "видеть" "говорить" "гореть" "дать" "душить" "есть" "ждать" "жить" "знать" "идти" "любить" "мыть" "петь" "плакать" "прийти" "сказать" "смотреть" "стать" "умереть" "хотеть" Разница рангов 20 18 16 14 12 10 8 6 4 2 0 Глаголы Рис. 10. Гистограмма разницы рангов глаголов в произведениях Ахматовой и Гумилева 25 20 15 10 5 0 Глаголы Рис. 11. Гистограмма разницы рангов глаголов в произведениях Ахматовой и Мандельштама 25 20 15 10 5 0 Глаголы Рис. 12. Гистограмма разницы рангов глаголов в произведениях Гумилева и Мандельштама 102 "в" " во" " за" "и" " ка" " ко" " мо" " на" " не" " по" " пр" " ст" "ак " "ет " "на " "не " "но " "ный" "ой " "ом " "ся " "то " "ть " "ый " Разница рангов "в" " го" " за" "и" " ка" " мо" " на" " не" " по" " пр" " ст" "ак " "го " "ет " "на " "не " "но " "ой " "ом " "то " "ть " "ый " Разница рангов "в" " за" "и" " ка" " мо" " на" " не" " по" " пр" " ст" " то" "я" "ак " "го " "ей " "ет " "ли " "на " "не " "но " "ой " "ом " "то " "ть " "ый " Разница рангов 12 10 8 6 4 2 0 Триграммы Рис. 13. Гистограмма разницы рангов триграмм в произведениях Ахматовой и Гумилева 12 10 8 6 4 2 0 Триграммы Рис. 14. Гистограмма разницы рангов триграмм в произведениях Ахматовой и Мандельштама 14 12 10 8 6 4 2 0 Триграммы Рис. 15. Гистограмма разницы рангов триграмм в произведениях Гумилева и Мандельштама 103 Разница рангов 25 20 15 10 5 "тся " "что " "ого " "ный " "ной " "как " "мне " "й и " " что" " ты " " стр" " про" " при" " под" " на " " не " " мне" " как" " и с" " все" 0 N-граммы N=4 Рис. 16. Гистограмма разницы рангов N-грамм при N=4 в произведениях Ахматовой и Гумилева Разница рангов 25 20 15 10 5 0 N-граммы N=4 16 14 12 10 8 6 4 2 0 " все" " гор" " и в" " и с" " как" " на " " не " " под" " при" " про" " что" "его " "енны" "как " "ной " "ные " "ный " "ных " "ого " "тся " "что " Разница рангов Рис. 17. Гистограмма разницы рангов N-грамм при N=4 в произведениях Ахматовой и Мандельштама N-граммы N=4 Рис. 18. Гистограмма разницы рангов N-грамм при N=4 в произведениях Гумилева и Мандельштама 104 Разница рангов 30 25 20 15 10 5 0 N-граммы N=5 Рис. 19. Гистограмма разницы рангов N-грамм при N=5 в произведениях Ахматовой и Гумилева Разница рангов 25 20 15 10 5 0 " все " " где " " меня" " мне " " не п" " прос" " стра" " так " " что " N-граммы N=5 Рис. 20. Гистограмма разницы рангов N-грамм при N=5 в произведениях Ахматовой и Мандельштама Разница рангов 25 20 15 10 5 0 N-граммы N=5 Рис. 21. Гистограмма разницы рангов N-грамм при N=5 в произведениях Гумилева и Мандельштама 105 Разница рангов 20 18 16 14 12 10 8 6 4 2 0 Имена существительные Рис. 22. Гистограмма разницы рангов имен существительных в произведениях Есенина и Мариенгофа Разница рангов 25 20 15 10 5 0 Имена существительные Рис. 23. Гистограмма разницы рангов имен существительных в произведениях Есенина и Шершеневича Разница рангов 25 20 15 10 5 0 Имена существительные Рис. 24. Гистограмма разницы рангов имен существительных в произведениях Мариенгофа и Шершеневича 106 Разница рангов 18 16 14 12 10 8 6 4 2 0 Имена прилагательные и причастия Разница рангов Рис. 25. Гистограмма разницы рангов имен прилагательных и причастий в произведениях Есенина и Мариенгофа 20 18 16 14 12 10 8 6 4 2 0 Имена прилагательные и причастия Рис. 26. Гистограмма разницы рангов имен прилагательных и причастий в произведениях Есенина и Шершеневича Разница рангов 25 20 15 10 5 0 Имена прилагательные и причастия Рис. 27. Гистограмма разницы рангов имен прилагательных и причастий в произведениях Мариенгофа и Шершеневича 107 Разница рангов 12 10 8 6 4 2 0 Наречия Рис. 28. Гистограмма разницы рангов наречий в произведениях Есенина и Мариенгофа Разница рангов 25 20 15 10 5 0 Наречия Рис. 29. Гистограмма разницы рангов наречий в произведениях Есенина и Шершеневича 30 Разница рангов 25 20 15 10 5 0 "вдруг" "вместе" "выше" "где" "еще" "легко" "снова" Наречия Рис. 30. Гистограмма разницы рангов наречий в произведениях Мариенгофа и Шершеневича 108 Разница рангов 9 8 7 6 5 4 3 2 1 0 "быть" "есть" "идти" "мыть" Глаголы "хотеть" "стоять" "стоить" "стать" "смотреть" "слышать" "сказать" "пойти" "плакать" "петь" "мыть" "идти" "любить" "знать" "жить" "душить" "говорить" "видеть" 20 18 16 14 12 10 8 6 4 2 0 "быть" Разница рангов Рис. 31. Гистограмма разницы рангов глаголов в произведениях Есенина и Мариенгофа Глаголы Рис. 32. Гистограмма разницы рангов глаголов в произведениях Есенина и Шершеневича 12 Разница рангов 10 8 6 4 2 0 "быть" "идти" "мыть" "нести" Глаголы Рис. 33. Гистограмма разницы рангов глаголов в произведениях Мариенгофа и Шершеневича 109 Разница рангов 12 10 8 6 4 2 "ый " "ть " "ой " "не " "на " "ли " "ет " "ак " " ст" " пр" " по" " на" " не" " ко" " ка" "и" "в" 0 Триграммы Рис. 34. Гистограмма разницы рангов триграмм в произведениях Есенина и Мариенгофа 18 Разница рангов 16 14 12 10 8 6 4 2 "в" " ве" " за" "и" " ка" " ко" " мо" " на" " не" " по" " пр" " ст" " то" "я" "ак " "ей " "ет " "ли " "на " "не " "но " "ой " "ом " "ся " "то " "ть " "ый " 0 Триграммы Разница рангов Рис. 35. Гистограмма разницы рангов триграмм в произведениях Есенина и Шершеневича 20 18 16 14 12 10 8 6 4 2 0 Триграммы Рис. 36. Гистограмма разницы рангов триграмм в произведениях Мариенгофа и Шершеневича 110 Разница рангов 25 20 15 10 5 0 N-граммы N=4 Рис. 37. Гистограмма разницы рангов N-грамм при N=4 в произведениях Есенина и Мариенгофа Разница рангов 20 15 10 5 "что " "тся " "ого " "ный " "ной " "мне " "кой " "как " "и по" "ать " "ами " " что" " ты " " стр" " про" " при" " под" " не " 0 N-граммы N=4 Рис. 38. Гистограмма разницы рангов N-грамм при N=4 в произведениях Есенина и Шершеневича 12 Разница рангов 10 8 6 4 2 0 " на " " не " " под" " про" " стр" "как " "ной " "ный " "ого " "тся " N-граммы N=4 Рис. 39. Гистограмма разницы рангов N-грамм при N=4 в произведениях Мариенгофа и Шершеневича 111 Разница рангов 12 10 8 6 4 2 0 " как " "и не " "меня " N-граммы N=5 Разница рангов Рис. 40. Гистограмма разницы рангов N-грамм при N=5 в произведениях Есенина и Мариенгофа 18 16 14 12 10 8 6 4 2 0 N-граммы N=5 Разница рангов Рис. 41. Гистограмма разницы рангов N-грамм при N=5 в произведениях Есенина и Шершеневича 9 8 7 6 5 4 3 2 1 0 " глаз" " как " " пере" "ется " "меня " "нный " N-граммы N=5 Рис. 42. Гистограмма разницы рангов N-грамм при N=5 в произведениях Мариенгофа и Шершеневича 112 Разница рангов 20 18 16 14 12 10 8 6 4 2 0 Имена существительные "час" "сон" "сердце" "свет" "путь" "огонь" "ночь" "небо" "мир" "мечта" "любовь" "земля" "жизнь" "душа" "день" "год" "глаз" 20 18 16 14 12 10 8 6 4 2 0 "ветер" Разница рангов Рис. 43. Гистограмма разницы рангов имен существительных в произведениях Бальмонта и Белого Имена существительные Рис. 44. Гистограмма разницы рангов имен существительных в произведениях Бальмонта и Блока Разница рангов 30 25 20 15 10 5 0 Имена существительные Рис. 45. Гистограмма разницы рангов имен существительных в произведениях Белого и Блока 113 Разница рангов 20 18 16 14 12 10 8 6 4 2 0 Имена прилагательные и причастия Рис. 46. Гистограмма разницы рангов имен прилагательных и причастий в произведениях Бальмонта и Белого Разница рангов 25 20 15 10 5 0 Имена прилагательные и причастия Рис. 47. Гистограмма разницы рангов имен прилагательных и причастий в произведениях Бальмонта и Блока Разница рангов 30 25 20 15 10 5 0 Имена прилагательные и причастия Рис. 48. Гистограмма разницы рангов имен прилагательных и причастий в произведениях Белого и Блока 114 Разница рангов 30 25 20 15 10 5 0 Наречия "туда" "точно" "сладко" "прочь" "опять" "навсегда" "много" "кругом" "зачем" "еще" "далеко" "где" "всегда" "вновь" "вместе" "вдруг" "вдали" 18 16 14 12 10 8 6 4 2 0 "больше" Разница рангов Рис. 49. Гистограмма разницы рангов наречий в произведениях Бальмонта и Белого Наречия Рис. 50. Гистограмма разницы рангов наречий в произведениях Бальмонта и Блока Разница рангов 25 20 15 10 5 0 Наречия Рис. 51. Гистограмма разницы рангов наречий в произведениях Белого и Блока 115 Разница рангов 30 25 20 15 10 5 0 Глаголы "уйти" "хотеть" "стать" "спать" "смотреть" "петь" "понять" "мыть" "любить" "идти" "знать" "жить" "ждать" "есть" "душить" "дышать" "дать" "глядеть" "быть" 18 16 14 12 10 8 6 4 2 0 "видеть" Разница рангов Рис. 52. Гистограмма разницы рангов глаголов в произведениях Бальмонта и Белого Глаголы Рис. 53. Гистограмма разницы рангов глаголов в произведениях Бальмонта и Блока Разница рангов 25 20 15 10 5 0 Глаголы Рис. 54. Гистограмма разницы рангов глаголов в произведениях Белого и Блока 116 "в" " ве" " за" "и" " ка" " мо" " на" " не" " но" " по" " пр" " ст" "ей " "ет " "на " "не " "но " "ный" "ой " "ом " "сь " "ся " "ый " Разница рангов "в" " ве" " вс" " за" "и" " ка" " мо" " на" " не" " по" " пр" " ст" "я" "ак " "ей " "ет " "на " "не " "но " "ой " "ом " "ся " "то " "ть " "ый " Разница рангов " бе" "в" " ве" " во" " за" "и" " ка" " мо" " на" " не" " по" " пр" " ст" "ей " "ет " "ли " "на " "не " "но " "ой " "ом " "ся " "ый " Разница рангов 25 20 15 10 5 0 Триграммы Рис. 55. Гистограмма разницы рангов триграмм в произведениях Бальмонта и Белого 14 12 10 8 6 4 2 0 Триграммы Рис. 56. Гистограмма разницы рангов триграмм в произведениях Бальмонта и Блока 25 20 15 10 5 0 Триграммы Рис. 57. Гистограмма разницы рангов триграмм в произведениях Белого и Блока 117 14 Разница рангов 12 10 8 6 4 2 0 N-граммы N=4 "что " "тся " "сть " "стра" "ный " "ной " "как " "все " " что" " ты " " стр" " про" " при" " не " " на " " как" " и в" 16 14 12 10 8 6 4 2 0 " все" Название оси Рис. 58. Гистограмма разницы рангов N-грамм при N=4 в произведениях Бальмонта и Белого N-граммы N=4 Рис. 59. Гистограмма разницы рангов N-грамм при N=4 в произведениях Бальмонта и Блока 30 Название оси 25 20 15 10 5 0 N-граммы N=4 Рис. 60. Гистограмма разницы рангов N-грамм при N=4 в произведениях Белого и Блока 118 35 Разница рангов 30 25 20 15 10 5 0 " все " " как " " мне " " над " " свет" " что " "ется " "нный " N-граммы N=5 Рис. 61. Гистограмма разницы рангов N-грамм при N=5 в произведениях Бальмонта и Белого Разница рангов 20 15 10 5 0 N-граммы N=5 Рис. 62. Гистограмма разницы рангов N-грамм при N=5 в произведениях Бальмонта и Блока Разница рангов 25 20 15 10 5 0 " все " " как " " мне " " над " " свет" " что " "енный" "нный " N-граммы N=5 Рис. 63. Гистограмма разницы рангов N-грамм при N=5 в произведениях Белого и Блока 119 Разница рангов 25 20 15 10 5 0 Имена существительные Рис. 64. Гистограмма разницы рангов имен существительных в произведениях Бурлюка и Маяковского Разница рангов 30 25 20 15 10 5 0 Имена существительные "человек" "стих" "солнце" "слово" "сердце" "рука" "поэт" "ночь" "небо" "мир" "люди" "лето" "лицо" "жизнь" "женщина" "душа" "день" "год" 18 16 14 12 10 8 6 4 2 0 "глаз" Разница рангов Рис. 65. Гистограмма разницы рангов имен существительных в произведениях Бурлюка и Северянина Имена существительные Рис. 66. Гистограмма разницы рангов имен существительных в произведениях Маяковского и Северянина 120 Разница рангов 18 16 14 12 10 8 6 4 2 0 Имена прилагательные и причастия Разница рангов Рис. 67. Гистограмма разницы рангов имен прилагательных и причастий в произведениях Бурлюка и Маяковского 20 18 16 14 12 10 8 6 4 2 0 Имена прилагательные и причастия Разница рангов Рис. 68. Гистограмма разницы рангов имен прилагательных и причастий в произведениях Бурлюка и Северянина 18 16 14 12 10 8 6 4 2 0 Имена прилагательные и причастия Рис. 69. Гистограмма разницы рангов имен прилагательных и причастий в произведениях Маяковского и Северянина 121 Разница рангов 16 14 12 10 8 6 4 2 0 Наречия Рис. 70. Гистограмма разницы рангов наречий в произведениях Бурлюка и Маяковского 16 Разница рангов 14 12 10 8 6 4 2 0 Наречия Рис. 71. Гистограмма разницы рангов наречий в произведениях Бурлюка и Северянина Разница рангов 25 20 15 10 5 0 Наречия Рис. 72. Гистограмма разницы рангов наречий в произведениях Маяковского и Северянина 122 Разница рангов 18 16 14 12 10 8 6 4 2 0 Глаголы Рис. 73. Гистограмма разницы рангов наречий в произведениях Бурлюка и Маяковского Разница рангов 25 20 15 10 5 0 Глаголы Рис. 74. Гистограмма разницы рангов наречий в произведениях Бурлюка и Северянина Разница рангов 30 25 20 15 10 5 "хотеть" "стать" "смотреть" "сказать" "прийти" "пойти" "мыть" "любить" "идти" "знать" "забыть" "есть" "жить" "душить" "дать" "говорить" "видеть" "весить" "быть" 0 Глаголы Рис. 75. Гистограмма разницы рангов наречий в произведениях Маяковского и Северянина 123 "в" " во" " за" "и" " ка" " на" " не" " по" " пр" " ст" " то" "ей " "ет " "ли " "на " "не " "но " "ой " "ом " "то " "ть " "ый " Разница рангов "в" " ве" " во" " за" "и" " ка" " на" " не" " по" " пр" " ст" "ли " "на " "не " "но " "ой " "ом " "ост" "то " "ть " "ый " Разница рангов "в" " во" " за" "и" " ка" " ко" " на" " не" " по" " пр" " ст" "ей " "ет " "ли " "на " "не " "но " "ой " "ом " "ся " "то " "ть " "ый " Разница рангов 25 20 15 10 5 0 Триграммы Рис. 76. Гистограмма разницы рангов триграмм в произведениях Бурлюка и Маяковского 18 16 14 12 10 8 6 4 2 0 Триграммы Рис. 77. Гистограмма разницы рангов триграмм в произведениях Бурлюка и Северянина 16 14 12 10 8 6 4 2 0 Триграммы Рис. 78. Гистограмма разницы рангов триграмм в произведениях Маяковского и Северянина 124 Разница рангов 25 20 15 10 5 "что " "тся " "сть " "ных " "ный " "ной " "кой " "как " "ами " " что" " раз" " про" " при" " под" " не " " на " " как" " все" 0 N-граммы N=4 Рис. 79. Гистограмма разницы рангов N-грамм при N=4 в произведениях Бурлюка и Маяковского Разница рангов 12 10 8 6 4 2 0 N-граммы N=4 Рис. 80. Гистограмма разницы рангов N-грамм при N=4 в произведениях Бурлюка и Северянина Разница рангов 30 25 20 15 10 Ряд1 5 "что " "тся " "сть " "ого " "ный " "ной " "как " "ать " " что" " так" " про" " не " " на " " как" " и в" " все" 0 N-граммы N=4 Рис. 81. Гистограмма разницы рангов N-грамм при N=4 в произведениях Маяковского и Северянина 125 30 Разница рангов 25 20 15 10 5 0 " все " " как " " под " " прос" " что " "нный " N-граммы N=5 Разница рангов Рис. 82. Гистограмма разницы рангов N-грамм при N=5 в произведениях Бурлюка и Маяковского 16 14 12 10 8 6 4 2 0 N-граммы N=5 Рис. 83. Гистограмма разницы рангов N-грамм при N=5 в произведениях Бурлюка и Северянина 30 Разница рангов 25 20 15 10 5 0 " как " " мне " " прос" " что " " это " "ется " "нный " "ного " N-граммы N=5 Рис. 84. Гистограмма разницы рангов N-грамм при N=5 в произведениях Маяковского и Северянина 126 127