Квантитативный анализ лексики русских поэтов первой половины XVIII века

Квантитативный анализ лексики русских поэтов первой половины XVIII века

А. В. Кашкина (Воронеж)

Квантитативный анализ лексики русских поэтов первой половины XVIII века

A. V. Kashkina (Voronezh) A quantitative analysis of Russian poetic language (the 1st half of the 18th century)

The article studies the language of Russian poetry using quantitative methods. The author analyses such poets as Lomonosov, Sumarokov, Kantemir, Prokopovich and Trediakovsky to determine the specific features of Russian poetic language in the beginning of the 18th century. The data are summarized in a table that shows the words that the poets’ lexicons have in common. This article makes part of a greater work that covers the evolution of Russian poetic language during the 18th – 20th centuries.

 

Введение


Цель настоящей работы – выявить общее и частное в лексическом составе языка произведений русских поэтов начала XVIII века. Таким образом, в данном исследовании необходимо решить следующие задачи:
1) с помощью квантитативных методов собрать информацию о составе словаря каждого из поэтов первой половины XVIII века;
2) сопоставляя данные о лексике произведений разных авторов, определить сходные и различные черты.
Квантитативные методы используются для исследования литературных произведений уже довольно длительное время. Научной основой для их применения стали законы Ципфа, описывающие статистическую структуру любого текста на естественном языке: 1) произведение вероятности обнаружения некоторого слова в тексте на ранг его частоты – константа, сохраняющая своё значение для всех текстов на данном языке; 2) частота и количество слов, входящих в текст с данной частотой, связаны между собой (Zipf 1949: 1965). Эти законы позволяют выделить из частотного словаря какого-либо текста или совокупности текстов ключевые слова.
Первооткрывателем объективного направления в решении вопросов анализа и атрибуции текстов в отечественном литературоведении стал Н. А. Морозов, который предложил рассматривать высокочастотные, общие для всех родов литературы языковые элементы. Результат анализа текста, по Морозову, имеет вид графика (лингвистического спектра) распределения частоты встречаемости различных языковых элементов, сгруппированных в какой-либо грамматический класс (Морозов 1915). Однако все результаты работы данного метода зависят от объёма анализируемого текста. Польский исследователь Е. Ворончак пришел к выводу, что границей объёма текста, ниже которой результаты его статистического анализа не достоверны, является пять тысяч словоформ (Woronczak 1967).
Основой проведения сравнительного анализа языка русской литературы являются частотные словари, составляемые по текстам отдельных авторов. Первые отечественные работы подобного рода – это «Словарь языка Пушкина» (СЯП 1961) и «Частотный словарь языка М. Ю. Лермонтова», вышедший в составе «Лермонтовской энциклопедии» (ЛЭ 1981). В настоящее время многие лингвисты занимаются сопоставительным анализом литературы с применением квантитативных методов. Наиболее полное исследование русской литературы было проведено В. С. Баевским, И. В. Романовой и Т. А. Самойловой, которые на материале 37 частотных словарей русских поэтов XIX-XX веков рассмотрели русскую лирику как в синхронии, так и в диахронии (Баевский, Романова, Самойлова 2003). А. А. Кретов в своей статье (Кретов 2008: 353-366) анализирует лексический состав языка поэзии Кольцова, выявляя ключевые слова (архетипы). Из зарубежных работ по данной тематике наболее полным является исследование Жозефины Майлз «The continuity of poetic language; the primary language of poetry, 1540’s-1940’s» (Miles 1965)


Методологические основы исследования


Для проведения исследования применялись следующие методы:
а) квантитативный метод, то есть, определение абсолютной и относительной частоты словоформ;
б) метод определения авторских весов лексики.
Абсолютная частота словоформы – это число встреч данной словоформы в исследуемом тексте. Относительная частота (частотный вес) словоформы зависит от абсолютной частоты словоформы в анализируемом тексте, и определяется по формуле, предложенной В. Т. Титовым (Титов 2004: 15):

 

 

 

где ∑r – сумма единиц всех рангов (то есть,. общее количество словоформ в частотном словаре), R1-i – сумма единиц (абсолютных частот) от первого до данного ранга. Функциональный вес словоформы в тексте вычисляется по той же формуле, что и частотный вес, но в качестве критерия для присвоения словоформе определённого ранга выступает не её частота, а её длина в звуках. Авторский вес словоформы определяется как разность относительной частоты и функционального веса словоформы. Используется метод определения авторских весов, так как частота словоформы (как абсолютная, так и относительная), зависит и от длины словоформы в звуках: более короткие словоформы употребляются чаще, чем более длинные. Поэтому для получения более точного и полного представления как о языке конкретных поэтов, так и о языке поэзии определённой эпохи необходимо рассматривать авторский вес используемой в поэтическом творчестве лексики.
Принципы отбора лексического материала для анализа
В данной работе анализируются словоформы, а не слова. По мнению А. А. Кретова, «ориентируясь на лемматизированный частотный словарь, единицами которого являются слова (представленные всеми своими словоформами в тексте и только одной словарной формой – леммой – в словаре), частота которых равняется суммарной частоте всех их словоформ, мы получаем обобщённую и неизбежно огрублённую картину» (Кретов 2008: 353-366). Таким образом, анализ нелемматизированного словаря способен дать более полное представление о составе языка поэзии. В настоящем исследовании рассматриваются существительные, прилагательные и полнозначные глаголы, так как они более характерно показывают особенности языка конкретного автора или эпохи, чем, например, предлоги.
Кроме того, у отобранных для анализа словоформ как частотный, так и функциональный вес должны превышать некоторое значение. Так, А. А. Кретов, исследуя частотный состав языка поэзии Кольцова, предлагает по каждому из этих параметров выбрать «около тысячи словоформ с максимальными весами. По частотному параметру такими окажутся 1174 словоформы с частотой 3 и более, а по функциональному параметру (длине) такими окажутся 904 словоформы длиной в 4 звука и менее» (Кретов 2008: 353-366). В настоящей работе пороги для частоты и длины словоформ установлены следующим образом:
1) для частоты – с помощью вычисления среднего арифметического всех частот (для каждого автора эта величина индивидуальна, так как зависит от объёма анализируемого текста);
2) для длины – рассматриваются словоформы с длиной ≤ 8 звукам.


Материал исследования


В настоящей работе рассматриваются произведения следующих русских поэтов первой половины XVIII века: М. В. Ломоносова, А. Н. Кантемира, В. К. Тредиаковского, А. П. Сумарокова, Феофана Прокоповича. В данном исследовании используются наиболее полные из доступных собраний сочинений каждого из авторов. Информация об объеме проанализированного материала (в словоупотреблениях) представлена в Табл. 1.

Таблица 1. Объем изученного материала

Поэт

Кол-во

словоупотр.

А. Н. Кантемир

М. В. Ломоносов

Феофан Прокопович

А. П. Сумароков

В. К. Тредиаковский

1408

4530

925

4529

3220

Итого

14612



Результаты исследования

Рассмотрим данные, полученные при анализе произведений поэтов начала XVIII века.


Таблица 2. Частотный состав лексики произведений М. В. Ломоносова

Словоформа

Частота

Ч-вес1

Д-вес2

Авторский вес

крепости

7

0,964018 

0,200718 

0,779315

отвратить

6

0,957174

0,200718

0,774382

великий

6

0,957174

0,336298

0,638802

напасти

6

0,957174

0,336298

0,638802

врагов

12

0,983002

0,514637

0,478326

радость

6

0,957174

0,514627

0,460473

монарх

6

0,957174

0,514627

0,460473

смерти

6

0,957174

0,514627

0,460473

страх

12

0,983002

0,71238

0,280573

сердца

8

0,969316

0,71238

0,271646

смерть

8

0,969316

0,71238

0,271646

земля

8

0,969316

0,71238

0,271646

крови

8

0,969316

0,71238

0,271646

верьхи

7

0,964018

0,71238

0,267653

земли

7

0,964018

0,71238

0,267653

власть

6

0,957174

0,71238

0,26272

слова

6

0,957174

0,71238

0,26272

стены

6

0,957174

0,71238

0,26272

труды

6

0,957174

0,71238

0,26272

град

13

0,984547

0,874327

0,119565

слух

11

0,981236

0,874327

0,116277

кровь

10

0,9766

0,874327

0,114163

труд

10

0,9766

0,874327

0,114163

честь

8

0,969316

0,874327

0,109699

взор

8

0,969316

0,874327

0,109699

горы

7

0,964018

0,874327

0,105706

мест

7

0,964018

0,874327

0,105706

мрак

7

0,964018

0,874327

0,105706

поля

7

0,964018

0,874327

0,105706

стен

7

0,964018

0,874327

0,105706

казнь

6

0,957174

0,874327

0,100773

ветр

6

0,957174

0,874327

0,100773

воды

6

0,957174

0,874327

0,100773

глас

6

0,957174

0,874327

0,100773

знак

6

0,957174

0,874327

0,100773

иной

6

0,957174

0,874327

0,100773

руку

6

0,957174

0,874327

0,100773

свет

6

0,957174

0,874327

0,100773

флот

6

0,957174

0,874327

0,100773

дух

16

0,988079

0,965676

0,031035

путь

15

0,986976

0,965676

0,030331

вид

11

0,981236

0,965676

0,024928

рок

10

0,9766

0,965676

0,022814

день

10

0,9766

0,965676

0,022814

дал

7

0,964018

0,965676

0,014357

дел

7

0,964018

0,965676

0,014357

лет

7

0,964018

0,965676

0,014357

сил

7

0,964018

0,965676

0,014357

дни

6

0,957174

0,965676

0,009424

дом

6

0,957174

0,965676

0,009424

лес

6

0,957174

0,965676

0,009424

рук

6

0,957174

0,965676

0,009424

час

6

0,957174

0,965676

0,009424

1 Ч-вес – частотный вес

2 Д-вес – функциональный вес

 

Рассмотрим сначала словоформы с точки зрения их абсолютной и относительной частоты. Прежде всего, следует отметить незначительное количество прилагательных и глаголов (по 2 словоформы). Так как Ломоносов написал 20 торжественных од, в его языке присутствуют словоформы, объединенные общей темой «власть» (власть, монарх, великий). Но поэта интересовал и внутренний мир человека, его переживания (радость, страх, напасти, дух, сердца, честь). Кроме того, в поэзии Ломоносова присутствует отображение природы (земля, земли, горы, поля, ветр, воды, лес) и городского пейзажа (град, стен, крепости, дом). Значительно количество архаических словоформ, церковнославянизмов (глас, взор, верьхи и т. д.). 10 словоформ с максимальным авторским весом – крепости, отвратить, великий, напасти, врагов, радость, монарх, смерти, страх, сердца. Как можно видеть, помимо существительных, среди словоформ с максимальным авторским весом имеется 1 глагол и 1 прилагательное. Длина словоформ с наибольшим авторским весом довольно значительна – от 5 до 8 звуков. Также можно отметить, что значительное количество этих словоформ связано с описанием чувств человека (радость, страх, сердца), его взаимоотношений с миром (врагов, напасти, монарх, великий). Таким образом, именно человек и общество являются центральной темой творчества Ломоносова. В целом поэзии Ломоносова присущ скорее философский, чем лирический характер.


Таблица 3. Частотный состав лексики произведений А. Н. Кантемира

Словоформа

Частота

Ч-вес

Д-вес

Авторский вес

причину

5

0,965909 

 0,211648  

 0,754261

верблюд

4

0,948864

0,211648

0,737216

желает

4

0,948864

0,211648

0,737216

голову

4

0,948864

0,369318

0,579546

должен

4

0,948864

0,369318

0,579546

бедный

3

0,901278

0,369318

0,53196

писати

3

0,901278

0,369318

0,53196

сказал

3

0,901278

0,369318

0,53196

палаты

3

0,901278

0,369318

0,53196

может

6

0,978693

0,559659

0,419034

время

5

0,965909

0,559659

0,40625

бремя

4

0,948864

0,559659

0,389205

знаю

4

0,948864

0,559659

0,389205

края

4

0,948864

0,559659

0,389205

образ

3

0,901278

0,559659

0,341619

племя

3

0,901278

0,559659

0,341619

слава

3

0,901278

0,559659

0,341619

слова

3

0,901278

0,559659

0,341619

стихи

3

0,901278

0,559659

0,341619

другу

3

0,901278

0,559659

0,341619

дело

6

0,978693

0,740767

0,237926

жизнь

5

0,965909

0,740767

0,225142

мысль

4

0,948864

0,740767

0,225142

ищет

4

0,948864

0,740767

0,208097

тело

4

0,948864

0,740767

0,208097

неба

3

0,901278

0,740767

0,160511

беды

3

0,901278

0,740767

0,160511

нору

Хостинг от uCoz