Numerals in Texts as a Characteristic Trait of Author's Style

Research article
DOI:
https://doi.org/10.18454/RULB.2023.45.28
Issue: № 9 (45), 2023
Suggested:
14.08.2023
Accepted:
24.08.2023
Published:
08.09.2023
1805
6
XML
PDF

Abstract

The application of a new quantitative method of studying the author's style of literary texts is examined. The method is based on computer analysis of the statistics of numerals occurring in texts. It is shown that quantitative and ordinal numerals used by the author in the (fiction) text are individual for each author; their aggregate is a characteristic trait that distinguishes the texts of different authors. A comparative analysis of literary texts by I.A. Bunin and A.I. Kuprin is carried out; to verify the methodology, the works of F.K. Sologub and M.P. Artsybashev are additionally studied. The results of the analysis were subjected to hierarchical clustering, which correctly divided the texts according to authorship and genre.

1. Введение

Задачи стилометрии, к которым относится количественное изучение авторских особенностей текстов (в т.ч. для их атрибуции) до настоящего времени не имеют вполне удовлетворительного решения

,
: традиционно вычисляются частоты встречаемости в текстах знаменательных частей речи и служебных слов (предлоги, союзы), средние длины слов и предложений; в паре анализируемых текстов сравниваются самые часто встречающиеся слова
и даже буквосочетания (как ни странно, последний подход часто даёт неплохие результаты). К сожалению, разные методы часто приводят к несогласующимся выводам.

Хорошие результаты получены с помощью нейронных сетей

, а вскоре, по-видимому, искусственный интеллект сможет успешно решать задачи стилометрии, но содержательная интерпретация результатов при этом затруднительна, поскольку метод, опирающийся на применение нейронных сетей, является «чёрным ящиком».

Нами разработан оригинальный подход к анализу авторских (литературных) текстов, основанный на учёте использования авторами числительных в их текстах

,
. Такой подход имеет немалые преимущества. Среди знаменательных частей речи числительные по своей природе наиболее легко поддаются количественному учёту. Кроме того, среди всех особенностей текста, анализируемых в стилометрии, пожалуй, только встречаемость числительных практически не меняется при переводе текста на другой язык (за малозначимым вычетом числительных, входящих в идиомы – см. ниже). Это расширяет возможности текстологического анализа, позволяя, например, в случае необходимости привлекать тексты, имеющиеся на языке-посреднике.

Применительно к художественному тексту, содержание которого не является жёстко привязанным к реальным событиям, а порождено свободным воображением, естественно предположить, что употребление числительных связано с психологическими особенностями автора, неосознанно для него самого влияющими на результат творчества (в рамках выбранных жанра, сюжета и т.п.). Следовательно, манера использования числительных – это авторская особенность (fingerprint), позволяющая при определённых обстоятельствах решить проблему авторства текста.

Наше предположение подтвердилось; анализ произведений нескольких десятков авторов на русском, чешском, английском языках обнаружил ощутимые авторские особенности употребления числительных в текстах, влияние на них жанра, стиля, художественного направления

,
,
,
. В частности, недавно нами решена важная проблема чешского литературоведения, связанная с авторством некоторых текстов, приписываемых классику чешской литературы – Петру Безручу
. Таким образом, результаты анализа встречаемости числительных допускают содержательное филологическое истолкование.

В данной работе мы проанализируем основные литературные произведения И.А. Бунина (1870–1953) и А.И. Куприна (1870–1938) с точки зрения использования числительных. Литературная критика часто рассматривает эти имена совместно, а в художественной манере Нобелевского лауреата по литературе Бунина и его современника Куприна, которого Бунин высоко ценил, находят немало общего

,
,
. До сих пор сопоставление ограничивалось традиционными филологическими подходами.

В современной стилометрии укоренилось мнение, что даже при сопоставлении текстов двух авторов доказательную силу об их сходстве будет иметь лишь анализ, в котором изучаемые тексты «разбавлены» множеством посторонних текстов других авторов (т.н. impostors)

. Следуя этим идеям, мы ввели в рассмотрение произведения двух современников Бунина и Куприна – Ф.К. Сологуба (1863–1927) и М.П. Арцыбашева (1878–1927). Выбор диктовался частичным совпадением художественных направлений всех четырёх литераторов
,
,
и личными предпочтениями автора настоящего исследования.

2. Метод и объекты исследования

Нами разработана компьютерная программа, отыскивающая в русскоязычном тексте количественные и порядковые числительные, выраженные как цифрами (числа), так и словесно в разных словоформах. Поиск основан на сличении слов текста со словарной базой из словаря: «М. Хаген – Полная парадигма. Морфология. Частотный словарь. Совмещенный словарь» (http://speakrus.ru/dict2/#morph-paradigm).

Предварительно из текста автоматически удалялись идиоматические выражения и устойчивые фразы, случайно содержащие числительные («семь пятниц на неделе», «ясно как дважды два четыре» и т.п.); вручную удалялись числительные, не связанные с авторским художественным замыслом – номера страниц, глав, перечисления 1), 2), 3), … и т.п.

Мы проанализировали наиболее объёмные произведения Бунина, Куприна, Сологуба и Арцыбашева, представленные в табл. 1.

Таблица 1 - Встречаемость числительных в исследованных произведениях

Автор, текст, год создания

Объём (байты, кодировка UTF)

Количество числительных

Обратная плотность числительных

1

Бунин, Жизнь Арсеньева (1929)

987966

588

1680,2

2

Бунин, Стихотворения

921097

322

2860,5

3

Бунин, Темные аллеи (опубл. 1943)

796064

548

1452,7

4

Бунин, Под серпом и молотом (опубл. 1950)

756078

944

800,9

5

Бунин, Деревня (1910)

413138

272

1518,9

6

Бунин, Окаянные дни (1920)

408271

488

836,6

7

Куприн, Яма (1915)

1071674

1062

1009,1

8

Куприн, Юнкера (1932)

837555

992

844,3

9

Куприн, Поединок (1905)

795748

730

1090,1

10

Куприн, Лазурные берега (1913)

312916

492

636,0

11

Куприн, Киевские типы (1897)

166941

169

987,8

12

Сологуб, Стихотворения

1037506

357

2906,2

13

Сологуб, Мелкий бес (1902)

887247

393

2257,6

14

Арцыбашев, У последней черты (1912)

1566573

774

2024,0

15

Арцыбашев, Санин (1907)

1045996

427

2449,6

16

Арцыбашев, Женщина, стоящая посреди (1915)

409174

178

2298,7

17

Арцыбашев, Смерть Ланде (1904)

376880

149

2529,4

3. Основные результаты

Для каждого произведения найдена обратная плотность числительных как результат деления объёма текста на количество найденных в нём числительных. Чем меньше обратная плотность, тем чаще в тексте встречаются числительные.

В связи с этим понятны сравнительно малые значения обратной плотности в мемуарном (№4), дневниковом (№6) и очерковых (№10, 11) текстах, в которых неизбежно обилие фактографических числовых подробностей.

Сравнение обратных плотностей числительных для художественных текстов обнаруживает существенное различие между произведениями Бунина (№1, 3, 5) и Куприна (№7, 8, 9): в текстах последнего числительные используются чаще (детализация больше).

Наконец, обратим внимание на большие обратные плотности для поэзии (№2, 12), которой, вообще говоря, не свойственна детализация.

Проза Сологуба и Арцыбашева, добавленных в качестве impostors (№13–17), отличается очень большими значениями обратной плотности, статистически достоверно отличными от значений для прозы Бунина и Куприна.

Эти результаты показывают, что использование числительных специфично для автора и жанра.

В табл. 2 представлены абсолютные частоты числительных 1, 2, …, 5, которые содержатся во всех исследованных произведениях. Поскольку тексты сильно различаются по размеру (см. табл. 1), для сравнимости абсолютных частот числительных в разных текстах мы ввели поправочные коэффициенты, выбрав в качестве эталонного текста для сравнения «Яму» Куприна. Поэтому, например, частоты числительных в «Жизни Арсеньева» Бунина пришлось умножить на 1071674/987966 = 1,08, а для романа «У последней черты» Арцыбашева – на 1071674/1566573 = 0,68.

Абсолютные частоты числительных с поправкой на размер текста приведены в скобках в табл. 2.

Таблица 2 - Абсолютные частоты числительных 1, 2, …, 5 в исследованных текстах и исправленные абсолютные частоты (в скобках) с поправками, учитывающими разный размер текстов

Автор, текст

числительные

1

2

3

4

5

1

Бунин, Жизнь Арсеньева

355 (385,1)

101 (109,6)

50 (54,2)

4 (4,3)

10 (10,9)

2

Бунин, Стихотворения

152 (176,9)

56 (65,2)

19 (22,1)

15 (17, 5)

6 (7,0)

3

Бунин, Темные аллеи

248 (333,9)

99 (133,3)

46 (61,9)

13 (17,5)

20 (26,9)

4

Бунин, Под серпом и молотом

306 (433,7)

99 (140,3)

48 (68,0)

14 (19,8)

18 (25,5)

5

Бунин, Деревня

105 (272,4)

46 (119,3)

31 (80,4)

7 (18,2)

13 (33,7)

6

Бунин, Окаянные дни

140 (367,5)

53 (139,1)

30 (78,8)

10 (26,3)

9 (23,6)

7

Куприн, Яма

392 (392)

172 (172)

101 (101)

34 (34)

47 (47)

8

Куприн, Юнкера

313 (400,5)

208 (266,1)

112 (143,3)

80 (102,4)

27 (34,6)

9

Куприн, Поединок

302 (406,7)

127 (171,0)

66 (88,9)

25 (33,7)

38 (51,2)

10

Куприн, Лазурные берега

140 (479,5)

88 (301,4)

54 (184,9)

25 (85,6)

26 (89,0)

11

Куприн, Киевские типы

59 (378,8)

26 (166,9)

22 (141,2)

11 (70,6)

6 (38,5)

12

Сологуб, Стихотворения

209 (215,9)

72 (74,4)

25 (25,8)

12 (12,4)

3 (3,1)

13

Сологуб, Мелкий бес

176 (212,6)

79 (95,4)

50 (60,4)

15 (18,1)

12 (14,5)

14

Арцыбашев, У последней черты

496 (339,3)

105 (71,8)

46 (31,5)

9 (6,2)

7 (4,8)

15

Арцыбашев, Санин

283 (290,0)

72 (73,8)

22 (22,5)

1 (1,0)

3 (3,1)

16

Арцыбашев, Женщина, стоящая посреди

122 (319,5)

30 (78,6)

10 (26,2)

5 (13,1)

2 (5,2)

17

Арцыбашев, Смерть Ланде

106 (301,4)

22 (62,6)

4 (11,4)

2 (5,7)

3 (8,5)

Ещё более определённые результаты, чем при анализе обратных плотностей числительных, были получены при использовании иерархического кластерного анализа, объединяющего объекты в кластеры по принципу сходства. Как известно, мерой его является метрика ρ («расстояние»): чем меньше «расстояние» между объектами, тем больше сходство между ними. Мы применили манхэттенскую метрику

img
(1)

где x и yn-мерные векторы, компонентами которых являются исправленные абсолютные частоты (см. табл. 2) первых n натуральных чисел в двух анализируемых текстах (здесь n = 5, т. к. во всех исследованных текстах встречались числительные от одного до пяти).

В процессе кластеризации использован метод дальнего соседа, который приводит к образованию компактных, чётко очерченных кластеров

,
.

Как известно, выбор метрики и метода кластеризации невозможно строго обосновать; между тем, они способны существенно повлиять на результаты кластеризации. В нашем случае результаты оказались достаточно устойчивыми; другие разумные комбинации метрики и метода кластеризации лишь несущественно влияли на вид дендрограммы (рис. 1).

Исследованные тексты практически идеально распределились по кластерам в соответствии с авторством и жанром.

Использование числительных в текстах Бунина более единообразно, чем у Куприна: все прозаические тексты попадают в родственные кластеры с небольшой высотой слияния. Единственный файл, попавший в другой кластер – это стихи Бунина, которые вполне логично кластеризовались вместе с поэзией Сологуба.

Наблюдается некоторая временнáя эволюция использования числительных: произведения, близкие по времени создания, чаще попадают в один или родственные кластеры.

Отметим исключительную единообразность текстов Арцыбашева с точки зрения использования числительных: кластеры объединяются на небольшой высоте. Частичным объяснением этого, в свете отмеченной выше временнόй эволюции, может служить сравнительная непродолжительность творческого пути Арцыбашева.
Результат применения иерархического кластерного анализа к литературным текстам И.А. Бунина, А.И. Куприна, Ф.К. Сологуба и М.П. Арцыбашева. По вертикальной оси отложено «расстояние» в произвольных единицах

Рисунок 1 - Результат применения иерархического кластерного анализа к литературным текстам И.А. Бунина, А.И. Куприна, Ф.К. Сологуба и М.П. Арцыбашева. По вертикальной оси отложено «расстояние» в произвольных единицах

4. Заключение

Разрабатываемый нами новый подход к задачам стилометрии, основанный на анализе статистики числительных в текстах, при всей его простоте, демонстрирует высокую эффективность и чувствительность. Показано, что манера использования числительных индивидуальна у каждого автора; их совокупность является характерным признаком, различающим тексты разных авторов. Тексты И.А. Бунина и А.И. Куприна, сравнительный анализ которых выполнялся до сих пор лишь в рамках традиционного описательного филологического подхода, впервые подвергнуты формальному количественному анализу, правильно распределившему тексты согласно авторству и жанрам. Использование числительных в текстах Бунина оказалось более единообразным, чем у Куприна. Привлечение для анализа текстов сторонних авторов (impostors) – Ф.К. Сологуба и М.П. Арцыбашева – усиливает значимость полученного результата и подтверждает его неслучайный характер.

Article metrics

Views:1805
Downloads:6
Views
Total:
Views:1805