GERMAN-LANGUAGE MODERNISM OF THE XX CENTURY: STYLOMETRIC TEXT ANALYSIS
GERMAN-LANGUAGE MODERNISM OF THE XX CENTURY: STYLOMETRIC TEXT ANALYSIS
Abstract
The research belongs to quantitative linguistics. The quantitative method of studying the author's style of literary texts, based on analysing the statistics of numerals occurring in them, is applied to German-language texts. Quantitative and ordinal numerals expressed both numerically and verbally are taken into account. The text is preliminarily cleared of numerals not related to the author's artistic intent (pagination, etc.). It is shown that the numerals used by the author in the (fiction) text are individual for each author; their aggregate is a characteristic feature (authorial invariant) distinguishing texts of different authors. The comparative stylometric analysis of literary texts by T. Mann, H. Broch, R. Musil, E. Canetti – representatives of German-language literary modernism – is carried out. Significant differences in the authors' use of numerals are detected. The results of the analysis were subjected to hierarchical clustering, which correctly distributed the texts according to authorship. Thus, the new method of stylometry can successfully attribute literary texts.
1. Введение
Настоящее исследование имеет двоякую направленность: во-первых, подкрепить новыми примерами развиваемый нами подход к задачам стилометрии , , , ; во-вторых, на основе этого подхода выполнить количественный анализ произведений Т. Манна, Г. Броха, Р. Музиля, Э. Канетти – классиков литературы немецкоязычного модернизма XX века.
Стилометрия (и, шире, квантитативная лингвистика) – количественное изучение авторских особенностей текстов, в т.ч. для их атрибуции – до настоящего времени не имеет вполне удовлетворительного универсального рабочего метода , : анализируются частоты встречаемости в текстах знаменательных частей речи и служебных слов (предлоги, союзы), средние длины слов и предложений; в паре анализируемых текстов сравниваются самые часто встречающиеся слова (известная «дельта Барроуза» ) и даже буквосочетания (как ни странно, последний подход может давать неплохие результаты). К сожалению, универсального метода нет, и разные методы часто приводят к противоречивым выводам, поэтому более надёжно совместное использование нескольких методов.
Перспективные результаты получены с помощью нейронных сетей, а вскоре, по-видимому, искусственный интеллект сможет успешно решать задачи квантитативной лингвистики , но содержательная интерпретация результатов при таком подходе практически невозможна, поскольку сам метод является «чёрным ящиком».
Исследование апокрифов (начиная с библейских и шекспировских ), случаев сомнительного авторства (М. Агеев , , B. Traven ) и фиктивного авторства (Émile Ajar ), подложных мемуаров (Misha Defonseca ) – вот примеры задач, в которых стилометрические методы могут оказаться чрезвычайно полезными.
Нами разработан оригинальный стилометрический метод анализа авторских текстов, основанный на учёте использования авторами числительных в их текстах , , , . Среди знаменательных частей речи именно числительные по своей природе наиболее легко поддаются количественному учёту. Применительно к художественному (не жёстко фактографическому) тексту, порожденному свободной фантазией, естественно предположить, что употребление числительных связано с психологическими особенностями автора, незаметно для него самого влияющими на творческий результат. Следовательно, манера использования числительных – это авторская особенность (fingerprint), позволяющая при определённых обстоятельствах решить проблему авторства текста.
Заметим, что, в отличие от всех перечисленных выше методов, именно анализ использования числительных почти не зависит от перевода текста на другой язык (структура языка может оказывать небольшое влияние на статистику числительных: в англоязычном словосочетании tenth anniversary будет обнаружено числительное, тогда как в его немецком эквиваленте zehnjähriges Jubiläum – нет). Это позволяет при недоступности оригинального текста на данном языке воспользоваться его доступным переводом, а также количественно сопоставлять тексты авторов, творивших на нескольких языках (А. Стриндберг, С. Беккет, В. В. Набоков, …).
Изучение произведений нескольких десятков авторов на русском, чешском, английском языках выявило ощутимые авторские особенности употребления числительных в текстах, влияние на них жанра, стиля, художественного направления , , , . Таким образом, результаты анализа допускают содержательное филологическое истолкование.
К настоящему времени нами разработана компьютерная программа, выявляющая числительные в текстах на немецком языке, и в данной работе объектами изучения впервые станут немецкоязычные литературные тексты. Мы проанализируем с точки зрения использования числительных некоторые произведения Т. Манна (Thomas Mann, 1875 – 1955), Г. Броха (Hermann Broch, 1886 – 1951), Р. Музиля (Robert Musil, 1880 – 1942), Э. Канетти (Elias Canetti, 1905 – 1994).
Т. Манн признан одним из наиболее ярких представителей немецкого литературного модернизма (при всей расплывчатости этого понятия) , , , . В Австрии такой характеристики могли бы удостоиться Музиль , , , (менее известный широкой публике и менее плодовитый как писатель, но сопоставимый с Манном по художественным достоинствам его произведений) и Брох , , , (автор прозы, стихов, философских и политических эссе). Их младший современник Канетти, которого относят, скорее, уже к постмодернистам, отличался разносторонностью творчества: от романа, пьес, художественной автобиографии до обширного, компилятивного, претендующего на научность трактата «Масса и власть» , , , .
К существующему литературно-критическому анализу творчества названых авторов вряд ли что-нибудь можно добавить, мы же в настоящей работе применим формальный квантитативный подход к их текстам, что, насколько нам известно, ещё не делалось.
2. Методы и принципы исследования
Наша компьютерная программа отыскивает в немецкоязычном тексте количественные и порядковые числительные, выраженные как цифрами (числа), так и словесно в разных словоформах. Программа автоматически убирает из текста фразеологизмы («sieben auf einen Streich») и устойчивые сочетания («die fünfte Kolonne»), случайно (без авторского замысла) содержащие числительные.
Предварительно из текста вручную удаляются номера страниц, глав, перечисления 1), 2), 3), … и т.п.
Выполнен анализ следующих текстов:
Т. Манн:
· Königliche Hoheit («Королевское высочество»), 1909 – роман;
· Bekenntnisse des Hochstaplers Felix Krull («Признания авантюриста Феликса Круля»), 1922–54 – роман;
· Der Zauberberg («Волшебная гора»), 1924 – роман;
· Lotte in Weimar («Лотта в Веймаре»), 1939 – роман;
· Doktor Faustus («Доктор Фаустус»), 1947 – роман;
· Erzählungen – сборник рассказов , включающий в себя Herr und Hund, Der Knabe Henoch (Fragment), Die vertauschten Köpfe, Die Betrogene, Fiorenza, Gesang vom Kindchen.
Г. Брох:
· Die Schlafwandler («Лунатики»), 1932 – роман;
· Die Entsühnung («Искупление»), 1933 – пьеса;
· Die Verzauberung («Чары»), опубл. 1976 – роман;
· Gedichte (стихи) – полное собрание стихотворений .
Р. Музиль:
· Die Verwirrungen des Zöglings Törless («Душевные смуты воспитанника Тёрлеса»), 1906 – роман;
· Der Mann ohne Eigenschaften («Человек без свойств»), 1932 – роман.
Э. Канетти:
· Masse und Macht («Масса и власть»), 1962 – нехудожественная проза;
· Die gerettete Zunge («Спасённый язык»), 1977 – беллетризованная автобиография.
Некоторые числовые характеристики текстов представлены в табл. 1.
На выбор авторских текстов для анализа повлияла возможность их свободного скачивания в сети Интернет. К сожалению, некоторые важные произведения оказались недоступны, хотя срок защиты авторского права для большинства из них давно истёк.
3. Основные результаты
Для первичной оценки схожести/различий в использовании авторами числительных мы вычислили для каждого текста обратную плотность числительных (результат деления объёма текста на количество содержащихся в нём числительных). Чем меньше обратная плотность, тем чаще в тексте попадаются числительные.
Обращает на себя внимание существенно меньшее значение обратной плотности для текстов Музиля (оказавшееся одинаковым с точностью до десятых долей в обоих проанализированных произведениях!) по сравнению с текстами других авторов: Музиль чаще прибегает к числительным (влияние его инженерного образования?).
Что касается текстов Канетти с их очень различной обратной плотностью числительных, такой результат даёт предварительный ответ на обсуждавшийся в литературоведении вопрос: следует ли отнести «Массу и власть» к беллетристике или к текстам, построенным по образцу научных. Да, это, скорее, текст, претендующий на научность. Ниже мы вернёмся к этому вопросу.
Тексты Манна и Броха мало различаются по обратной плотности числительных. Стихам (Броха), вполне ожидаемо, соответствует наивысшая обратная плотность числительных: в стихах числительные встречаются реже, чем в прозе.
После предварительного анализа встречаемости числительных в целом мы перешли к отдельному учёту каждого числительного в текстах. Различия в авторском употреблении числительных отчётливо проявляются при использовании иерархического кластерного анализа , , объединяющего объекты (здесь: тексты) в кластеры по принципу подобия – в нашем случае схожести абсолютных частот встречаемости числительных 1, 2, 3, … , 5 в текстах (эти числительные присутствуют без исключения во всех проанализированных текстах, последующие числительные встречаются с пропусками). Поскольку тексты существенно различаются по объёму (см. табл. 1), для сопоставимости частот пришлось ввести поправочные коэффициенты. Эталонным текстом для сравнения послужил Der Zauberberg Манна. Поэтому, например, для Königliche Hoheit частоты умножались на 2 075 077 / 751 961 = 2,76, а для Der Mann ohne Eigenschaften Музиля – на 2 075 077 / 4 437 225 = 0,47.
Как известно, мерой сходства в кластерном анализе является метрика ρ («расстояние»): чем меньше «расстояние» между объектами, тем больше сходство между ними. Мы применили манхэттенскую метрику
где x и y – n-мерные векторы, компонентами которых являются исправленные абсолютные частоты первых n натуральных чисел в двух анализируемых текстах (здесь n = 5).
В процессе кластеризации использован метод дальнего соседа (Complete linkage method) , который приводит к образованию компактных изолированных кластеров.
Рисунок 1 - Результат применения иерархического кластерного анализа к текстам Т. Манна, Г. Броха и Р. Музиля
Примечание: при кластеризации использованы метод дальнего соседа, манхэттенская метрика; по горизонтальной оси указано «расстояние» в произвольных единицах
1. Подтверждается обособленность текстов Музиля. Но сейчас выясняется, какое именно числительное обусловливает высокую частоту числительных: это ein («один») в разных словоформах; к сожалению, в немецком языке формально и семантически его невозможно отграничить от неопределённого артикля. Наша программа учитывала все случаи вхождения ein в текст.
2. Тексты Манна и Броха мало различаются в целом по употреблению конкретных числительных.
3. Наш подход к задачам стилометрии основан на допущении, что каждый литератор имеет индивидуальную манеру использования числительных; этому, казалось бы, противоречит чередование микрокластеров Манна и Броха и их слияние в промежуточный кластер на большой высоте (10 – на рис. 1). Но, во-первых, универсального стилометрического метода, безукоризненно распределяющего тексты согласно авторству, не существует; во-вторых, эта высота всё-таки в 2,5 раза меньше высоты образования финального суперкластера (с участием текстов Музиля).
Рисунок 2 - Результат применения иерархического кластерного анализа к текстам Т. Манна, Г. Броха, Р. Музиля и Э. Канетти
Примечание: в отличие от рисунков 1 и 2, при кластеризации использованы метод дальнего соседа, манхэттенская метрика; по горизонтальной оси указано «расстояние» в произвольных единицах
1. Общий вид дендрограммы практически не изменился (программа лишь расположила кластеры низкого уровня в другой последовательности);
2. Два текста Канетти кластеризовались не просто отдельно, а в ветвях дендрограммы, которые сливаются на максимальной высоте – это подтверждает кардинальное различие между текстами: если «Спасённый язык» является произведением, построенным по канонам художественной литературы, то «Масса и власть» – не беллетристика. Обилие (фактографических) числительных приводит этот текст в общий промежуточный кластер с текстами Музиля, хотя и на большой высоте (ниже будет важное добавление, касающееся текстов Канетти);
3. Добавление текстов Канетти буквально разрыхляет дендрограмму: высоты объединения увеличиваются (следует учитывать, что максимальная высота всегда нормирована на 25).
Дополнительную информацию об авторском использовании числительных можно извлечь из рис. 3, на котором представлен фрагмент частотного распределения числительных из диапазона [1; 30] в некоторых произведениях рассматриваемых авторов:
1) Частота встречаемости числительных быстро уменьшается с ростом числительных;
2) Наблюдаются локальные максимумы на круглых числительных 10, 20, 30, … Они объяснимы известной психологической особенностью предпочтения «круглых» чисел.
Рисунок 3 - Фрагмент частотного распределения числительных из диапазона [1; 30] в некоторых произведениях Т. Манна, Г. Броха, Р. Музиля и Э. Канетти
Примечание: по вертикальной оси указана частота числительных после введения поправочных коэффициентов для учёта разного размера текстов; сделан разрыв оси для экономии места
Рисунок 4 - Результат применения иерархического кластерного анализа к текстам Т. Манна, Г. Броха и Р. Музиля
Примечание: при кластеризации использованы метод межгрупповых связей, манхэттенская метрика; по горизонтальной оси указано «расстояние» в произвольных единицах
Таблица 1 - Встречаемость числительных в исследованных текстах
№ | Автор, текст | Объём (байты, кодировка UTF) | Количество числительных | Обратная плотность числительных |
1 | Mann, Königliche Hoheit | 751 961 | 2865 | 262 |
2 | Mann, Bekenntnisse des Hochstaplers Felix Krull | 866 978 | 3271 | 265 |
3 | Mann, Der Zauberberg | 2 075 077 | 7697 | 270 |
4 | Mann, Lotte in Weimar | 842 414 | 3073 | 274 |
5 | Mann, Doktor Faustus | 1 410 387 | 5554 | 254 |
6 | Mann, Erzählungen | 849 390 | 2893 | 294 |
7 | Broch, Die Schlafwandler | 1 622 049 | 6156 | 263 |
8 | Broch, Die Entsühnung | 212 697 | 759 | 280 |
9 | Broch, Die Verzauberung | 771 187 | 2843 | 271 |
10 | Broch, Gedichte | 97520 | 316 | 309 |
11 | Musil, Die Verwirrungen des Zöglings Törless | 337 625 | 1617 | 209 |
12 | Musil, Der Mann ohne Eigenschaften | 4 437 225 | 21 182 | 209 |
13 | Canetti, Masse und Macht | 1 230 512 | 5532 | 222 |
14 | Canetti, Die gerettete Zunge | 760 747 | 2927 | 260 |
4. Заключение
Разрабатываемый нами подход к задачам стилометрии, основанный на анализе статистики числительных в текстах, при всей его простоте, демонстрирует высокую эффективность и чувствительность. Тексты Т. Манна, Г. Броха, Р. Музиля, Э. Канетти, сравнительный анализ которых выполнялся до сих пор лишь в рамках традиционного описательного филологического подхода, впервые подвергнуты формальному стилометрическому анализу, правильно распределившему тексты согласно авторству и выявившему некоторые особенности литературного стиля. Обнаружены существенные авторские различия в манере использования числительных. Привлечение для анализа текстов разных методов кластеризации усиливает значимость полученного результата и подтверждает его неслучайный характер. Метод пригоден для атрибуции текстов.