немецкоязычный модернизм XX века: стилометрический анализ текстов

Научная статья
DOI:
https://doi.org/10.60797/RULB.2024.60.9
Выпуск: № 12 (60), 2024
Предложена:
03.10.2024
Принята:
12.11.2024
Опубликована:
09.12.2024
55
3
XML
PDF

Аннотация

Исследование относится к квантитативной лингвистике. Количественный метод изучения авторского стиля литературных текстов, основанный на анализе статистики встречающихся в них числительных, применен к немецкоязычным текстам. Учитываются количественные и порядковые числительные, выраженные как цифрами, так и словесно. Предварительно текст очищается от числительных, не связанных с авторским художественным замыслом (пагинация и т.п.). Показано, что числительные, используемые автором в (художественном) тексте, для каждого автора индивидуальны; их совокупность является характерным признаком (авторским инвариантом), различающим тексты разных авторов. Выполнен сопоставительный стилометрический анализ литературных текстов Т. Манна, Г. Броха, Р. Музиля, Э. Канетти – представителей немецкоязычного литературного модернизма. Обнаружены существенные различия в использовании авторами числительных. Результаты анализа подвергнуты иерархической кластеризации, правильно распределившей тексты в соответствии с авторством. Таким образом, новый метод стилометрии способен успешно атрибуировать литературные тексты.

1. Введение

Настоящее исследование имеет двоякую направленность: во-первых, подкрепить новыми примерами развиваемый нами подход к задачам стилометрии

,
,
,
; во-вторых, на основе этого подхода выполнить количественный анализ произведений Т. Манна, Г. Броха, Р. Музиля, Э. Канетти – классиков литературы немецкоязычного модернизма XX века.

Стилометрия (и, шире, квантитативная лингвистика) – количественное изучение авторских особенностей текстов, в т.ч. для их атрибуции – до настоящего времени не имеет вполне удовлетворительного универсального рабочего метода

,
: анализируются частоты встречаемости в текстах знаменательных частей речи и служебных слов (предлоги, союзы), средние длины слов и предложений; в паре анализируемых текстов сравниваются самые часто встречающиеся слова (известная «дельта Барроуза»
) и даже буквосочетания (как ни странно, последний подход может давать неплохие результаты). К сожалению, универсального метода нет, и разные методы часто приводят к противоречивым выводам, поэтому более надёжно совместное использование нескольких методов.

Перспективные результаты получены с помощью нейронных сетей, а вскоре, по-видимому, искусственный интеллект сможет успешно решать задачи квантитативной лингвистики

, но содержательная интерпретация результатов при таком подходе практически невозможна, поскольку сам метод является «чёрным ящиком».

Исследование апокрифов (начиная с библейских

и шекспировских
), случаев сомнительного авторства (М. Агеев
,
, B. Traven
) и фиктивного авторства (Émile Ajar
), подложных мемуаров (Misha Defonseca
) – вот примеры задач, в которых стилометрические методы могут оказаться чрезвычайно полезными.

Нами разработан оригинальный стилометрический метод анализа авторских текстов, основанный на учёте использования авторами числительных в их текстах

,
,
,
. Среди знаменательных частей речи именно числительные по своей природе наиболее легко поддаются количественному учёту. Применительно к художественному (не жёстко фактографическому) тексту, порожденному свободной фантазией, естественно предположить, что употребление числительных связано с психологическими особенностями автора, незаметно для него самого влияющими на творческий результат. Следовательно, манера использования числительных – это авторская особенность (fingerprint), позволяющая при определённых обстоятельствах решить проблему авторства текста.

Заметим, что, в отличие от всех перечисленных выше методов, именно анализ использования числительных почти не зависит от перевода текста на другой язык (структура языка может оказывать небольшое влияние на статистику числительных: в англоязычном словосочетании tenth anniversary будет обнаружено числительное, тогда как в его немецком эквиваленте zehnjähriges Jubiläum – нет). Это позволяет при недоступности оригинального текста на данном языке воспользоваться его доступным переводом, а также количественно сопоставлять тексты авторов, творивших на нескольких языках (А. Стриндберг, С. Беккет, В. В. Набоков, …).

Изучение произведений нескольких десятков авторов на русском, чешском, английском языках выявило ощутимые авторские особенности употребления числительных в текстах, влияние на них жанра, стиля, художественного направления

,
,
,
. Таким образом, результаты анализа допускают содержательное филологическое истолкование.

К настоящему времени нами разработана компьютерная программа, выявляющая числительные в текстах на немецком языке, и в данной работе объектами изучения впервые станут немецкоязычные литературные тексты. Мы проанализируем с точки зрения использования числительных некоторые произведения Т. Манна (Thomas Mann, 1875 – 1955), Г. Броха (Hermann Broch, 1886 – 1951), Р. Музиля (Robert Musil, 1880 – 1942), Э. Канетти (Elias Canetti, 1905 – 1994).

Т. Манн признан одним из наиболее ярких представителей немецкого литературного модернизма (при всей расплывчатости этого понятия)

,
,
,
. В Австрии такой характеристики могли бы удостоиться Музиль
,
,
,
(менее известный широкой публике и менее плодовитый как писатель, но сопоставимый с Манном по художественным достоинствам его произведений) и Брох
,
,
,
(автор прозы, стихов, философских и политических эссе). Их младший современник Канетти, которого относят, скорее, уже к постмодернистам, отличался разносторонностью творчества: от романа, пьес, художественной автобиографии до обширного, компилятивного, претендующего на научность трактата «Масса и власть»
,
,
,
.

К существующему литературно-критическому анализу творчества названых авторов вряд ли что-нибудь можно добавить, мы же в настоящей работе применим формальный квантитативный подход к их текстам, что, насколько нам известно, ещё не делалось.

2. Методы и принципы исследования

Наша компьютерная программа отыскивает в немецкоязычном тексте количественные и порядковые числительные, выраженные как цифрами (числа), так и словесно в разных словоформах. Программа автоматически убирает из текста фразеологизмы («sieben auf einen Streich») и устойчивые сочетания («die fünfte Kolonne»), случайно (без авторского замысла) содержащие числительные.

Предварительно из текста вручную удаляются номера страниц, глав, перечисления 1), 2), 3), … и т.п.

Выполнен анализ следующих текстов:

Т. Манн:

· Königliche Hoheit («Королевское высочество»), 1909 – роман;

· Bekenntnisse des Hochstaplers Felix Krull («Признания авантюриста Феликса Круля»), 1922–54 – роман;

· Der Zauberberg («Волшебная гора»), 1924 – роман;

· Lotte in Weimar («Лотта в Веймаре»), 1939 – роман;

· Doktor Faustus («Доктор Фаустус»), 1947 – роман;

· Erzählungen сборник рассказов

, включающий в себя Herr und Hund, Der Knabe Henoch (Fragment), Die vertauschten Köpfe, Die Betrogene, Fiorenza, Gesang vom Kindchen.

Г. Брох:

· Die Schlafwandler («Лунатики»), 1932 – роман;

· Die Entsühnung («Искупление»), 1933 – пьеса;

· Die Verzauberung («Чары»), опубл. 1976 – роман;

· Gedichte (стихи) – полное собрание стихотворений

.

Р. Музиль:

· Die Verwirrungen des Zöglings Törless («Душевные смуты воспитанника Тёрлеса»), 1906 – роман;

· Der Mann ohne Eigenschaften («Человек без свойств»), 1932 – роман.

Э. Канетти:

· Masse und Macht («Масса и власть»), 1962 – нехудожественная проза;

· Die gerettete Zunge («Спасённый язык»), 1977 – беллетризованная автобиография.

Некоторые числовые характеристики текстов представлены в табл. 1.

На выбор авторских текстов для анализа повлияла возможность их свободного скачивания в сети Интернет. К сожалению, некоторые важные произведения оказались недоступны, хотя срок защиты авторского права для большинства из них давно истёк.

3. Основные результаты

Для первичной оценки схожести/различий в использовании авторами числительных мы вычислили для каждого текста обратную плотность числительных (результат деления объёма текста на количество содержащихся в нём числительных). Чем меньше обратная плотность, тем чаще в тексте попадаются числительные.

Обращает на себя внимание существенно меньшее значение обратной плотности для текстов Музиля (оказавшееся одинаковым с точностью до десятых долей в обоих проанализированных произведениях!) по сравнению с текстами других авторов: Музиль чаще прибегает к числительным (влияние его инженерного образования?).

Что касается текстов Канетти с их очень различной обратной плотностью числительных, такой результат даёт предварительный ответ на обсуждавшийся в литературоведении вопрос: следует ли отнести «Массу и власть» к беллетристике или к текстам, построенным по образцу научных. Да, это, скорее, текст, претендующий на научность. Ниже мы вернёмся к этому вопросу.

Тексты Манна и Броха мало различаются по обратной плотности числительных. Стихам (Броха), вполне ожидаемо, соответствует наивысшая обратная плотность числительных: в стихах числительные встречаются реже, чем в прозе.

После предварительного анализа встречаемости числительных в целом мы перешли к отдельному учёту каждого числительного в текстах. Различия в авторском употреблении числительных отчётливо проявляются при использовании иерархического кластерного анализа

,
, объединяющего объекты (здесь: тексты) в кластеры по принципу подобия – в нашем случае схожести абсолютных частот встречаемости числительных 1, 2, 3, … , 5 в текстах (эти числительные присутствуют без исключения во всех проанализированных текстах, последующие числительные встречаются с пропусками). Поскольку тексты существенно различаются по объёму (см. табл. 1), для сопоставимости частот пришлось ввести поправочные коэффициенты. Эталонным текстом для сравнения послужил Der Zauberberg Манна. Поэтому, например, для Königliche Hoheit частоты умножались на 2 075 077 / 751 961 = 2,76, а для Der Mann ohne Eigenschaften Музиля – на 2 075 077 / 4 437 225 = 0,47.

Как известно, мерой сходства в кластерном анализе является метрика ρ («расстояние»): чем меньше «расстояние» между объектами, тем больше сходство между ними. Мы применили манхэттенскую метрику

img
(1)

где x и yn-мерные векторы, компонентами которых являются исправленные абсолютные частоты первых n натуральных чисел в двух анализируемых текстах (здесь n = 5).

В процессе кластеризации использован метод дальнего соседа (Complete linkage method)

, который приводит к образованию компактных изолированных кластеров.

На первом шаге мы кластеризовали только художественные тексты (Манн, Брох, Музиль). Они разумно распределились по кластерам в соответствии с авторством (рис. 1).
Результат применения иерархического кластерного анализа к текстам Т. Манна, Г. Броха и Р. Музиля

Рисунок 1 - Результат применения иерархического кластерного анализа к текстам Т. Манна, Г. Броха и Р. Музиля

Примечание: при кластеризации использованы метод дальнего соседа, манхэттенская метрика; по горизонтальной оси указано «расстояние» в произвольных единицах

Выводы:

1. Подтверждается обособленность текстов Музиля. Но сейчас выясняется, какое именно числительное обусловливает высокую частоту числительных: это ein («один») в разных словоформах; к сожалению, в немецком языке формально и семантически его невозможно отграничить от неопределённого артикля. Наша программа учитывала все случаи вхождения ein в текст.

2. Тексты Манна и Броха мало различаются в целом по употреблению конкретных числительных.

3. Наш подход к задачам стилометрии основан на допущении, что каждый литератор имеет индивидуальную манеру использования числительных; этому, казалось бы, противоречит чередование микрокластеров Манна и Броха и их слияние в промежуточный кластер на большой высоте (10 – на рис. 1). Но, во-первых, универсального стилометрического метода, безукоризненно распределяющего тексты согласно авторству, не существует; во-вторых, эта высота всё-таки в 2,5 раза меньше высоты образования финального суперкластера (с участием текстов Музиля).

Насколько устойчива структура дендрограммы относительно добавления новых текстов других авторов? Введём в рассмотрение тексты четвёртого автора – Э. Канетти и заново проведём кластеризацию (рис. 2).
Результат применения иерархического кластерного анализа к текстам Т. Манна, Г. Броха, Р. Музиля и Э. Канетти

Рисунок 2 - Результат применения иерархического кластерного анализа к текстам Т. Манна, Г. Броха, Р. Музиля и Э. Канетти

Примечание: в отличие от рисунков 1 и 2, при кластеризации использованы метод дальнего соседа, манхэттенская метрика; по горизонтальной оси указано «расстояние» в произвольных единицах

Несколько выводов, следующих из рис. 2:

1. Общий вид дендрограммы практически не изменился (программа лишь расположила кластеры низкого уровня в другой последовательности);

2. Два текста Канетти кластеризовались не просто отдельно, а в ветвях дендрограммы, которые сливаются на максимальной высоте – это подтверждает кардинальное различие между текстами: если «Спасённый язык» является произведением, построенным по канонам художественной литературы, то «Масса и власть» – не беллетристика. Обилие (фактографических) числительных приводит этот текст в общий промежуточный кластер с текстами Музиля, хотя и на большой высоте (ниже будет важное добавление, касающееся текстов Канетти);

3. Добавление текстов Канетти буквально разрыхляет дендрограмму: высоты объединения увеличиваются (следует учитывать, что максимальная высота всегда нормирована на 25).

Дополнительную информацию об авторском использовании числительных можно извлечь из рис. 3, на котором представлен фрагмент частотного распределения числительных из диапазона [1; 30] в некоторых произведениях рассматриваемых авторов:

1) Частота встречаемости числительных быстро уменьшается с ростом числительных;

2) Наблюдаются локальные максимумы на круглых числительных 10, 20, 30, … Они объяснимы известной психологической особенностью предпочтения «круглых» чисел.

Становится заметным различие между текстами Манна и Броха: первый применяет числительные разнообразнее и чаще (за исключением числительного ein(один), которое, впрочем, может быть и артиклем, как отмечено выше).
Фрагмент частотного распределения числительных из диапазона [1; 30] в некоторых произведениях Т. Манна, Г. Броха, Р. Музиля и Э. Канетти

Рисунок 3 - Фрагмент частотного распределения числительных из диапазона [1; 30] в некоторых произведениях Т. Манна, Г. Броха, Р. Музиля и Э. Канетти

Примечание: по вертикальной оси указана частота числительных после введения поправочных коэффициентов для учёта разного размера текстов; сделан разрыв оси для экономии места

По нашему мнению, важнейшим показателем стремления автора к субъективной «точности» повествования является наличие в тексте упоминаний конкретного года, в который случилось то или иное событие. По этому показателю среди всех проанализированных текстов лидерами являются произведения Канетти. Будучи мало похожими по использованию числительных в целом, они очень близки по обилию встречающихся в них дат.
Как известно, выбор метрики и метода кластеризации невозможно строго обосновать; между тем, они способны существенно повлиять на результаты кластеризации. Мы провели кластеризацию текстов тех же авторов, что и на рис. 1, но используя не метод дальнего соседа, как в предыдущей попытке, а метод межгрупповых связей (Groupaveragemethod, Between-groupslinkage)
; по-прежнему с манхэттенской метрикой (рис. 4). В нашем случае результаты оказались достаточно устойчивыми; все выводы сохраняют свою силу. Другие разумные комбинации метрики и метода кластеризации также лишь незначительно меняют дендрограмму.
Результат применения иерархического кластерного анализа к текстам Т. Манна, Г. Броха и Р. Музиля

Рисунок 4 - Результат применения иерархического кластерного анализа к текстам Т. Манна, Г. Броха и Р. Музиля

Примечание: при кластеризации использованы метод межгрупповых связей, манхэттенская метрика; по горизонтальной оси указано «расстояние» в произвольных единицах

Таблица 1 - Встречаемость числительных в исследованных текстах

Автор, текст

Объём (байты, кодировка UTF)

Количество числительных

Обратная плотность числительных

1

Mann, Königliche Hoheit

751 961

2865

262

2

Mann, Bekenntnisse des Hochstaplers Felix Krull

866 978

3271

265

3

Mann, Der Zauberberg

2 075 077

7697

270

4

Mann, Lotte in Weimar

842 414

3073

274

5

Mann, Doktor Faustus

1 410 387

5554

254

6

Mann, Erzählungen

849 390

2893

294

7

Broch, Die Schlafwandler

1 622 049

6156

263

8

Broch, Die Entsühnung

212 697

759

280

9

Broch, Die Verzauberung

771 187

2843

271

10

Broch, Gedichte

97520

316

309

11

Musil, Die Verwirrungen des Zöglings Törless

337 625

1617

209

12

Musil, Der Mann ohne Eigenschaften

4 437 225

21 182

209

13

Canetti, Masse und Macht

1 230 512

5532

222

14

Canetti, Die gerettete Zunge

760 747

2927

260

4. Заключение

Разрабатываемый нами подход к задачам стилометрии, основанный на анализе статистики числительных в текстах, при всей его простоте, демонстрирует высокую эффективность и чувствительность. Тексты Т. Манна, Г. Броха, Р. Музиля, Э. Канетти, сравнительный анализ которых выполнялся до сих пор лишь в рамках традиционного описательного филологического подхода, впервые подвергнуты формальному стилометрическому анализу, правильно распределившему тексты согласно авторству и выявившему некоторые особенности литературного стиля. Обнаружены существенные авторские различия в манере использования числительных. Привлечение для анализа текстов разных методов кластеризации усиливает значимость полученного результата и подтверждает его неслучайный характер. Метод пригоден для атрибуции текстов.

Метрика статьи

Просмотров:55
Скачиваний:3
Просмотры
Всего:
Просмотров:55