Corpus-oriented Language Research: a brief summary of achievements and challenges

Research article
DOI:
https://doi.org/10.18454/RULB.2024.49.17
Issue: № 1 (49), 2024
Suggested:
27.11.2023
Accepted:
20.12.2023
Published:
16.01.2024
363
4
XML
PDF

Abstract

This article is a brief summary of the achievements of corpus linguistics in various fields of knowledge: lexicology, grammatical studies of language, discourse analysis, metaphor theory, foreign language teaching methodology. At the present stage, more and more research is conducted using corpus technologies, which provides not only the richest authentic material for linguistic interpretation, but also ensures reliable conclusions.

The most effective strategies for applying corpus technologies are in the study of lexical and grammatical units of language, since they have a standard linguistic expression and are easily annotated in the corpus. Difficulties occur in discourse and pragmatic research, as it is still impossible to mark up units of communication at the current stage of corpus technology. Scholars offer various options to simplify this task by using certain strategies based on formal linguistic expression.

One of the ways to successfully meet the challenges is to develop custom research corpora that fulfil the requirements necessary for the validity of the results.

In the future, it is obvious that more and more scientific works in the field of linguistics with the application of linguistic corpora will appear.

1. Введение

Все больше и больше современных исследователей языка обращаются к данным лингвистических корпусов. Сформировавшись в первой половине девяностых годов двадцатого века как отдельный раздел языкознания в результате развития компьютерных технологий, корпусная лингвистика прочно занимает лидирующие позиции при сборе и анализе эмпирического материала. В настоящее время учеными-лингвистами проводится масштабный лексикографический, грамматический, семантический, дискурсивный анализы текстов на основе статистических данных, предоставляемых языковыми корпусами. В процессе лингвистических исследований методологическая база корпусной лингвистики растет, создаются новые компьютерные инструменты для исследования корпусов наряду с новыми корпусами. Однако существуют серьезные проблемы, ограничивающие использование корпусов в лингвистических исследованиях.

Цель данной статьи – сделать краткий обзор достижений корпусной лингвистики в различных областях языкового исследования: лексики, грамматики, семантики, дискурсивных исследований, методики иноязычного образования, а также отметить проблемы использования современных корпусов.

В процессе работы автор использовал общенаучные методы исследования: анализ, синтез, дедуктивный метод. Так как статья представляет собой обзор результатов современных научных знаний, также применялся описательный лингвистический анализ. Совокупность применения данных методов позволяет получить более достоверные выводы.

2. Основные результаты

На данном этапе функционируют национальные лингвистические корпусы для большинства основных языков мира. Некоторые авторы приводят данные о существующих языковых корпусах. Так, В.П. Захаров приводит информацию о национальных и других корпусах в виде таблицы

. М. Копотев в работе «Введение в корпусную лингвистику» упоминает специализированные каталоги CLARIN (www.clarin.eu) и ELRA (www.elra.info)
, которые содержат информацию о более чем трех тысячах языковых корпусов. Количество типов данных и форматов корпусов постоянно увеличивается.

В первую очередь необходимо отметить создание и успешную работу научных школ и экспериментальных лингвистических лабораторий, проводящих исследования на основе корпусных данных, во многих европейских странах, в том числе и в России. Так, например, в Московском государственном лингвистическом университете функционирует лаборатория корпусной лингвистики под руководством доктора филологических наук Е.Е. Голубковой. Лаборатория занимается исследованием новых явлений и тенденций в языке на основе корпусных данных, разработкой мультимодальных корпусов, разработкой лингвистического программного обеспечения, реализацией проектов с использованием методов корпусной лингвистики.

На сегодняшний день существует несколько определений языкового корпуса

,
,
. В.П. Захаров определяет корпус как «большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач»
. Л. Лемнитцер подчеркивает, что тексты, как составные части корпуса, состоят из данных и метаданных, а также упорядывающих их лингвистических аннотаций
. Дж. Синклер отмечает «неотредактированность» текстов, представление языка в естественном виде, как один из главных принципов построения корпуса, т.е. представление языка так, как он проявляет себя в речи. Кроме этого, важно разнообразие вариантов языка и отсутствие «образцов» и «предписаний»
.

Рассмотрим исследования лингвистов, основанные на данных корпусов, в различных изучаемых областях.

Языковые корпусы предоставляют неисчерпаемые возможности в изучении лексической сочетаемости в контексте. Данной проблемой интересуются многие лингвисты

,
,
. Так, например, Т.Ю. Павельева рассматривает коллокации английского слова time в Британском национальном корпусе и распределяет их по степени устойчивости. Опираясь на определение коллокации, предложенное А.Н. Барановым и Д.О. Добровольским
, автор подчеркивает сочетаемость главного компонента с коллокатом в рамках узуса. В корпусной лингвистике коллокация не идентична фразеологизму и определяется как статистически устойчивое словосочетание, в котором один из компонентов сохраняет лексическое значение, однако, ослабевает или исчезает образное значение и эмоциональная нагрузка при устойчивости словосочетания в целом
. В своей работе автор эффективно применяет конкордансы – строки текста заданной длины, демонстрирующие использование лексической единицы в контексте. Результатом исследования представлена частотность и устойчивость употребления заявленной лексической единицы с отдельными частями речи.

И.А. Анакшина и И.И. Конькова провели апробирование программного продукта «AntConc», который представляет собой программу для исследования пользовательских корпусов, с целью выявления особенностей лексического состава корпусов научно-технического дискурса (сфера робототехника). Используя корпусные инструменты Word List, Concordance, Keyword List, авторы продемонстрировали списки лексических единиц, маркирующих данный тип дискурса и отражающих основную идею анализируемого текста, а также сферы их типичного употребления и окружения. Далее исследователями выявляются наиболее частотные лексические единицы, ранжируются по частям речи, проводится статистический анализ коллокатов

. Авторы приходят к заключению о продуктивности использования данных корпусов при статистических исследованиях данного типа дискурса, очевидно, как и в исследованиях других типов дискурсов.

Значительное количество работ посвящено анализу разного рода концептов с применением корпусных данных. Так, например, Т.А. Попова в своей диссертационной работе «Концептосфера "WEATHER" в английской лингвокультуре (на материале лексикографических источников и корпуса английского языка)» проводит исследование языковых средств репрезентации концептов, составляющих структуру концептосферы «WEATHER»

. А.А. Габриелян на основе корпусных инструментов проводит сопоставительный анализ эмоционального концепта SMILE/LAUGH в британском и американском вариантах английского языка. Несомненно, авторы отмечают репрезентативность корпусного подхода и подчеркивают, что эффективность данного метода не исчерпывается лишь количественными данными, необходима определенная лингвистическая интерпретация результатов корпусных исследований
.

На сегодняшний день существует ряд экспериментальных исследований по грамматическому строю различных языков на основе корпусных данных. В первую очередь стоит отметить сборник статей «Корпусные исследования по русской грамматике» Института языкознания РАН, вышедшего в 2009 году. Авторы подчеркивают, что «грамматика настоящего и будущего – это грамматика корпусная в широком смысле слова, то есть опирающаяся на огромные массивы информации, доступные с помощью поисковых систем, в виде баз данных и корпусов текстов»

. В данном сборнике научных трудов авторы решают различные задачи: проведение статистического анализа грамматических форм и конструкций, анализ эволюционного характера грамматических явлений, описание форм реального употребления, и др. В итоге авторами статей получены достоверные интересные результаты, доказывающие возможность и необходимость изучения языковой реальности, в том числе и пограничных случаев, новых форм, случаев контаминации, жаргонизмов, разговорных форм и форм просторечия.

Представляет интерес работа Е.Е. Голубковой, посвященная сопоставлению схожих лексико-грамматических структур в английском и французском языках, содержащих прецедентное имя популярного современного политического деятеля в качестве эталона. Сочетая методы анализа грамматики конструкций, теории аттенционального сдвига и данных корпуса, автор выявляет особенности создания образа политика в медийных источниках. Согласно исследованию, конструкция le/la/les Y (nom) de Z во французском языке и ее аналог the Y (name) of Z в английском языке, где Y – прецедентное имя известного политического деятеля, характеризует некий новый объект (политического деятеля) путем его сравнения с прецедентными эталонными именами действующих политиков. Автор делает обоснованные выводы

.

Также примечательна монография О.Н. Ляшевской «Корпусные инструменты в грамматических исследованиях русского языка», посвященная описанию лингвистической аннотации текстов Национального корпуса русского языка и исследованию грамматики и лексики русского языка квантитативными корпусными методами

. В первой части автор описывает теоретические положения, связанные с системой аннотации, создание вспомогательных языковых ресурсов, компьютерной разметки, а также сложные случаи лингвистического материала, вызывающие трудности при автоматической и ручной разметке. Во второй части работы описывается «поведение» языковых единиц, распределение разных типов элементов в контексте, применительно к корпусу. Исследователь оперирует понятиями грамматический профиль, конструкционный профиль, лексико-семантический профиль, радиальный профиль и демонстрирует на основе корпуса грамматическую специализацию русских глаголов, вариативность образования видовых пар с разными приставками, вариации значения генитивных конструкций, и т.д. Интересно отметить, что описывая работу лингвиста-специалиста по корпусным методам, О.Н. Ляшевская сравнивает ее с работой судомоделиста, рассчитывающего передвижение парусников на море
. Как важны для моделиста направление и скорость движения парусников, так же и для лингвиста важны разнообразные лингвистические признаки лексемы. Автор подчеркивает, что корпусное исследование всегда является экспериментом, т.к. данные одного и того же корпуса могут иметь разную разметку, используются разные наборы признаков, разные исследователи обращают внимание на разные кластеры. Эксперимент может показать устойчивость корпусных данных применительно к описываемому явлению.

Неоспоримы достижения корпусных методов и в изучении дискурса. На примере работы О.О. Борискиной и К.М. Шилихиной рассмотрим применение корпусов в исследовании политического дискурса. Преследуя различные цели, авторы описывают несколько вариантов применения корпусов. Во-первых, рассматривается базовое для политической коммуникации понятие politics в двадцати вариантах английского языка и сопоставляется частота его употребления в новостном дискурсе. Во-вторых, исследуется метафорическая категоризация термина politics путем анализа метафорической сочетаемости данного существительного. В-третьих, описываются неологизмы

, образованные от имен собственных политических деятелей США с целью изучения тональности политического дискурса. Более того, на основе материалов предвыборных кампаний кандидатов в президенты США, анализируется наиболее часто употребляемая лексика и ключевые слова для выявления способов воздействия на избирателя. В заключении исследователи отмечают многообразие способов применения корпусных данных для лингвистического анализа.

Корпусные инструменты также эффективны при проведении метафорических исследований. Д. Синклер анализирует фиксированные по форме метафорические сочетания. Приняв во внимание, что в английском языке сочетание существительного с предлогом of характеризуется определенной продуктивностью при создании образной речи, исследователь прослеживает закономерности употребления существительного fog с данным предлогом. Отмечается возможность анализа морфологически связанных форм и их взаимосвязь в плане выявления метафорических значений

.

А. Партингтон, отмечая эффективность использования корпусных инструментов для исследования метафоры, упоминает о двух факторах. Первый связан с выявлением повторяющихся метафорических моделей (patterns), они отражают отношение говорящего и предоставляют информацию об использованной лексико-грамматической структуре и дискурсивном контексте. Второй фактор связан с большими объемами доступных аутентичных данных. А. Партингтон подчеркивает, что докорпусное изучение метафоры определялось преимущественно как качественное, поскольку исследования проводились на малых объемах данных. Однако, в большом количестве этих исследований отмечалась склонность к выделению подходящих, «удобных» примеров, что, с точки зрения современной лингвистики, основанной на данных, представляет собой необоснованное вмешательство исследователя в поле данных и привносит излишнюю путаницу в работу. Корпусная лингвистика объединяет качественный и количественный анализ и не только способствует более объективным результатам, но и дает возможность рассмотреть огромные по объему материалы

.

Согласно А. Партингтону, на сегодняшний день существует два основных способа вовлечения корпусных данных в исследование метафоры. Во-первых, на предварительном этапе необходимо выявить доминантные метафоры в дискурсе, для того чтобы проследить как они отражают идеологию участников дискурса. Во-вторых, с помощью инструментов корпуса проверить, подтвердить или опровергнуть различные, иногда противоположные, утверждения о природе метафоры, выдвинутые ранее.

Обратимся к возможностям корпусов при обучении иностранным языкам. Существует большое количество трудов, посвященных методике преподавания иностранных языков на основе корпусных данных. Так, Е.А. Захарова отмечает необходимость использования устных текстов корпусов на иностранном языке в целях обучения грамматике устной речи

. Специализируясь на английском языке, автор статьи обращает внимание на профессиональные и академические потребности студентов продвинутого уровня и предлагает строить обучение на данных различных лингвистических корпусов устной и письменной речи. В связи с этим примечательны ее слова об огромных возможностях корпуса, которые достоверно отражают «реальную речь людей в повседневном общении», и это не дает нам право игнорировать результаты исследований корпусной лингвистики при обучении

О.Г. Горина в своей диссертации «Использование технологий корпусной лингвистики для развития лексических навыков студентов-регионоведов в профессионально-ориентированном общении на английском языке» создает модель обучения, разрабатывает учебные материалы и упражнения для работы студентов на основе корпуса в целях усвоения профессиональной лексики

. В результате автор делает следующие выводы: корпусные технологии оптимизируют процесс отбора лексики для профессиональных целей; корпусный потенциал не исчерпывается количественными методами оценки; обучение с опорой на корпусные данные расширяет приемы работы с лингвистическим материалом; многочисленные «живые» употребления дают возможность формировать навыки правильного употребления лексики, в том числе коллокаций; раскрываются лексико-грамматические связи на основе многочисленных фактов состоявшихся словоупотреблений. Также автор видит перспективы применения корпусных технологий в создании методических указаний для преподавателей с описанием программно-технического инструментария работы в корпусах, а также в составлении параллельных корпусов профессионально-ориентированных текстов.

Таким образом, использование языковых корпусов характеризуется эффективностью и целесообразностью для лингвистических исследований в целом. Отметим еще раз факторы, определяющие надежность и достоверность применения корпусов: эмпирическая направленность, позволяющая анализировать реальные словоупотребления в естественной языковой среде; репрезентативность; применение специальных программ-конкордансов для работы в автоматическом и интерактивном режимах; опора на методы количественного и качественного анализа текста; ориентированность на результаты.

Однако применение корпусов имеет ограничения и вызывает трудности. Так, Ю.В. Богоявленская, изучая проблемы сопоставительной корпусной лингвистики отмечает следующие проблемы

:

1. Ориентация на исследования грамматических и лексических явлений языка, поскольку они имеют стандартное языковое выражение, в отличие от единиц коммуникации;

2. Отсутствие возможностей корпусов на современном этапе для выявления дискурсивных, прагматических явлений языка, не имеющих формальных способов выражения;

3. Ограниченность или отсутствие доступа к некоторым корпусам;

4. В некоторых случаях невозможность получения доступа к контексту употребления и полному произведению;

5. При использовании корпусов в сопоставительных целях – разные структура и объем корпусов, а также типы текстов.

Для решения проблем автор предлагает создание собственного корпуса, отвечающего потребностям и задачам исследования, удовлетворяющего требованиям, необходимым для достоверности результатов.

Немецкий лингвист А. Стефанович также отмечает определенное доминирование в корпусных исследованиях лексики и грамматики, наличие проблем, связанных с исследованиями метафоры из-за отсутствия семантической разметки

. Он предлагает использование следующих стратегий при выявлении метафор:

1. Поиск данных вручную. Очевидно, что данный способ серьезно ограничивает размеры языкового корпуса;

2. Поиск лексических единиц, входящих в состав области-источника (source domain), при исследовании метафор;

3. Поиск лексических единиц, входящих в состав области-мишени (target domain);

4. Поиск предложений, содержащих лексические единицы из области-источника и области-мишени.

Автор отмечает, что стратегии 2, 3, 4 можно объединять, используя исчерпывающие словарные перечни, входящие в состав области-источника и области-мишени. Однако, препятствием могут стать случаи употребления прямого, а не образного значения слова, а также фокусирование только на метафорических моделях (patterns);

5. Поиск метафор по метафорическим маркерам. Э. Гоутли рассматривает разнообразные эксплицитные способы выражения образности, приводя в пример такие выражения как metaphorically, figuratively, speaking, so to speak, in more than one sense, image, likeness, picture, literally, actually, veritable, и др.

. Подчеркивая, что данная стратегия может быть перспективной, А. Стефанович выражает некоторые сомнения, обосновывая их тем, что данные маркеры не всегда сигнализируют наличие метафорических выражений.

3. Заключение

Таким образом, проведя краткий обзор достижений и трудностей корпусной лингвистики, отметим, очевидность, необходимость и перспективность лингвистических исследований с применением корпусных технологий. Возможности лингвиста изучить все многообразие языка существенно расширяются, а результаты исследования, основанные на колоссальных объемах словоупотребления, становятся более достоверными. Нельзя не согласиться со словами А. Партингтона: corpus techniques… are like a magic window through which we can see language differently and often more deeply into its bones (корпусные инструменты как волшебное окно через которое мы видим язык по-другому, и можем взглянуть в его самую суть – перевод наш, Р.А.)

.

Article metrics

Views:363
Downloads:4
Views
Total:
Views:363