CORPUS RESOURCES OF THE BURYAT LANGUAGE: STATE, PROBLEMS, PROSPECTS

Research article
DOI:
https://doi.org/10.60797/RULB.2024.55.11
Issue: № 7 (55), 2024
Suggested:
25.05.2024
Accepted:
02.07.2024
Published:
09.07.2024
26
0
XML
PDF

Abstract

This work is dedicated to the prehistory, history of organization and compilation of corpus resources in the Buryat language. The paper characterizes the development of corpus resources in Buryat linguistics, such as concordances, frequency dictionaries, and cartographies compiled in the pre-computer era. The author describes the state of the main "Buryat Corpus", the Parallel Buryat-Russian Corpus and the Diachronic Corpus of the Buryat language, characterizes their structure and the main problems in their development. The author draws conclusions about the high demand for the corpuses under development and the importance of expanding different types of markups in them for productive linguistic and applied research. The prospects of the corpuses under consideration and the main tasks of their further development are presented.

1. Введение

В настоящее время корпусная лингвистика без сомнения является одним из актуальных направлений современного языкознания. Она прочно заняла, благодаря своим теоретическим и различного рода прикладным, инжиниринговым результатам, лидирующие позиции, как неуклонно развивающийся раздел филологической науки в целом на междисциплинарных стыках. Вышесказанное можно подтвердить и вниманием, оказывающимся со стороны государственных структур, как например:

1. в начале апреля 2024 г. на заседании Президиума Российской академии наук обсуждались задачи корпусных исследований языков и заслушивались ряд докладов по Национальному корпусу русского языка, а также по другим языкам народов России

; 2. в середине мая 2024 г. Домом народов России при поддержке Федерального агентства по делам национальностей России проведена I-я стратегическая сессия «Информационные технологии и языки народов России»
, на которой рассматривались вопросы государственной национальной политики в сфере поддержки языков народов России в киберпространстве.

2. Методы и принципы исследования

Идеи, методы, методика корпусной лингвистики начали проникать в бурятское языкознание и развиваться, использоваться в нем примерно в то же время, как это происходило и в развитии других частных лингвистических направлений по малым и средним языкам народов России. В бурятском языкознании инструментарии корпусной лингвистики, используемые сегодня, как само собой разумеющееся, например, такие, как конкордансы, частотные словари (ЧС) привлекли внимание уже в 80-е годы прошлого века

. В 1992 г. до появления современных компьютеров был составлен и опубликован Г.А. Дырхеевой первый частотный словарь бурятского языка на материале текстов произведений Х. Намсараева
, составленный на ЭВМ того периода. Исходя из сказанного, можно видеть, что бурятоязычные тексты для лингвистических целей впервые были подвергнуты машинной обработке в конце 80-х и в 90-е годы ХХ в. Тем не менее ввиду того, что работы выполнялись в докомпьютерную эпоху, большие их объемы обрабатывались вручную с огромными трудовыми и временными затратами, доходящими до нескольких лет. Автор ЧС бурятского языка в 1992 г. уже тогда справедливо указывает, что практическое его использование исключительно важно для автоматической обработки текстов (АОТ) и их информации (подчеркнуто нами – Л. Бадмаева)
. В тот период в отделе языкознания был задел в виде картотеки бурятского языка, занимающий не меньше десятка крупных каталожных шкафов, стоящих в кабинете вдоль двух противоположных стен длиной по 6 м. Объем данной картотеки составлял (она сохранена в фонде ЦВРК ИМБТ СО РАН) чуть более 1 миллиона карточек со словарными статьями бурятского языка, в которых записаны словоупотребления из художественной литературы с контекстами. Это – традиционная словарная картотека докорпусной эпохи. Сама картотека составлялась на протяжении десятков лет разными поколениями языковедов отдела и по прошествии времени ее использование стало гигиенически трудным в силу накопившейся многолетней пыли, а к настоящему периоду элементарно устарело.

С появлением и активным проникновением технологий корпусной лингвистики, как известно, являющейся частью компьютерной, в российскую лингвистическую среду и вслед за появлением в открытом доступе Национального корпуса русского языка (НКРЯ) c 2002 г. языковеды по другим языкам народов России стали также постепенно друг за другом ставить и решать задачи разработок своих языковых корпусов, явившихся информационными системами соответственно абсолютно нового поколения.   

В разработке «Бурятского корпуса», можно сказать, результаты вероятностно-статистических методов и подходов и сами данные методы с приходом корпусных технологий приобрели свое закономерное и эффективное воплощение.

3. Основные результаты

Следует сказать, что разработка «Бурятского корпуса» претерпела несколько версий, которые были представлены в онлайн. С 2011 г. была открыта первая опытная версия с названием «Корпус бурятского языка» объемом около 800 тыс. словоупотреблений по адресу ЦВРК ИМБТ СО РАН

, на котором были размещены конкордансы к бурятским художественным текстам с указанием их авторства и названий (разработчик сайта и программы конкорданса – О.С. Ринчинов). Данная версия была стабильно доступна для пользователей / исследователей первые три года, в настоящее время –  эпизодически.

Опыт работ по составлению названной выше версии корпуса вместе с языковыми и программными материалами послужил нашему участию на конкурсной основе в Программе Президиума РАН запущенной в 2011 г. по фундаментальным научным исследованиям под названием «Корпусная лингвистика».

Далее, при поддержке данной Программы в 2012 г. был впервые открыт полноправный корпусный сайт по бурятскому языку

наряду с другими, по сути, первыми корпусами по нескольким языкам народов России. Корпусный менеджер, называющийся также и платформой, на котором представлены корпусы по Программе РАН заимствован по согласованию от разработчиков компании Corpus Technologies и Восточно-армянского национального корпуса (ВАНК). Данная платформа, представляет собой значительно усложненную по сравнению с конкордансером программу, как управления, так и использования того или иного языкового корпуса с возможностью его совершенствования и развития. К настоящему времени подобных платформ имеется уже множество. На корпусной платформе «Бурятского корпуса» имеются свой интерфейс, инструментарии, как, поисковая строка с выбором по словоформе, по лемме и некоторым грамматическим характеристикам, при этом, с возможностью выборки конкретных текстовых материалов, с настройками представления результатов поиска, выбора определенных текстовых документов, включенных в корпус. Также есть виртуальная клавиатура с тремя парами сугубо бурятских символов / букв.

В дальнейшем, данная версия нашего корпуса претерпела обновление и пополнение в 2016 и в 2021 гг., оба раза - при финансовой поддержке по Контрактам Минобразования и науки Республики Бурятия. В «Бурятском корпусе» интегрированы соответственно базы данных текстов, грамматического словаря, а также, основная часть бурятско-русского словаря. По текстовой базе данных есть возможность осуществлять поиск лексем, как по всем входящим текстовым документам, так и при необходимости – отдельным текстам. Грамматический словарь (далее – ГС) первоначально составлялся нами вручную в Exсel на базе сформированного электронного словника бурятско-русского словаря

,
затем на базе частотного словаря первоначальной версии «Бурятского корпуса» (составитель частотного словаря – О.С. Ринчинов). В грамматическом словаре вручную выполняется морфологическое описание со словоизменительными парадигмами. Данное описание используется в системе автоматического морфологического анализатора UniParser (разработчик – Т.А. Архангельский) для разметки / аннотации словоформ корпуса. В результате в корпусе на выданных при поиске языковых данных при необходимости посредством наведения курсора на конкретное слово всплывает мини-окошко с грамматическими характеристиками. Данные бурятско-русского словаря активируются при наборе русского слова в поисковой строке (затем, кликается кнопка «перевод» и нажимается – «искать». При наличии данного русского слова в бурятско-русском словаре корпуса, будет выдан результат с бурятской лексической параллелью в контексте своего использования. Кроме морфологической разметки в «Бурятском корпусе» есть метаразметка с указанием внешних данных текстовых документов – название, авторство, год издания, что можно видеть при каждом языковом примере употребления. При разметке внешних данных текстов использовалась также СУБД StarLing при поддержке С.А. Крылова (ИВ РАН).

В результате обновления и пополнения бурятского корпуса, выполненных к декабрю 2021 г., была открыта версия на другой корпусной платформе, усовершенствованной по отношению к предыдущей под названием Цакорпус

(можно отметить, что предыдущая, вышеописанная версия нашего корпуса осталась доступной по прежнему адресу). Объем корпуса увеличился на 400 тыс. словоупотреблений, в результате, общий их объем стал 2,8 млн словоупотреблений. «Бурятский корпус» получил новый интерфейс, при этом на трех языках: русском, бурятском и английском. Помимо того, что (подчеркнуто нами – Л.Б.) есть в предыдущей, то есть старой версии, на новой платформе Цакорпус в поиске появилась возможность найти несколько слов внутри одного предложения. Здесь можем подтвердить справедливые слова автора платформы Цакорпус о полезности вышеописанной возможности при изучении сочетаемости слов и грамматических конструкций
. Количество контекстов на странице выдачи выросло до 100, на прежней платформе – 50. Доля морфологического разбора составляла 76%, а к данному времени автоматическим разбором доведена до 80%. Оставшиеся проценты морфологически неразобранных слов размечаются нами теперь в онлайн в специальной программе для пополнения грамматического словаря (автор – Т.А. Архангельский). Кроме грамматических признаков к словам, приписываются в данной программе и значения, пополняя таким образом встроенный в разрабатываемом корпусе бурятско-русский словарь. В программе для пополнения грамматического словаря предусмотрена проверка введенных данных, после которой, они закрепляются в нем и происходит обновление с пополнением морфологического разбора и двуязычного словаря в масштабах корпуса. Морфологическая разметка является основой для других видов разметки – словообразовательной, синтаксической, семантической и т.д.  

Еще одним современным программным инструментарием для изучения бурятского языка является «Параллельный бурятско-русский корпус»

объемом в 400 тыс. словоупотреблений с метатекстовой разметкой. В параллельном корпусе бурятского языка представлены выровненные тексты оригинальных бурятских произведений с литературными переводами на русский язык, а также есть обратное направление перевода – оригинальный русский текст (Пушкин А.С. Капитанская дочка) с переводом на бурятский. Развитие данного вида корпуса повысит его востребованность, например, в плане исследования проблем переводоведения, а также в деле составления билингвальных словарей различного типа. Одновременно – параллельный корпус имеет важное значение для решения прикладных задач, например, при создании бурятско-русского переводчика.   

Следующий корпусный ресурс, называющийся «Диахронический корпус бурятского языка» (далее – ДКБЯ)

, находится в стадии разработки. На данное время для ДКБЯ выполнена разметка письменно-монгольских словоформ объемом около 10 тыс. единиц, таблично сгруппированы аффиксы их словоизменения и составлен частотный словарь лексем на материале пяти бурятских летописей ХIХ в. (автор частотного словаря – О.С. Ринчинов), соответственно на вертикальной монгольской графике. Здесь следует отметить, что для ДКБЯ используется опубликованный письменно-монгольский текст в транслитерированном виде на латинице.    

Описанные выше корпусы, как параллельный, диахронический можно считать по терминологии Е.В. Рахилиной

специальными подкорпусами, в нашем случае, «Бурятского корпуса», хотя все данные ресурсы находятся на разных платформах, сайтах и серверах. Они напрямую между собой никак не связаны, между ними нет единой интеграции, как например, так называемые национальные корпуса, НКРЯ, British National Corpus, Национальный корпус калмыцкого языка и др. Такая ситуация сложилась ввиду того, что разработки по перечисленным корпусам бурятского корпуса выполнялись в разные годы отдельными независимыми друг от друга проектами с поддержкой также разных фондов.  Характеризуя состояние бурятских корпусных ресурсов в целом, думается, что можно обозначить его как период становления. В силу эпизодичности финансовой поддержки в виде грантов / контрактов при их завершении, их заявленные цели и задачи соответственно выполняются, и разработка корпуса ставится на паузу. Такого рода повторяющиеся паузы приводят к отставанию / замедлению развития самого корпуса, в то время как технологии, инструментарии продолжают свое усовершенствование. Поэтому представляется крайне важной стабильная поддержка корпусного направления в бурятском языкознании в форме включения в проекты, реализующиеся в рамках государственных заданий. При стабильной финансовой поддержке будет соответственно расширяться и коллектив разработчиков, в особенности из среды молодых исследователей.

«Бурятский корпус» является письменным одноязычным и основным ресурсом из ряда вышеописанных. Наряду с его развитием, разрабатывается и корпус звукового формата, представляющий возможность получать информацию о звучании, просодии диалектов бурятского языка, отличающегося их разнообразием. Данный звуковой корпус будет являться специальным (см. выше). В отделе языкознания ИМБТ СО РАН плодотворно ведется работа над названным видом корпуса бурятского языка

,
. Разработка звукового корпуса бурятских диалектов значительно обогатит представленность в киберпространстве языка бурят вместе с их речью, расширив технологические возможности для пользователей, как для её углубленного изучения или обучения, так и для ознакомления интересующимися, культурой одного из монголоязычных народов.

Методы и приемы лингвистического анализа корпусной и традиционной лингвистики, дополняя друг друга, определенным образом также совпадая, позволят получать совершенно новые результаты, выявить в бурятском языке вербальные явления, которые при традиционном анализе получить было невозможно. Методология корпусной лингвистики включает в себя автоматическую обработку текста, иначе - АОТ, как комплекс взаимосвязанных методов, приемов, процедур, начиная с предварительных автоматизированных поисков и извлечений искомых языковых данных из самих корпусов, как правило, с большими массивами текстовых, эмпирических данных, для их дальнейшего анализа. Использованием корпусных данных активизируются по-новому количественный / статистический, контекстного анализа, с применением, например, конкордансов, методы, предоставляя возможность для более глубокого описания, исследуемого языкового аспекта. В «Бурятском корпусе» имеется множество приемов отбора языковых данных, описание которых доступно в его настройках. Например, поиск лексических единиц можно осуществлять по словоформе, по лемме, а также – либо по всему ресурсу, либо - по текстовым источникам конкретного автора.    

Каждый корпус имеет большие перспективы для своего дальнейшего, поступательного развития. Параллельный корпус бурятского языка может дополнятся другими языковыми переводами, как с бурятского, так и, например, с монгольского, английского и других языков. Кроме этого, надо отметить, параллельный корпус должен дополняться не только художественными переводами, но и направлением филологических / подстрочных переводов. Их можно назвать симметричными переводами. Все корпусные ресурсы востребованы не только в исследовательской деятельности, равным образом они могут использоваться в системе образования, в преподавании, обучении и изучении соответствующего языка. Не является исключением в связи с вышесказанным и параллельный корпус бурятского языка. Помимо сказанного, текстовые базы данных в настоящее время крайне востребованы для проекта разработки автоматического бурятско-русского переводчика, о первичной онлайн версии которого, сообщается 27.06.2024

. Для указанного проекта требуется первоначально параллельный корпус объемом не менее 50-100 тысяч выровненных предложений (бурятско-русских, русско-бурятских). Относительно вышесказанного филологического / построчного переводов надо пояснить их разницу в сравнении с художественными переводами, в которых наблюдается асимметрия, то есть не соблюдаются границы оригинального предложения, как пропуск литературным переводчиком части или целого предложения, нескольких предложений, даже крупных отрывком, добавление от переводчика личного текста, перестановки последовательности авторского текста в переводе. Параллельные художественные тексты с подобными расхождениями представляют определенную сложность для их использования при разработках автоматического переводчика.

4. Обсуждение

Разработка «Бурятского корпуса» выполняется с 2006 г. в формате долгосрочного инициативного научного проекта при поддержке различных научных фондов и госструктуры. Финансовая поддержка была оказана Минобразования и науки Республики Бурятия, РГНФ, РФФИ, ФФЛИ, Программой фундаментальных исследований Президиума РАН «Корпусная лингвистика». Выполнение работ по дальнейшему развитию бурятского корпуса предполагается быть включенным в плановый проект отдела языкознания ИМБТ СО РАН соответственно с финансированием по Госзаданию с 2026 г.

Одной из главных составляющих любого языкового корпуса являются тексты, специальным образом подготовленные. Наряду с тем, что исполнителями проводились работы по сканированию, редактированию, заключались договоры с официальными бурятскими издательствами по получению электронных версий текстов, также приобретались из открытого доступа, например, из СМИ и электронных библиотек. В конце ХХ в. – начале ХХI в.  книгопечатание и литературный процесс на бурятском языке переживали сложные времена, поэтому был сделан упор на художественную бурятскую литературу середины и II-й половины ХХ в. Тексты середины ХХ в. отражают соответственно в языковом аспекте свой вариант, в содержательном плане в основном, действительность того времени. Бурятский язык в произведениях, например, Х. Намсараева отличается от языка произведений современных авторов. Проблема репрезентативности текстовой составляющей бурятского корпуса стала решаться с постепенным налаживанием процесса книгопечатания на бурятском языке с 2010-х годов. Вместе с подготовкой текстовой составляющей параллельно решались вопросы программного обеспечения для ее интеграции в корпусный ресурс с соответствующими инструментариями, как интерфейс, осуществление настроек поиска, частотный и грамматический словари, последний с выполненной морфологической и мета- разметкой.

5. Заключение

Востребованность бурятских корпусных ресурсов неуклонно растет, что наблюдается по увеличению числа научных работ (статей, монографических исследований, диссертаций) по разным аспектам бурятского языка с использованием данных бурятского корпуса

. Доступность онлайн языкового ресурса имеет большие плюсы, например, в условиях служебных поездок исследователей (командировки, экспедиции), не говоря уже об известных бывших ограничениях в периоды пандемии, поскольку языковой материал всегда доступен в режиме онлайн для продолжения сбора, дополнения или анализа и т.д.

В основных задачах развития бурятских корпусов всегда остаются планы углубления разработок, которые можно подразделить на два типа: 1. задачи общего характера, имеющие целью пополнение текстовых баз данных всех ресурсов в соответствии с принципами их репрезентативности и сбалансированности; 2. частные задачи по основному и специальным корпусам бурятского языка по отдельности. Частные задачи основного корпуса нацелены на разработку семантической разметки. По параллельному корпусу бурятского языка к задачам второго типа относятся продолжение полуавтоматического выравнивания бурятско-русских и обратных художественных текстов с последующим пополнением текстовой базы данных и морфологическая разметка текстов. Чем глубже и, чем больше разных видов разметок в корпусе, тем больше исследовательских, равно, как и образовательных, учебных, методических и тому подобных задач можно решать на его данных

. Лингвистическая разметка и/или аннотация, являясь и процессом, и его результатом, дает разнообразную информацию о текстовых материалах корпуса. Основными видами разметки «Бурятского корпуса» являются метаразметка и собственно лингвистическая разметка (в Основных результатах выше указано о разметке внешних данных текстов и морфологических признаках словоформ). Названые виды разметки, часто могут иметь в свою очередь свои подвиды (например, в «Бурятском корпусе» выдается частеречная принадлежность словоформ). Все виды работ по разрабатываемым корпусам, их программные составляющие выполняются в тесном сотрудничестве с соответствующими специалистами, как компьютерные, корпусные лингвисты и естественно, самими языковедами, специализирующимися в области бурятского, в целом, монгольского языкознания.

Article metrics

Views:26
Downloads:0
Views
Total:
Views:26