Принципы и подходы к дискурс-анализу речи больших языковых моделей: учёт аспектов дискурса и текстообразования

Рашевский В. Е.

doi:10.60797/RULB.2024.53.22

Принципы и подходы к дискурс-анализу речи больших языковых моделей: учёт аспектов дискурса и текстообразования

Научная статья

DOI:

https://doi.org/10.60797/RULB.2024.53.22

Выпуск: № 5 (53), 2024

Предложена:

07.04.2024

Принята:

11.04.2024

Опубликована:

16.05.2024

441

9

XML

PDF

Аннотация

Статья посвящена разработке рекомендаций по проведению дискурс-анализа речи больших языковых моделей. Актуальность исследования обусловлена малой изученностью области дискурс-анализа в контексте многоуровневых нейросетевых языковых моделей. Цель исследования заключается в проведении теоретического анализа принципов текстообразования и аспектов дискурса больших языковых моделей. Для достижения поставленной цели были изучены литературные научные источники, касающиеся тем дискурс-анализа, дискурса, текста с точки зрения математической лингвистики и теории текстовых алгоритмов. По результатам теоретического обзора и интерпретации особенностей и возможностей компьютерного текстообразования были указаны критические аспекты, на которые стоит обращать внимание при проведении дискурс-анализа больших языковых моделей. Определены ключевые аспекты такого дискурс-анализа: учёт природы предвзятостей, вероятности ошибки в процессе генерации, чувствительности к контексту.

Ключевые слова:

дискурс-анализ, большая языковая модель, особенности генерации текста, аспекты дискурса, планы выражения и содержания.

1. Введение

Человеческий язык, как и любой другой код, призван облегчать процесс передачи информации посредством системности значений в знаках. Фундаментальные начала кода исходят из восприятия реальности живыми существами и выражаются в реакции на окружающий мир. С развитием интеллектуальных способностей предков людей и переходом к рациональному способу познания реальности код языка подвергался приспособлению как к таковой деятельности, так и к коммуникации между людьми в целом. Таким образом, нельзя не переоценить закономерную важность как аспекта кодирования сообщений, так и аспекта их декодирования. Какими бы популярными ни были школы мысли построения сообщений и текстов, в контексте живого первостепенными останутся школы мысли интерпретации.

В современном языкознании сформировалась парадигма, описывающая человеческую речь с позиции социальной обоснованности возникновения сообщений и самой коммуникации, эту парадигму называют дискурсом. Занимающийся изучением этого явления известный учёный Тён Адрианус ван Дейк так подчеркивает социальный аспект дискурса: «Дискурс – это существенная составляющая социокультурного взаимодействия, характерные черты которого – интересы, цели и стили»

.

Тён А. ван Дейк был не первым, кто говорил о силе языка и способах с его помощью воспроизводить власть в социуме, но его научные труды, как, например, «Discourse and Power» («Дискурс и власть»), направили исследования именно в сторону анализа и интерпретации дискурса как результата социальной коммуникации, осложненной человеческим фактором. Также, по мнению ученого, во время анализа, дискурс рассматривается не просто как продукт речевой коммуникации, дискурс является результатом контекстуального взаимодействия

. Так, с точки зрения Тён А. ван Дейка, проведение дискурс-анализа социального дискурса – критическое дискурсивное исследование, когда изучаются мотивы, интересы людей, конкуренции идейных дискурсов, при этом исследование обязательно должно вносить вклад в социальные изменения и быть теоретически и методологически адекватным .

С естественных позиций, любая человеческая деятельность и коммуникация могут рассматриваться критически из принципа малейших изменений, перетекающих в большие последствия. Происходящие изменения хода истории на локальном уровне также демонстрируют аспект власти индивида, что оправдывают общую применимость теории критического дискурс-анализа Тён А. ван Дейка – микро- и макро-уровни общественного строя (переход микро в макро)

.

В свете появления и широкого распространения работающих по определенным правилам больших языковых моделей, у лингвистов закономерно возникают вопросы о применимости упомянутого типа исследования по интерпретации сгенерированного компьютером дискурса. Наш исследовательский интерес, как и насущность проблемы, обусловлены её малой изученностью. Далее будут рассматриваться понятия «дискурс» и «текст», как непосредственно в контексте, приближенном к большим языковым моделям, так и с фундаментальных позиций их математико-статистической природы.

Как было описано выше, существует множество способов изучения структур и стратегий дискурса, где каждый из лингвистических анализов направлен на анализ составляющих текста. И. Р. Гальперин в труде «Текст как объект» критически подмечает проблему подобных исследований и указывает на две крайности, которые нужно стремиться избегать – недооценка глобальности объекта и сущности его единиц

.

Отсутствие четких границ лингвистических понятий вызвали сомнения у И. Р. Гальперина, он допустил рассмотрение текстов как более сложных и обусловленных структур: «Текст – это некий снятый момент процесса, в котором все дистинктивные признаки объекта обозначаются с большей или меньшей степенью отчетливости. Прежде всего нужно себе ясно представить, что мы имеем дело с неким новым объектом, лишь недавно включенным в сферу внимания лингвистических исследований. Значит, не только методы изучения, но и единицы этого объекта должны быть выделены как единицы, свойственные только этому объекту»

. Однако автор разделяет понятия текста и живой речи, где первое – завершенное, второе – устная речь как движение, процесс: «Текст – это произведение речетворческого процесса, обладающее завершенностью, объективированное в виде письменного документа, литературно обработанное в соответствии с типом этого документа, произведение, состоящее из названия (заголовка) и ряда особых единиц (сверхфразовых единств), объединенных разными типами лексической, грамматической, логической, стилистической связи, имеющее определенную целенаправленности и прагматическую установку» .

Н. Ф. Алефиренко предлагает обоснованный и менее распространенный подход разграничения понятий. С его точки зрения, текст и дискурс «обладают многими общими или смежными свойствами»

. Выдвигается предположение, что дискурс – это подобие текста, осложненного различными экстралингвистическими факторами: «дискурс – процесс, среда и условие порождения текста; текст – продукт дискурса, а язык – система единиц, служащих важнейшим средством дискурсивной деятельности, в результате которой появляется текст» .

В. И. Карасик в научной статье «Интерпретация дискурса: топик, формат, модус» предлагает трехмерную модель описания объектных, субъектных и инструментальных характеристик дискурса в контексте коммуникативной реальности – его топик, формат и модус: «Эти характеристики соответствуют базовым измерениям дискурса – его топику, формату и модусу»

.

Как и любая система, человеческий язык поддаётся если не полному познанию, то, как минимум условному объяснению сущности составляющих. Создание с нуля бесконечно ветвящихся структур, начиная от коротких высказываний, и переходя к полноценным текстам – недостижимая и крайне неэффективная стратегия в попытках познания всей обширности возможных и невозможных употреблений. Так, на первый и наиболее рациональный план выходят математические и статистические подходы к изучению языка – математическая лингвистика и комбинаторная и квантитативная лингвистика соответственно.

Р. Г. Пиотровский в научном труде «Математическая лингвистика» предпринял попытку описания естественного языка в общности обоих подходов. По мнению ученого, человеческий и математический языки – семиотические системы передачи информации

. Автор выделяет отличия языкового и математического знаков языков: языковой знак – имя, денотат, десигнат и коннотат, возможна многозначность и метафоричность, что говорит об изменчивости его значения; математический знак – имя и десигнат, одно значение, метафоричность отсутствует . С позиций возможности вероятностно-статистического описания человеческого языка, автор подмечает и о возможности применения аппарата теории информации для оценки структурной организации текста и запечатленном в нём содержания .

Разработкой текстовых алгоритмов в языках программирования занимались французский и польский ученые Максим Крошмоур и Войцех Риттер. В труде «Text algorithms» авторы привнесли объем полезной информации теоретического и прикладного характера как о базовых, так и о более сложных процессах текстообразования

.

2. Основные результаты

Ранее нами была изучена соотносимость двух явлений – человеческого языка и сгенерированного текста больших языковых моделей. По результатам текущего исследования мы рассмотрели оба вида дискурса с критических позиций как составляющих их единиц, так и глобальной сущности их единств.

Большая языковая модель – основанная на технологиях искусственного интеллекта модель, предварительно обученная на больших массивах языковых данных, способная понимать и генерировать данные как в виде текста, так и в виде изображений и аудио. Говоря о связности генерируемого текста, мы способны извлекать дискурс, связный как локально, так и глобально:

· локальная связность – план выражения, заключается в существовании синонимичных или допустимых в рамках глобальной связности рядов слов, имеющих свои статистически обоснованные значения вероятности подбора на каждую отдельную позицию в тексте – парадигмообразующая сторона алгоритма;

· глобальная связность – план содержания, который, как правило, соблюдается посредством функционирующего алгоритма генерации блоков слов на определённую дальность от текущего выбора слова – синтагмообразующая сторона алгоритма. Несоблюдение глобальной связности коррелирует с повышенной сложностью или запутанностью запроса, а также с локальностью спрашиваемого (отсутствие обсуждаемой информации в материале предварительной обработки).

Наличие связности дискурса большой языковой модели в рамках диалоговой коммуникации предполагает наличие прагматических установок участников и, соответственно, прагматических отношений между дискурсами и коммуникантами:

· прагматическая установка чат-бота – обучение, информирование, инструктирование, реферирование и т.д. Контекстное сообщение и тема диалога во многом определяют установку чат-бота в коммуникации. Существующий принцип многоуровневости нейросетей посредством подсистем ограничивает и практически исключает системную допустимость отрицательных прагматических установок, таких как нарочное введение в заблуждение, побуждение через манипуляцию;

· прагматическое воздействие на пользователя: подкрепление, убеждение. Говоря о таком воздействии, мы рассматриваем прагматику текста без учёта прагматических установок чат-бота. Так, можно выделить прямое воздействие убеждения, которое может быть как успешным, так и неудачным, так и непрямое – возможное подкрепление ложных взглядов пользователя при некритическом восприятии сгенерированного машиной текста.

Целесообразно и рассмотрение прагматики пользовательского запроса – способностей интерпретации и понимания чат-ботом дискурса и установок пользователя. С позиций психолингвистики, под этим имеется в виду извлечение сущности коммуникативно-познавательного намерения пользователя и восприятие иерархии содержательно-смысловых блоков запроса для последующей генерации рассудительного и соответствующего коммуникативной ситуации ответа. Современные большие языковые модели заточены на понимание контекста и способны распознавать ситуации, когда было бы прагматично использовать определённое лингвистическое выражение подходящего смыслового содержания, например, проявление эмпатии, когда чат-бот понимает намёк пользователя в нужде психологической поддержки. Однако наблюдаются сложности в непосредственной генерации собственных эмоций

.

Мы выделяем следующие особенности дискурса чат-бота, касающиеся событийного аспекта коммуникации:

· установка – выполнение коммуникативных задач. Обширность возможных задач ограничена лишь воображением пользователя – от большой языковой модели, нередко осложнённой внутренними и внешними уровнями алгоритма, ожидается успешное общение, решение поставленных пользователем заданий с использованием текстовой, визуальной и аудиальной репрезентаций, в зависимости от запроса;

· коммуникация контекстно-обусловлена знаниями о последних событиях. В ранний период после выхода большой языковой модели ChatGPT 3, предварительно обработанный языковой материал был ограничен знаниями о событиях до 2021 года, однако в сфере чат-ботов наблюдается тренд на внедрение в алгоритм подсистемы, позволяющей быстро получать и учитывать актуальную информацию и новости из реального мира.

Экстралингвистические факторы речи чат-бота – условные намерения выразить определённые линии смысловой информации чередой локальных языковых выборов. Выше была описана интерпретация возможных интенций – алгоритм нацелен на выполнение задач. Более глубокое рассмотрение интенций с позиции самостоятельности личностного дискурса считается нерациональным в виду того, что большая языковая модель не жива. Также стоит подметить, что генерация текста – вычисление ответа в соответствии с контекстом, поэтому пользователю важно составить эффективное контекстное сообщение в рамках коммуникации с определённой большой языковой моделью определённой версии

.

Социокультурный аспект речи чат-бота заключается в наличии огромного предварительно обработанного языкового корпуса, при этом в его материале запечатлены данные о тысячелетиях истории и о всевозможных и относительно изученных социокультурных реалиях и исторических ситуациях, дискурсы людей, идейные дискурсы, всё многообразие устоявшихся и редких употреблений в языке. Всё перечисленное учитывается в алгоритме генерации.

В вопросе языкознания о соотнесении текста и дискурса, лингвисты рассматривают письменный и завершенный характер изложения и динамику речи соответственно. В попытках применения теории текста, мы не смогли однозначно определить, с чем имеем дело, но склоняемся считать сообщения больших языковых моделей именно дискурсом. Причиной тому стали теоретические находки, объясняющие дискурс с обеих сторон – как процесс и как результат. Так, дискурс рассматривается нами как процесс, ведь в принципиальную роль в генерации играет элемент случайности, выражающийся в лингвистическом локальном выборе, например, в архитектуре предварительно обученного трансформера на каждый последующий языковой выбор предусматривается ряд слов, где каждое наделяется собственной вероятностью отбора в текст. С точки зрения дискурса как результата, нельзя не отметить относительное постоянство модели, ограничивающееся лишь контекстом, а также стиль, форму и синтаксическое оформление текста. В отличие от языка человека, такая синергия уровня спонтанности и оформления генерируемых текстов скорее ближе к текстам людей, нежели к их дискурсам, но локальный выбор также вносит неопределённые изменения в содержание конечной формы выражения, что является отчетливым маркером дискурсной динамики.

Дискурсивность сгенерированного чат-ботом текста отражается особенностями устройства алгоритма. Алгоритм как программа, совершающая статистический выбор, принципиально не отличается человека в интеллектуальном плане оригинального языкового выражения, так как гибкость алгоритма большой языковой модели учитывает лингвистические единицы вплоть до формы и смысла морфем слов. Говоря о способности генерации больших текстов, известно о возможностях машины создания оригинального контента в полном соответствии с контекстом пользовательского запроса. Также стоит помнить, что в будущем для удобства пользования будет налажена связь больших языковых моделей с ними самими на уровне подсистем для облегчения и повышения эффективности деятельности по созданию фонового контекста и информационного наполнения идейных дискурсов через полуавтономную самонастройку.

Отдельной важной темой в рассмотрении характеристики дискурсивности текста мы выделяем явления предвзятости в планах содержания, выражения, а также в факторах речи чат-бота. С нашей точки зрения, совершенно любой дискурс – это прежде всего факторы коммуникации, из этого следует предположение о том, что все языковые данные (как информация) в той или иной мере фундаментально предвзяты. Теоретически это объясняется идеей о неразрывности дискурса с его кодом, и тогда под предвзятостью понимается апроприация значений знакам кода. Мы выделяем четыре вида предвзятости.

Первый вид – предвзятость материала предварительной обработки:

· информация. Как языковой материал предобработки в большинстве случаев укрепляет предвзятость в истинных общеизвестных концептах в следствие большого объема языковых данных и известной информации, так и естественным образом происходит сведение дискурсных концептов в сторону усреднения предвзятости, что позволяет дискурсам, имеющим объективное или перцептивное интервальное описание, принимать усредненное значение в интервале предвзятости;

· поведение (глобальный уровень речи). Чат-бот подбирает стратегию по достижению успеха коммуникативных задач в соответствии с контекстом коммуникации, что говорит о черпании большой языковой модели знаний из материала предобработки – смыслы структуры (содержание);

· шаблоны (локальный уровень речи). Употребление зафиксированных в лингвистическом корпусе слов и словосочетаний, предложений, фраз, сверхфразовых единств, рубрик, как применение также известных лексических, морфологических и синтаксических структур языка – форма структуры (выражение).

Важное замечание, что, сказанное об усредненности предвзятости концептов идейных дискурсов или о любом другом случае, когда большая языковая модель якобы принимает осознанное решение, – это наша условность. Не секрет, что нейросети обладают одним серьёзным недостатком – принципом «чёрного ящика». За сгенерированным текстом лежат предшествующие математические вычисления, не поддающиеся обоснованию, поэтому даже режимы отладки в контексте больших языковых моделей считаем фундаментально недействительными на текущих архитектурах.

Если предвзятость предобработанного языкового материала может быть обусловлена вмешательством разработчика лишь частично и косвенно, то алгоритм и влияние подсистем существенным образом определены создателями модели. Применение таких механизмов зачастую имеет защитный характер, ограничивающий пользователя от сгенерированных сообщений с нежелательной или запрещённой информацией. Например, в предварительно обученных трансформерах существуют изменяемые настройки, называющиеся весами, которые затрагивают как целостное функционирование уровней нейросетей, так и влияют на выставление значений вероятности языковым локальным выборам.

Затрагивая область контекста коммуникации, мы выделяем предвзятость контекстно-обоснованную. Контекстное сообщение является основополагающим двигателем в производстве математического уклона содержания последующего ответа. Так, в диалоге с чат-ботом можно нарочно вызвать предвзятый ответ через запрос, например, просьбой повторить что-либо, также эффективны обман и прием субъектной персонификации, когда запрос требует от большой языковой модели сформировать ответ как бы от лица некоторого человека.

Источником неистинной предвзятостив речи чат-бота мы также считаем и механизм статистического локального выбора в процессе генерации в целом, ведь из ошибочного или случайного отбора языковых знаков, мы будем иметь дело с галлюцинацией или с потенциально видоизменённым первоначальным содержанием в одной из конечных форм выражения соответственно.

3. Заключение

Подводя итог исследованию, мы выделили следующие пункты алгоритма, на которые нужно обращать внимание исследователю во время проведения дискурс-анализа речи большой языковой модели:

1) предвзятость (материала предобработки, алгоритма);

2) возможность ошибки (статистический подбор может вызвать критическое нарушение в формализации содержания в выражении или вызвать галлюцинацию);

3) полный учет контекста – контекстных сообщений как предшествующих (в текущей беседе), так и прямо вызвавших ответ (ответ на последний запрос), учет материала в памяти;

4) версия программы – знание версии модели поможет понять её потенциальные слабые стороны.

Перспектива исследования заключается в применении выработанного алгоритма для исследования разнотематических сегментов большой языковой модели.

Дополнительные материалы

Не указаны

Финансирование

Авторы не получали финансовой поддержки для проведения исследования, написания и публикации статьи

Благодарности

Не указаны

Конфликт интересов

Не указаны

Список литературы

Алефиренко Н.Ф. Текст – дискурс – язык / Н.Ф. Алефиренко // Русская филология. Украинский вестник. — 2007. — №2-3. — с. 3-7.
Ван Дейк Т.А. Дискурс и власть: Репрезентация доминирования в языке и коммуникации / Т.А. Ван Дейк — Москва: Либроком, 2013. — 344 с.
Ван Дейк Т.А. Язык. Познание. Коммуникация / Т.А. Ван Дейк — Благовещенск: БГК им. И.А. Бодуэна де Куртенэ, 2000. — 308 с.
Гальперин И.Р. Текст как объект лингвистического исследования / И.Р. Гальперин — Москва: КомКнига, 2007. — 144 с.
Карасик В.И. Интерпретация дискурса: топик, формат, модус / В.И. Карасик // Известия Волгоградского государственного педагогического университета. — 2015. — № 1(96). — с. 73-79.
Пиотровский Р.Г. Математическая лингвистика / Р.Г. Пиотровский, К.Б. Бектаев, А.А. Пиотровская — Москва: Высшая школа, 1977. — 383 с.
Borji A. A Categorical Archive of ChatGPT Failures / A. Borji. — 2023 — URL: https://www.researchsquare.com/article/rs-2895792/v1 (accessed: 07.04.2024). — DOI: 10.21203/rs.3.rs-2895792/v1.
Crochemore M. Text algorythms / M. Crochemore, W. Rytter — Oxford: Oxford University Press, 1994. — 432 с.
Denny P. Prompt Problems: A New Programming Exercise for the Generative AI Era / P. Denny, J. Leinonen, J. Prather et al.; — New York: Association for Computing Machinery, 2024. — p. 296-302. — DOI: 10.1145/3626252.3630909.
Van Dijk T.A. Critical Discourse Analysis / T.A. Van Dijk; ed. by D. Tannen, H.E. Hamilton, D. Schiffrin — Hoboken: John Wiley & Sons, Ltd, 2015. — p. 466-485. — DOI: 10.1002/9781118584194.ch22.

Рецензия

Рецензент:Сообщество рецензентов Международного научно-исследовательского журнала

1 раунд рецензирования

Информация об авторах

Аффилиация:Белгородский государственный национальный исследовательский университет, Белгород, Российская Федерация

Роль:Автор

ORCID:0009-0002-5451-8684

Метрика статьи

Скачиваний:9

ПросмотрыСкачивания

Просмотры

Всего: