Принципы и подходы к дискурс-анализу речи больших языковых моделей: учёт аспектов дискурса и текстообразования
Принципы и подходы к дискурс-анализу речи больших языковых моделей: учёт аспектов дискурса и текстообразования
Аннотация
Статья посвящена разработке рекомендаций по проведению дискурс-анализа речи больших языковых моделей. Актуальность исследования обусловлена малой изученностью области дискурс-анализа в контексте многоуровневых нейросетевых языковых моделей. Цель исследования заключается в проведении теоретического анализа принципов текстообразования и аспектов дискурса больших языковых моделей. Для достижения поставленной цели были изучены литературные научные источники, касающиеся тем дискурс-анализа, дискурса, текста с точки зрения математической лингвистики и теории текстовых алгоритмов. По результатам теоретического обзора и интерпретации особенностей и возможностей компьютерного текстообразования были указаны критические аспекты, на которые стоит обращать внимание при проведении дискурс-анализа больших языковых моделей. Определены ключевые аспекты такого дискурс-анализа: учёт природы предвзятостей, вероятности ошибки в процессе генерации, чувствительности к контексту.
1. Введение
Человеческий язык, как и любой другой код, призван облегчать процесс передачи информации посредством системности значений в знаках. Фундаментальные начала кода исходят из восприятия реальности живыми существами и выражаются в реакции на окружающий мир. С развитием интеллектуальных способностей предков людей и переходом к рациональному способу познания реальности код языка подвергался приспособлению как к таковой деятельности, так и к коммуникации между людьми в целом. Таким образом, нельзя не переоценить закономерную важность как аспекта кодирования сообщений, так и аспекта их декодирования. Какими бы популярными ни были школы мысли построения сообщений и текстов, в контексте живого первостепенными останутся школы мысли интерпретации.
В современном языкознании сформировалась парадигма, описывающая человеческую речь с позиции социальной обоснованности возникновения сообщений и самой коммуникации, эту парадигму называют дискурсом. Занимающийся изучением этого явления известный учёный Тён Адрианус ван Дейк так подчеркивает социальный аспект дискурса: «Дискурс – это существенная составляющая социокультурного взаимодействия, характерные черты которого – интересы, цели и стили» .
Тён А. ван Дейк был не первым, кто говорил о силе языка и способах с его помощью воспроизводить власть в социуме, но его научные труды, как, например, «Discourse and Power» («Дискурс и власть»), направили исследования именно в сторону анализа и интерпретации дискурса как результата социальной коммуникации, осложненной человеческим фактором. Также, по мнению ученого, во время анализа, дискурс рассматривается не просто как продукт речевой коммуникации, дискурс является результатом контекстуального взаимодействия . Так, с точки зрения Тён А. ван Дейка, проведение дискурс-анализа социального дискурса – критическое дискурсивное исследование, когда изучаются мотивы, интересы людей, конкуренции идейных дискурсов, при этом исследование обязательно должно вносить вклад в социальные изменения и быть теоретически и методологически адекватным .
С естественных позиций, любая человеческая деятельность и коммуникация могут рассматриваться критически из принципа малейших изменений, перетекающих в большие последствия. Происходящие изменения хода истории на локальном уровне также демонстрируют аспект власти индивида, что оправдывают общую применимость теории критического дискурс-анализа Тён А. ван Дейка – микро- и макро-уровни общественного строя (переход микро в макро) .
В свете появления и широкого распространения работающих по определенным правилам больших языковых моделей, у лингвистов закономерно возникают вопросы о применимости упомянутого типа исследования по интерпретации сгенерированного компьютером дискурса. Наш исследовательский интерес, как и насущность проблемы, обусловлены её малой изученностью. Далее будут рассматриваться понятия «дискурс» и «текст», как непосредственно в контексте, приближенном к большим языковым моделям, так и с фундаментальных позиций их математико-статистической природы.
Как было описано выше, существует множество способов изучения структур и стратегий дискурса, где каждый из лингвистических анализов направлен на анализ составляющих текста. И. Р. Гальперин в труде «Текст как объект» критически подмечает проблему подобных исследований и указывает на две крайности, которые нужно стремиться избегать – недооценка глобальности объекта и сущности его единиц .
Отсутствие четких границ лингвистических понятий вызвали сомнения у И. Р. Гальперина, он допустил рассмотрение текстов как более сложных и обусловленных структур: «Текст – это некий снятый момент процесса, в котором все дистинктивные признаки объекта обозначаются с большей или меньшей степенью отчетливости. Прежде всего нужно себе ясно представить, что мы имеем дело с неким новым объектом, лишь недавно включенным в сферу внимания лингвистических исследований. Значит, не только методы изучения, но и единицы этого объекта должны быть выделены как единицы, свойственные только этому объекту» . Однако автор разделяет понятия текста и живой речи, где первое – завершенное, второе – устная речь как движение, процесс: «Текст – это произведение речетворческого процесса, обладающее завершенностью, объективированное в виде письменного документа, литературно обработанное в соответствии с типом этого документа, произведение, состоящее из названия (заголовка) и ряда особых единиц (сверхфразовых единств), объединенных разными типами лексической, грамматической, логической, стилистической связи, имеющее определенную целенаправленности и прагматическую установку» .
Н. Ф. Алефиренко предлагает обоснованный и менее распространенный подход разграничения понятий. С его точки зрения, текст и дискурс «обладают многими общими или смежными свойствами» . Выдвигается предположение, что дискурс – это подобие текста, осложненного различными экстралингвистическими факторами: «дискурс – процесс, среда и условие порождения текста; текст – продукт дискурса, а язык – система единиц, служащих важнейшим средством дискурсивной деятельности, в результате которой появляется текст» .
В. И. Карасик в научной статье «Интерпретация дискурса: топик, формат, модус» предлагает трехмерную модель описания объектных, субъектных и инструментальных характеристик дискурса в контексте коммуникативной реальности – его топик, формат и модус: «Эти характеристики соответствуют базовым измерениям дискурса – его топику, формату и модусу» .
Как и любая система, человеческий язык поддаётся если не полному познанию, то, как минимум условному объяснению сущности составляющих. Создание с нуля бесконечно ветвящихся структур, начиная от коротких высказываний, и переходя к полноценным текстам – недостижимая и крайне неэффективная стратегия в попытках познания всей обширности возможных и невозможных употреблений. Так, на первый и наиболее рациональный план выходят математические и статистические подходы к изучению языка – математическая лингвистика и комбинаторная и квантитативная лингвистика соответственно.
Р. Г. Пиотровский в научном труде «Математическая лингвистика» предпринял попытку описания естественного языка в общности обоих подходов. По мнению ученого, человеческий и математический языки – семиотические системы передачи информации . Автор выделяет отличия языкового и математического знаков языков: языковой знак – имя, денотат, десигнат и коннотат, возможна многозначность и метафоричность, что говорит об изменчивости его значения; математический знак – имя и десигнат, одно значение, метафоричность отсутствует . С позиций возможности вероятностно-статистического описания человеческого языка, автор подмечает и о возможности применения аппарата теории информации для оценки структурной организации текста и запечатленном в нём содержания .
Разработкой текстовых алгоритмов в языках программирования занимались французский и польский ученые Максим Крошмоур и Войцех Риттер. В труде «Text algorithms» авторы привнесли объем полезной информации теоретического и прикладного характера как о базовых, так и о более сложных процессах текстообразования .
2. Основные результаты
Ранее нами была изучена соотносимость двух явлений – человеческого языка и сгенерированного текста больших языковых моделей. По результатам текущего исследования мы рассмотрели оба вида дискурса с критических позиций как составляющих их единиц, так и глобальной сущности их единств.
Большая языковая модель – основанная на технологиях искусственного интеллекта модель, предварительно обученная на больших массивах языковых данных, способная понимать и генерировать данные как в виде текста, так и в виде изображений и аудио. Говоря о связности генерируемого текста, мы способны извлекать дискурс, связный как локально, так и глобально:
· локальная связность – план выражения, заключается в существовании синонимичных или допустимых в рамках глобальной связности рядов слов, имеющих свои статистически обоснованные значения вероятности подбора на каждую отдельную позицию в тексте – парадигмообразующая сторона алгоритма;
· глобальная связность – план содержания, который, как правило, соблюдается посредством функционирующего алгоритма генерации блоков слов на определённую дальность от текущего выбора слова – синтагмообразующая сторона алгоритма. Несоблюдение глобальной связности коррелирует с повышенной сложностью или запутанностью запроса, а также с локальностью спрашиваемого (отсутствие обсуждаемой информации в материале предварительной обработки).
Наличие связности дискурса большой языковой модели в рамках диалоговой коммуникации предполагает наличие прагматических установок участников и, соответственно, прагматических отношений между дискурсами и коммуникантами:
· прагматическая установка чат-бота – обучение, информирование, инструктирование, реферирование и т.д. Контекстное сообщение и тема диалога во многом определяют установку чат-бота в коммуникации. Существующий принцип многоуровневости нейросетей посредством подсистем ограничивает и практически исключает системную допустимость отрицательных прагматических установок, таких как нарочное введение в заблуждение, побуждение через манипуляцию;
· прагматическое воздействие на пользователя: подкрепление, убеждение. Говоря о таком воздействии, мы рассматриваем прагматику текста без учёта прагматических установок чат-бота. Так, можно выделить прямое воздействие убеждения, которое может быть как успешным, так и неудачным, так и непрямое – возможное подкрепление ложных взглядов пользователя при некритическом восприятии сгенерированного машиной текста.
Целесообразно и рассмотрение прагматики пользовательского запроса – способностей интерпретации и понимания чат-ботом дискурса и установок пользователя. С позиций психолингвистики, под этим имеется в виду извлечение сущности коммуникативно-познавательного намерения пользователя и восприятие иерархии содержательно-смысловых блоков запроса для последующей генерации рассудительного и соответствующего коммуникативной ситуации ответа. Современные большие языковые модели заточены на понимание контекста и способны распознавать ситуации, когда было бы прагматично использовать определённое лингвистическое выражение подходящего смыслового содержания, например, проявление эмпатии, когда чат-бот понимает намёк пользователя в нужде психологической поддержки. Однако наблюдаются сложности в непосредственной генерации собственных эмоций .
Мы выделяем следующие особенности дискурса чат-бота, касающиеся событийного аспекта коммуникации:
· установка – выполнение коммуникативных задач. Обширность возможных задач ограничена лишь воображением пользователя – от большой языковой модели, нередко осложнённой внутренними и внешними уровнями алгоритма, ожидается успешное общение, решение поставленных пользователем заданий с использованием текстовой, визуальной и аудиальной репрезентаций, в зависимости от запроса;
· коммуникация контекстно-обусловлена знаниями о последних событиях. В ранний период после выхода большой языковой модели ChatGPT 3, предварительно обработанный языковой материал был ограничен знаниями о событиях до 2021 года, однако в сфере чат-ботов наблюдается тренд на внедрение в алгоритм подсистемы, позволяющей быстро получать и учитывать актуальную информацию и новости из реального мира.
Экстралингвистические факторы речи чат-бота – условные намерения выразить определённые линии смысловой информации чередой локальных языковых выборов. Выше была описана интерпретация возможных интенций – алгоритм нацелен на выполнение задач. Более глубокое рассмотрение интенций с позиции самостоятельности личностного дискурса считается нерациональным в виду того, что большая языковая модель не жива. Также стоит подметить, что генерация текста – вычисление ответа в соответствии с контекстом, поэтому пользователю важно составить эффективное контекстное сообщение в рамках коммуникации с определённой большой языковой моделью определённой версии .
Социокультурный аспект речи чат-бота заключается в наличии огромного предварительно обработанного языкового корпуса, при этом в его материале запечатлены данные о тысячелетиях истории и о всевозможных и относительно изученных социокультурных реалиях и исторических ситуациях, дискурсы людей, идейные дискурсы, всё многообразие устоявшихся и редких употреблений в языке. Всё перечисленное учитывается в алгоритме генерации.
В вопросе языкознания о соотнесении текста и дискурса, лингвисты рассматривают письменный и завершенный характер изложения и динамику речи соответственно. В попытках применения теории текста, мы не смогли однозначно определить, с чем имеем дело, но склоняемся считать сообщения больших языковых моделей именно дискурсом. Причиной тому стали теоретические находки, объясняющие дискурс с обеих сторон – как процесс и как результат. Так, дискурс рассматривается нами как процесс, ведь в принципиальную роль в генерации играет элемент случайности, выражающийся в лингвистическом локальном выборе, например, в архитектуре предварительно обученного трансформера на каждый последующий языковой выбор предусматривается ряд слов, где каждое наделяется собственной вероятностью отбора в текст. С точки зрения дискурса как результата, нельзя не отметить относительное постоянство модели, ограничивающееся лишь контекстом, а также стиль, форму и синтаксическое оформление текста. В отличие от языка человека, такая синергия уровня спонтанности и оформления генерируемых текстов скорее ближе к текстам людей, нежели к их дискурсам, но локальный выбор также вносит неопределённые изменения в содержание конечной формы выражения, что является отчетливым маркером дискурсной динамики.
Дискурсивность сгенерированного чат-ботом текста отражается особенностями устройства алгоритма. Алгоритм как программа, совершающая статистический выбор, принципиально не отличается человека в интеллектуальном плане оригинального языкового выражения, так как гибкость алгоритма большой языковой модели учитывает лингвистические единицы вплоть до формы и смысла морфем слов. Говоря о способности генерации больших текстов, известно о возможностях машины создания оригинального контента в полном соответствии с контекстом пользовательского запроса. Также стоит помнить, что в будущем для удобства пользования будет налажена связь больших языковых моделей с ними самими на уровне подсистем для облегчения и повышения эффективности деятельности по созданию фонового контекста и информационного наполнения идейных дискурсов через полуавтономную самонастройку.
Отдельной важной темой в рассмотрении характеристики дискурсивности текста мы выделяем явления предвзятости в планах содержания, выражения, а также в факторах речи чат-бота. С нашей точки зрения, совершенно любой дискурс – это прежде всего факторы коммуникации, из этого следует предположение о том, что все языковые данные (как информация) в той или иной мере фундаментально предвзяты. Теоретически это объясняется идеей о неразрывности дискурса с его кодом, и тогда под предвзятостью понимается апроприация значений знакам кода. Мы выделяем четыре вида предвзятости.
Первый вид – предвзятость материала предварительной обработки:
· информация. Как языковой материал предобработки в большинстве случаев укрепляет предвзятость в истинных общеизвестных концептах в следствие большого объема языковых данных и известной информации, так и естественным образом происходит сведение дискурсных концептов в сторону усреднения предвзятости, что позволяет дискурсам, имеющим объективное или перцептивное интервальное описание, принимать усредненное значение в интервале предвзятости;
· поведение (глобальный уровень речи). Чат-бот подбирает стратегию по достижению успеха коммуникативных задач в соответствии с контекстом коммуникации, что говорит о черпании большой языковой модели знаний из материала предобработки – смыслы структуры (содержание);
· шаблоны (локальный уровень речи). Употребление зафиксированных в лингвистическом корпусе слов и словосочетаний, предложений, фраз, сверхфразовых единств, рубрик, как применение также известных лексических, морфологических и синтаксических структур языка – форма структуры (выражение).
Важное замечание, что, сказанное об усредненности предвзятости концептов идейных дискурсов или о любом другом случае, когда большая языковая модель якобы принимает осознанное решение, – это наша условность. Не секрет, что нейросети обладают одним серьёзным недостатком – принципом «чёрного ящика». За сгенерированным текстом лежат предшествующие математические вычисления, не поддающиеся обоснованию, поэтому даже режимы отладки в контексте больших языковых моделей считаем фундаментально недействительными на текущих архитектурах.
Если предвзятость предобработанного языкового материала может быть обусловлена вмешательством разработчика лишь частично и косвенно, то алгоритм и влияние подсистем существенным образом определены создателями модели. Применение таких механизмов зачастую имеет защитный характер, ограничивающий пользователя от сгенерированных сообщений с нежелательной или запрещённой информацией. Например, в предварительно обученных трансформерах существуют изменяемые настройки, называющиеся весами, которые затрагивают как целостное функционирование уровней нейросетей, так и влияют на выставление значений вероятности языковым локальным выборам.
Затрагивая область контекста коммуникации, мы выделяем предвзятость контекстно-обоснованную. Контекстное сообщение является основополагающим двигателем в производстве математического уклона содержания последующего ответа. Так, в диалоге с чат-ботом можно нарочно вызвать предвзятый ответ через запрос, например, просьбой повторить что-либо, также эффективны обман и прием субъектной персонификации, когда запрос требует от большой языковой модели сформировать ответ как бы от лица некоторого человека.
Источником неистинной предвзятостив речи чат-бота мы также считаем и механизм статистического локального выбора в процессе генерации в целом, ведь из ошибочного или случайного отбора языковых знаков, мы будем иметь дело с галлюцинацией или с потенциально видоизменённым первоначальным содержанием в одной из конечных форм выражения соответственно.
3. Заключение
Подводя итог исследованию, мы выделили следующие пункты алгоритма, на которые нужно обращать внимание исследователю во время проведения дискурс-анализа речи большой языковой модели:
1) предвзятость (материала предобработки, алгоритма);
2) возможность ошибки (статистический подбор может вызвать критическое нарушение в формализации содержания в выражении или вызвать галлюцинацию);
3) полный учет контекста – контекстных сообщений как предшествующих (в текущей беседе), так и прямо вызвавших ответ (ответ на последний запрос), учет материала в памяти;
4) версия программы – знание версии модели поможет понять её потенциальные слабые стороны.
Перспектива исследования заключается в применении выработанного алгоритма для исследования разнотематических сегментов большой языковой модели.