Principles and approaches to discourse analysis of speech of large language models: accounting for aspects of discourse and text formation
Principles and approaches to discourse analysis of speech of large language models: accounting for aspects of discourse and text formation
Abstract
The article is dedicated to the development of recommendations for discourse analysis of speech of large language models. The relevance of the research is due to the understudied area of discourse analysis in the context of multilevel neural network language models. The aim of the work is to conduct a theoretical analysis of the textual principles and discourse aspects of large language models. In order to achieve this objective, the literature of scientific sources concerning the topics of discourse analysis, discourse, text from the perspective of mathematical linguistics and the theory of text algorithms were reviewed. Based on the results of the theoretical review and interpretation of the features and possibilities of computational text generation, critical aspects worth paying attention to when conducting discourse analyses of large language models were pointed out. Key aspects of such discourse analyses were identified: accounting for the nature of biases, probability of error in the generation process, and sensitivity to context.
1. Введение
Человеческий язык, как и любой другой код, призван облегчать процесс передачи информации посредством системности значений в знаках. Фундаментальные начала кода исходят из восприятия реальности живыми существами и выражаются в реакции на окружающий мир. С развитием интеллектуальных способностей предков людей и переходом к рациональному способу познания реальности код языка подвергался приспособлению как к таковой деятельности, так и к коммуникации между людьми в целом. Таким образом, нельзя не переоценить закономерную важность как аспекта кодирования сообщений, так и аспекта их декодирования. Какими бы популярными ни были школы мысли построения сообщений и текстов, в контексте живого первостепенными останутся школы мысли интерпретации.
В современном языкознании сформировалась парадигма, описывающая человеческую речь с позиции социальной обоснованности возникновения сообщений и самой коммуникации, эту парадигму называют дискурсом. Занимающийся изучением этого явления известный учёный Тён Адрианус ван Дейк так подчеркивает социальный аспект дискурса: «Дискурс – это существенная составляющая социокультурного взаимодействия, характерные черты которого – интересы, цели и стили» .
Тён А. ван Дейк был не первым, кто говорил о силе языка и способах с его помощью воспроизводить власть в социуме, но его научные труды, как, например, «Discourse and Power» («Дискурс и власть»), направили исследования именно в сторону анализа и интерпретации дискурса как результата социальной коммуникации, осложненной человеческим фактором. Также, по мнению ученого, во время анализа, дискурс рассматривается не просто как продукт речевой коммуникации, дискурс является результатом контекстуального взаимодействия . Так, с точки зрения Тён А. ван Дейка, проведение дискурс-анализа социального дискурса – критическое дискурсивное исследование, когда изучаются мотивы, интересы людей, конкуренции идейных дискурсов, при этом исследование обязательно должно вносить вклад в социальные изменения и быть теоретически и методологически адекватным .
С естественных позиций, любая человеческая деятельность и коммуникация могут рассматриваться критически из принципа малейших изменений, перетекающих в большие последствия. Происходящие изменения хода истории на локальном уровне также демонстрируют аспект власти индивида, что оправдывают общую применимость теории критического дискурс-анализа Тён А. ван Дейка – микро- и макро-уровни общественного строя (переход микро в макро) .
В свете появления и широкого распространения работающих по определенным правилам больших языковых моделей, у лингвистов закономерно возникают вопросы о применимости упомянутого типа исследования по интерпретации сгенерированного компьютером дискурса. Наш исследовательский интерес, как и насущность проблемы, обусловлены её малой изученностью. Далее будут рассматриваться понятия «дискурс» и «текст», как непосредственно в контексте, приближенном к большим языковым моделям, так и с фундаментальных позиций их математико-статистической природы.
Как было описано выше, существует множество способов изучения структур и стратегий дискурса, где каждый из лингвистических анализов направлен на анализ составляющих текста. И. Р. Гальперин в труде «Текст как объект» критически подмечает проблему подобных исследований и указывает на две крайности, которые нужно стремиться избегать – недооценка глобальности объекта и сущности его единиц .
Отсутствие четких границ лингвистических понятий вызвали сомнения у И. Р. Гальперина, он допустил рассмотрение текстов как более сложных и обусловленных структур: «Текст – это некий снятый момент процесса, в котором все дистинктивные признаки объекта обозначаются с большей или меньшей степенью отчетливости. Прежде всего нужно себе ясно представить, что мы имеем дело с неким новым объектом, лишь недавно включенным в сферу внимания лингвистических исследований. Значит, не только методы изучения, но и единицы этого объекта должны быть выделены как единицы, свойственные только этому объекту» . Однако автор разделяет понятия текста и живой речи, где первое – завершенное, второе – устная речь как движение, процесс: «Текст – это произведение речетворческого процесса, обладающее завершенностью, объективированное в виде письменного документа, литературно обработанное в соответствии с типом этого документа, произведение, состоящее из названия (заголовка) и ряда особых единиц (сверхфразовых единств), объединенных разными типами лексической, грамматической, логической, стилистической связи, имеющее определенную целенаправленности и прагматическую установку» .
Н. Ф. Алефиренко предлагает обоснованный и менее распространенный подход разграничения понятий. С его точки зрения, текст и дискурс «обладают многими общими или смежными свойствами» . Выдвигается предположение, что дискурс – это подобие текста, осложненного различными экстралингвистическими факторами: «дискурс – процесс, среда и условие порождения текста; текст – продукт дискурса, а язык – система единиц, служащих важнейшим средством дискурсивной деятельности, в результате которой появляется текст» .
В. И. Карасик в научной статье «Интерпретация дискурса: топик, формат, модус» предлагает трехмерную модель описания объектных, субъектных и инструментальных характеристик дискурса в контексте коммуникативной реальности – его топик, формат и модус: «Эти характеристики соответствуют базовым измерениям дискурса – его топику, формату и модусу» .
Как и любая система, человеческий язык поддаётся если не полному познанию, то, как минимум условному объяснению сущности составляющих. Создание с нуля бесконечно ветвящихся структур, начиная от коротких высказываний, и переходя к полноценным текстам – недостижимая и крайне неэффективная стратегия в попытках познания всей обширности возможных и невозможных употреблений. Так, на первый и наиболее рациональный план выходят математические и статистические подходы к изучению языка – математическая лингвистика и комбинаторная и квантитативная лингвистика соответственно.
Р. Г. Пиотровский в научном труде «Математическая лингвистика» предпринял попытку описания естественного языка в общности обоих подходов. По мнению ученого, человеческий и математический языки – семиотические системы передачи информации . Автор выделяет отличия языкового и математического знаков языков: языковой знак – имя, денотат, десигнат и коннотат, возможна многозначность и метафоричность, что говорит об изменчивости его значения; математический знак – имя и десигнат, одно значение, метафоричность отсутствует . С позиций возможности вероятностно-статистического описания человеческого языка, автор подмечает и о возможности применения аппарата теории информации для оценки структурной организации текста и запечатленном в нём содержания .
Разработкой текстовых алгоритмов в языках программирования занимались французский и польский ученые Максим Крошмоур и Войцех Риттер. В труде «Text algorithms» авторы привнесли объем полезной информации теоретического и прикладного характера как о базовых, так и о более сложных процессах текстообразования .
2. Основные результаты
Ранее нами была изучена соотносимость двух явлений – человеческого языка и сгенерированного текста больших языковых моделей. По результатам текущего исследования мы рассмотрели оба вида дискурса с критических позиций как составляющих их единиц, так и глобальной сущности их единств.
Большая языковая модель – основанная на технологиях искусственного интеллекта модель, предварительно обученная на больших массивах языковых данных, способная понимать и генерировать данные как в виде текста, так и в виде изображений и аудио. Говоря о связности генерируемого текста, мы способны извлекать дискурс, связный как локально, так и глобально:
· локальная связность – план выражения, заключается в существовании синонимичных или допустимых в рамках глобальной связности рядов слов, имеющих свои статистически обоснованные значения вероятности подбора на каждую отдельную позицию в тексте – парадигмообразующая сторона алгоритма;
· глобальная связность – план содержания, который, как правило, соблюдается посредством функционирующего алгоритма генерации блоков слов на определённую дальность от текущего выбора слова – синтагмообразующая сторона алгоритма. Несоблюдение глобальной связности коррелирует с повышенной сложностью или запутанностью запроса, а также с локальностью спрашиваемого (отсутствие обсуждаемой информации в материале предварительной обработки).
Наличие связности дискурса большой языковой модели в рамках диалоговой коммуникации предполагает наличие прагматических установок участников и, соответственно, прагматических отношений между дискурсами и коммуникантами:
· прагматическая установка чат-бота – обучение, информирование, инструктирование, реферирование и т.д. Контекстное сообщение и тема диалога во многом определяют установку чат-бота в коммуникации. Существующий принцип многоуровневости нейросетей посредством подсистем ограничивает и практически исключает системную допустимость отрицательных прагматических установок, таких как нарочное введение в заблуждение, побуждение через манипуляцию;
· прагматическое воздействие на пользователя: подкрепление, убеждение. Говоря о таком воздействии, мы рассматриваем прагматику текста без учёта прагматических установок чат-бота. Так, можно выделить прямое воздействие убеждения, которое может быть как успешным, так и неудачным, так и непрямое – возможное подкрепление ложных взглядов пользователя при некритическом восприятии сгенерированного машиной текста.
Целесообразно и рассмотрение прагматики пользовательского запроса – способностей интерпретации и понимания чат-ботом дискурса и установок пользователя. С позиций психолингвистики, под этим имеется в виду извлечение сущности коммуникативно-познавательного намерения пользователя и восприятие иерархии содержательно-смысловых блоков запроса для последующей генерации рассудительного и соответствующего коммуникативной ситуации ответа. Современные большие языковые модели заточены на понимание контекста и способны распознавать ситуации, когда было бы прагматично использовать определённое лингвистическое выражение подходящего смыслового содержания, например, проявление эмпатии, когда чат-бот понимает намёк пользователя в нужде психологической поддержки. Однако наблюдаются сложности в непосредственной генерации собственных эмоций .
Мы выделяем следующие особенности дискурса чат-бота, касающиеся событийного аспекта коммуникации:
· установка – выполнение коммуникативных задач. Обширность возможных задач ограничена лишь воображением пользователя – от большой языковой модели, нередко осложнённой внутренними и внешними уровнями алгоритма, ожидается успешное общение, решение поставленных пользователем заданий с использованием текстовой, визуальной и аудиальной репрезентаций, в зависимости от запроса;
· коммуникация контекстно-обусловлена знаниями о последних событиях. В ранний период после выхода большой языковой модели ChatGPT 3, предварительно обработанный языковой материал был ограничен знаниями о событиях до 2021 года, однако в сфере чат-ботов наблюдается тренд на внедрение в алгоритм подсистемы, позволяющей быстро получать и учитывать актуальную информацию и новости из реального мира.
Экстралингвистические факторы речи чат-бота – условные намерения выразить определённые линии смысловой информации чередой локальных языковых выборов. Выше была описана интерпретация возможных интенций – алгоритм нацелен на выполнение задач. Более глубокое рассмотрение интенций с позиции самостоятельности личностного дискурса считается нерациональным в виду того, что большая языковая модель не жива. Также стоит подметить, что генерация текста – вычисление ответа в соответствии с контекстом, поэтому пользователю важно составить эффективное контекстное сообщение в рамках коммуникации с определённой большой языковой моделью определённой версии .
Социокультурный аспект речи чат-бота заключается в наличии огромного предварительно обработанного языкового корпуса, при этом в его материале запечатлены данные о тысячелетиях истории и о всевозможных и относительно изученных социокультурных реалиях и исторических ситуациях, дискурсы людей, идейные дискурсы, всё многообразие устоявшихся и редких употреблений в языке. Всё перечисленное учитывается в алгоритме генерации.
В вопросе языкознания о соотнесении текста и дискурса, лингвисты рассматривают письменный и завершенный характер изложения и динамику речи соответственно. В попытках применения теории текста, мы не смогли однозначно определить, с чем имеем дело, но склоняемся считать сообщения больших языковых моделей именно дискурсом. Причиной тому стали теоретические находки, объясняющие дискурс с обеих сторон – как процесс и как результат. Так, дискурс рассматривается нами как процесс, ведь в принципиальную роль в генерации играет элемент случайности, выражающийся в лингвистическом локальном выборе, например, в архитектуре предварительно обученного трансформера на каждый последующий языковой выбор предусматривается ряд слов, где каждое наделяется собственной вероятностью отбора в текст. С точки зрения дискурса как результата, нельзя не отметить относительное постоянство модели, ограничивающееся лишь контекстом, а также стиль, форму и синтаксическое оформление текста. В отличие от языка человека, такая синергия уровня спонтанности и оформления генерируемых текстов скорее ближе к текстам людей, нежели к их дискурсам, но локальный выбор также вносит неопределённые изменения в содержание конечной формы выражения, что является отчетливым маркером дискурсной динамики.
Дискурсивность сгенерированного чат-ботом текста отражается особенностями устройства алгоритма. Алгоритм как программа, совершающая статистический выбор, принципиально не отличается человека в интеллектуальном плане оригинального языкового выражения, так как гибкость алгоритма большой языковой модели учитывает лингвистические единицы вплоть до формы и смысла морфем слов. Говоря о способности генерации больших текстов, известно о возможностях машины создания оригинального контента в полном соответствии с контекстом пользовательского запроса. Также стоит помнить, что в будущем для удобства пользования будет налажена связь больших языковых моделей с ними самими на уровне подсистем для облегчения и повышения эффективности деятельности по созданию фонового контекста и информационного наполнения идейных дискурсов через полуавтономную самонастройку.
Отдельной важной темой в рассмотрении характеристики дискурсивности текста мы выделяем явления предвзятости в планах содержания, выражения, а также в факторах речи чат-бота. С нашей точки зрения, совершенно любой дискурс – это прежде всего факторы коммуникации, из этого следует предположение о том, что все языковые данные (как информация) в той или иной мере фундаментально предвзяты. Теоретически это объясняется идеей о неразрывности дискурса с его кодом, и тогда под предвзятостью понимается апроприация значений знакам кода. Мы выделяем четыре вида предвзятости.
Первый вид – предвзятость материала предварительной обработки:
· информация. Как языковой материал предобработки в большинстве случаев укрепляет предвзятость в истинных общеизвестных концептах в следствие большого объема языковых данных и известной информации, так и естественным образом происходит сведение дискурсных концептов в сторону усреднения предвзятости, что позволяет дискурсам, имеющим объективное или перцептивное интервальное описание, принимать усредненное значение в интервале предвзятости;
· поведение (глобальный уровень речи). Чат-бот подбирает стратегию по достижению успеха коммуникативных задач в соответствии с контекстом коммуникации, что говорит о черпании большой языковой модели знаний из материала предобработки – смыслы структуры (содержание);
· шаблоны (локальный уровень речи). Употребление зафиксированных в лингвистическом корпусе слов и словосочетаний, предложений, фраз, сверхфразовых единств, рубрик, как применение также известных лексических, морфологических и синтаксических структур языка – форма структуры (выражение).
Важное замечание, что, сказанное об усредненности предвзятости концептов идейных дискурсов или о любом другом случае, когда большая языковая модель якобы принимает осознанное решение, – это наша условность. Не секрет, что нейросети обладают одним серьёзным недостатком – принципом «чёрного ящика». За сгенерированным текстом лежат предшествующие математические вычисления, не поддающиеся обоснованию, поэтому даже режимы отладки в контексте больших языковых моделей считаем фундаментально недействительными на текущих архитектурах.
Если предвзятость предобработанного языкового материала может быть обусловлена вмешательством разработчика лишь частично и косвенно, то алгоритм и влияние подсистем существенным образом определены создателями модели. Применение таких механизмов зачастую имеет защитный характер, ограничивающий пользователя от сгенерированных сообщений с нежелательной или запрещённой информацией. Например, в предварительно обученных трансформерах существуют изменяемые настройки, называющиеся весами, которые затрагивают как целостное функционирование уровней нейросетей, так и влияют на выставление значений вероятности языковым локальным выборам.
Затрагивая область контекста коммуникации, мы выделяем предвзятость контекстно-обоснованную. Контекстное сообщение является основополагающим двигателем в производстве математического уклона содержания последующего ответа. Так, в диалоге с чат-ботом можно нарочно вызвать предвзятый ответ через запрос, например, просьбой повторить что-либо, также эффективны обман и прием субъектной персонификации, когда запрос требует от большой языковой модели сформировать ответ как бы от лица некоторого человека.
Источником неистинной предвзятостив речи чат-бота мы также считаем и механизм статистического локального выбора в процессе генерации в целом, ведь из ошибочного или случайного отбора языковых знаков, мы будем иметь дело с галлюцинацией или с потенциально видоизменённым первоначальным содержанием в одной из конечных форм выражения соответственно.
3. Заключение
Подводя итог исследованию, мы выделили следующие пункты алгоритма, на которые нужно обращать внимание исследователю во время проведения дискурс-анализа речи большой языковой модели:
1) предвзятость (материала предобработки, алгоритма);
2) возможность ошибки (статистический подбор может вызвать критическое нарушение в формализации содержания в выражении или вызвать галлюцинацию);
3) полный учет контекста – контекстных сообщений как предшествующих (в текущей беседе), так и прямо вызвавших ответ (ответ на последний запрос), учет материала в памяти;
4) версия программы – знание версии модели поможет понять её потенциальные слабые стороны.
Перспектива исследования заключается в применении выработанного алгоритма для исследования разнотематических сегментов большой языковой модели.