Проблема распознавания научных текстов, созданных с использованием ИИ чат-ботов в современных исследованиях

Научная статья
DOI:
https://doi.org/10.60797/RULB.2024.56.16
Выпуск: № 8 (56), 2024
Предложена:
03.07.2024
Принята:
22.07.2024
Опубликована:
09.08.2024
31
1
XML
PDF

Аннотация

Данная статья посвящена анализу публикаций, раскрывающих возрастающий вклад в тексты людей ИИ чат-ботов, которые на основе больших языковых моделей активно используются для написания и редакторский правок научных текстов, опубликованных в 2003-2004 годах и уже написали примерно 10% аннотаций научных статей. В обзоре раскрываются выявленные современными исследователями на основе различных алгоритмов стилистические особенности текстов, созданных или отредактированных ИИ чат-ботами (определенные группы прилагательных и наречий, длина параграфов и слов в предложении, особенности использования грамматических времен и залогов и некоторые другие) и описываются предложения по  поведению научного сообщества в условиях растущего использования БЯМ.

1. Введение

Понимание и использование современных чат-ботов с искусственным интеллектом может существенно повлиять на различные аспекты жизни и работы. Эти чат-боты, созданные на основе передовых технологий ИИ, таких как обработка естественного языка и машинное обучение, предлагают ряд преимуществ, которые могут повысить производительность, улучшить обслуживание клиентов и способствовать личностному развитию.

Язык отражает все изменения, происходящие в обществе, меняется словарный состав, меняется частота использования слов в корпусах текстов. Большая языковая модель (БЯМ, LLM) – языковая модель, состоящая из нейронной сети со множеством параметров, самообученная на большом количестве неразмеченного текста появилась примерно в 2018 году, но именно выпуск ChatGPT в ноябре 2022 года привел к тому, человеческое письмо претерпело значимые изменения. Впервые БЯМ, способная создавать и редактировать тексты «как человек» стала доступна большому количеству пользователей

. Появились статьи, раскрывающие положительные перспективы использования модели и других ИИ чат-ботов
, статьи, описывающие реальные результаты использования в профессиональной деятельности, например при оформлении заявок на гранты
. В других исследованиях авторы были обеспокоены проблемами честности исследований и возможных фактических ошибках в текстах, созданных моделями
, легкими способами создания публикаций-фальшивок
.

В настоящее время многие исследователи ставят перед собой задачу создания механизмов отслеживания письма с помощью ИИ чат-ботов.

Для анализа нами было отобраны доступные статьи за 2023–2024 гг., описывающие различные способы обнаружения текстов, созданных БЯМ: модели originality.ai

, дистрибуция частотности употребления
, на основе списка слов-маркеров
, излишнее словоупотребление
.

2. Основные результаты

В 2023 году появилась статья «Do Artificial Intelligence Chatbots Have a Writing Style? An Investigation into the Stylistic Features of ChatGPT-4»

описывающая стилистические особенности текстов, созданных не человеком. К ним исследователи отнесли:

– параграфы из 3-4 предложений, каждое длиной 16–19 слов;

– предложения в основном написаны в изъявительном наклонении, в простом настоящем и простом прошедшем времени, а также в два совершенных времени: настоящее совершенное для общих утверждений, почти всегда с наречием always и совершенное длительное – для описания того, что началось в прошлом того, что все еще совершается;

– используются в основном предложения действительного залога, предложения в страдательном залоге всегда безличные, подлежащее чаще всего "they";

– широкое использование аббревиатур и технических терминов без их объяснения;

– лексический состав отличается плотностью использования ключевых слов и низким разнообразием словарного состава.

3. Обсуждение

Пакистанский исследователь Арслан Акрам

во введении к работе говорит, что основной задачей после выпуска ИИ чат-ботов становится модерация содержания любого письменного произведения для удаления вредной или недостоверной информации и автоматического спама, например. Автор начинает статью с приведения данных, показывающих резкий рост статей, опубликованных на ресурсе arxiv.org в трех областях (компьютерные науки, физика, математика) и делится предположением, что это может быть связано с новыми возможностями использования ChatGPT Далее автор описывает результаты работы  системы originality.ai, версии модели BERT (Bidirectional Encoder Representations from Transformers – это языковая модель, в которой, в отличие от традиционных алгоритмов, которые проверяют последовательность слов в предложении только в одном направлении (слева направо или справа налево), анализируется всё содержимое предложения – и до, и после слова, включая предлоги и взаимосвязи между словами. По результатам работы представлены данные о росте числа публикаций, созданных ИИ, особенно в сфере компьютерных наук. При этом основная, на наш взгляд, мысль представлена в заключении статьи и состоит она в том, что такое увеличение может влиять на уникальность и достоверность исследований, поэтому стоит задача сохранения прозрачности научных результатов при увеличении риска того, что ИИ может существенно понизить творческий потенциал исследований и привести к повторению исследовательских стилей и идей.

В статье "If ChatGPT transforming Academics’ Writing Style"

авторы используют для анализа как опубликованные на ресурсе arXiv  статьи с 2019 по 2024 год, так и Google Ngram, включающий данные о частотности употребления слов. Авторы разработали формулу изменения частотности и описывают результаты анализа выявленных изменений. Авторы не только проанализировали слова с наивысшим показателем изменения частотности употребления слова, но и отредактировали контрольные тексты, созданные до внедрения ChatGPT с помощью этой БЯМ, и пришли в выводу, что около 35% проанализированных ими публикаций были созданы или отредактированы с помощью ИИ.

Эндрю Грей

в своей работе "ChatGPT “contamination”: estimating the prevalence of LLMs in the scholarly literature" также стремится дать ответ на вопрос о том, что показывает, что научные публикации были созданы или отредактированы с помощью ИИ чат-ботов. В своем исследовании как источник научных текстов он использовал Dimensions – наукометрическую поисково-аналитическую платформу, которая содержит информацию о научных публикациях, клинических исследованиях, грантах и патентах в их взаимосвязи. В статьях анализировалось изменение частотности употребления в период 2019–2023 слов, признанных «визитной карточкой» ChatGPT – 12 прилагательных, выявленных в более ранних исследованиях (commendable, innovative, meticulous, intricate, notable, versatile, noteworthy, invaluable, pivotal, potent, fresh, ingenious), а также 12 наречий, соотносящихся с прилагательными по смыслу (например, lucidly, methodically) и 12 контрольных слов (conclusion, technical, after, early). Исследования показали, что именно в 2023 году происходит значительное увеличение использований отобранных прилагательных и наречий, например, примерно на 50% возросла частотность употребления intricate, meticulously, commendable, meticulous, хотя частотность употребления других слов  увеличилась не так заметно. И это увеличение, по мнению автора, доказывает увеличение числа письменных текстов научных работ, созданных или отредактированных с помощью инструментов БЯМ. Автор видит опасность унификации результатов исследований, даже если ИИ чат-боты будут использоваться только для стилистической редактуры текстов.

Проблема распознавания сгенерированных текстов на основе выявления «излишне употребляемых слов» по разработанной авторами формуле легла в основу исследования, результаты которого описаны в статье "Delving into ChatGPT usage in academic writing through excess vocabulary"

. На основе полученных данных авторы приходят к выводу о том, что около 4% проанализированных публикаций прошли через ИИ чат-боты. Интересно, что авторы проводили анализы не только всей отобранной базы публикаций, но и по нескольким подгруппам (по странам, по области знания статей, по половой принадлежности авторов). В данной работе представлен прогноз роста подобных научных текстов и предлагается использование авторского подхода для некоторых сфер деятельности, где необходимо сдерживать такой рост.

4. Заключение

Анализ публикаций позволяет сказать, что использование ИИ чат-ботов уже представляет проблему в предоставлении научных исследований. Существуют как положительные оценки процесса и предложения использования БЯМ в некоторых сферах науки при использовании только проверенных источников и доказанных фактов, так и предложения по ограничению использования текстов, сгенерированных или отредактированных ИИ (например, некоторые издательства уже наложили ограничения на использование подобных научных текстов). Проблема использования ИИ чат-ботов в письменных научных публикациях будет требовать от научного сообщества решения в ближайшее время.

В заключение следует отметить, что научиться извлекать пользу из современных чат-ботов с искусственным интеллектом и понимать их стиль крайне важно в современную цифровую эпоху. Это не только повышает эффективность и производительность, но и открывает возможности для личностного и профессионального роста. Принятие этих технологий и их стилей может привести к более эффективному взаимодействию и конкурентному преимуществу в постоянно меняющемся мире.

Метрика статьи

Просмотров:31
Скачиваний:1
Просмотры
Всего:
Просмотров:31