Проблема распознавания научных текстов, созданных с использованием ИИ чат-ботов в современных исследованиях

Костиникова О. А.

doi:10.60797/RULB.2024.56.16

Проблема распознавания научных текстов, созданных с использованием ИИ чат-ботов в современных исследованиях

Научная статья

Костиникова О. А.

DOI:

https://doi.org/10.60797/RULB.2024.56.16

Выпуск: № 8 (56), 2024

Предложена:

03.07.2024

Принята:

22.07.2024

Опубликована:

09.08.2024

31

1

XML

PDF

Аннотация

Данная статья посвящена анализу публикаций, раскрывающих возрастающий вклад в тексты людей ИИ чат-ботов, которые на основе больших языковых моделей активно используются для написания и редакторский правок научных текстов, опубликованных в 2003-2004 годах и уже написали примерно 10% аннотаций научных статей. В обзоре раскрываются выявленные современными исследователями на основе различных алгоритмов стилистические особенности текстов, созданных или отредактированных ИИ чат-ботами (определенные группы прилагательных и наречий, длина параграфов и слов в предложении, особенности использования грамматических времен и залогов и некоторые другие) и описываются предложения по поведению научного сообщества в условиях растущего использования БЯМ.

Ключевые слова:

ИИ чат-боты, научные публикации, письменные тексты, БЯМ.

1. Введение

Понимание и использование современных чат-ботов с искусственным интеллектом может существенно повлиять на различные аспекты жизни и работы. Эти чат-боты, созданные на основе передовых технологий ИИ, таких как обработка естественного языка и машинное обучение, предлагают ряд преимуществ, которые могут повысить производительность, улучшить обслуживание клиентов и способствовать личностному развитию.

Язык отражает все изменения, происходящие в обществе, меняется словарный состав, меняется частота использования слов в корпусах текстов. Большая языковая модель (БЯМ, LLM) – языковая модель, состоящая из нейронной сети со множеством параметров, самообученная на большом количестве неразмеченного текста появилась примерно в 2018 году, но именно выпуск ChatGPT в ноябре 2022 года привел к тому, человеческое письмо претерпело значимые изменения. Впервые БЯМ, способная создавать и редактировать тексты «как человек» стала доступна большому количеству пользователей

. Появились статьи, раскрывающие положительные перспективы использования модели и других ИИ чат-ботов , статьи, описывающие реальные результаты использования в профессиональной деятельности, например при оформлении заявок на гранты . В других исследованиях авторы были обеспокоены проблемами честности исследований и возможных фактических ошибках в текстах, созданных моделями , легкими способами создания публикаций-фальшивок .

В настоящее время многие исследователи ставят перед собой задачу создания механизмов отслеживания письма с помощью ИИ чат-ботов.

Для анализа нами было отобраны доступные статьи за 2023–2024 гг., описывающие различные способы обнаружения текстов, созданных БЯМ: модели originality.ai

, дистрибуция частотности употребления , на основе списка слов-маркеров , излишнее словоупотребление .

2. Основные результаты

В 2023 году появилась статья «Do Artificial Intelligence Chatbots Have a Writing Style? An Investigation into the Stylistic Features of ChatGPT-4»

описывающая стилистические особенности текстов, созданных не человеком. К ним исследователи отнесли:

– параграфы из 3-4 предложений, каждое длиной 16–19 слов;

– предложения в основном написаны в изъявительном наклонении, в простом настоящем и простом прошедшем времени, а также в два совершенных времени: настоящее совершенное для общих утверждений, почти всегда с наречием always и совершенное длительное – для описания того, что началось в прошлом того, что все еще совершается;

– используются в основном предложения действительного залога, предложения в страдательном залоге всегда безличные, подлежащее чаще всего "they";

– широкое использование аббревиатур и технических терминов без их объяснения;

– лексический состав отличается плотностью использования ключевых слов и низким разнообразием словарного состава.

3. Обсуждение

Пакистанский исследователь Арслан Акрам

во введении к работе говорит, что основной задачей после выпуска ИИ чат-ботов становится модерация содержания любого письменного произведения для удаления вредной или недостоверной информации и автоматического спама, например. Автор начинает статью с приведения данных, показывающих резкий рост статей, опубликованных на ресурсе arxiv.org в трех областях (компьютерные науки, физика, математика) и делится предположением, что это может быть связано с новыми возможностями использования ChatGPT Далее автор описывает результаты работы системы originality.ai, версии модели BERT (Bidirectional Encoder Representations from Transformers – это языковая модель, в которой, в отличие от традиционных алгоритмов, которые проверяют последовательность слов в предложении только в одном направлении (слева направо или справа налево), анализируется всё содержимое предложения – и до, и после слова, включая предлоги и взаимосвязи между словами. По результатам работы представлены данные о росте числа публикаций, созданных ИИ, особенно в сфере компьютерных наук. При этом основная, на наш взгляд, мысль представлена в заключении статьи и состоит она в том, что такое увеличение может влиять на уникальность и достоверность исследований, поэтому стоит задача сохранения прозрачности научных результатов при увеличении риска того, что ИИ может существенно понизить творческий потенциал исследований и привести к повторению исследовательских стилей и идей.

В статье "If ChatGPT transforming Academics’ Writing Style"

авторы используют для анализа как опубликованные на ресурсе arXiv статьи с 2019 по 2024 год, так и Google Ngram, включающий данные о частотности употребления слов. Авторы разработали формулу изменения частотности и описывают результаты анализа выявленных изменений. Авторы не только проанализировали слова с наивысшим показателем изменения частотности употребления слова, но и отредактировали контрольные тексты, созданные до внедрения ChatGPT с помощью этой БЯМ, и пришли в выводу, что около 35% проанализированных ими публикаций были созданы или отредактированы с помощью ИИ.

Эндрю Грей

в своей работе "ChatGPT “contamination”: estimating the prevalence of LLMs in the scholarly literature" также стремится дать ответ на вопрос о том, что показывает, что научные публикации были созданы или отредактированы с помощью ИИ чат-ботов. В своем исследовании как источник научных текстов он использовал Dimensions – наукометрическую поисково-аналитическую платформу, которая содержит информацию о научных публикациях, клинических исследованиях, грантах и патентах в их взаимосвязи. В статьях анализировалось изменение частотности употребления в период 2019–2023 слов, признанных «визитной карточкой» ChatGPT – 12 прилагательных, выявленных в более ранних исследованиях (commendable, innovative, meticulous, intricate, notable, versatile, noteworthy, invaluable, pivotal, potent, fresh, ingenious), а также 12 наречий, соотносящихся с прилагательными по смыслу (например, lucidly, methodically) и 12 контрольных слов (conclusion, technical, after, early). Исследования показали, что именно в 2023 году происходит значительное увеличение использований отобранных прилагательных и наречий, например, примерно на 50% возросла частотность употребления intricate, meticulously, commendable, meticulous, хотя частотность употребления других слов увеличилась не так заметно. И это увеличение, по мнению автора, доказывает увеличение числа письменных текстов научных работ, созданных или отредактированных с помощью инструментов БЯМ. Автор видит опасность унификации результатов исследований, даже если ИИ чат-боты будут использоваться только для стилистической редактуры текстов.

Проблема распознавания сгенерированных текстов на основе выявления «излишне употребляемых слов» по разработанной авторами формуле легла в основу исследования, результаты которого описаны в статье "Delving into ChatGPT usage in academic writing through excess vocabulary"

. На основе полученных данных авторы приходят к выводу о том, что около 4% проанализированных публикаций прошли через ИИ чат-боты. Интересно, что авторы проводили анализы не только всей отобранной базы публикаций, но и по нескольким подгруппам (по странам, по области знания статей, по половой принадлежности авторов). В данной работе представлен прогноз роста подобных научных текстов и предлагается использование авторского подхода для некоторых сфер деятельности, где необходимо сдерживать такой рост.

4. Заключение

Анализ публикаций позволяет сказать, что использование ИИ чат-ботов уже представляет проблему в предоставлении научных исследований. Существуют как положительные оценки процесса и предложения использования БЯМ в некоторых сферах науки при использовании только проверенных источников и доказанных фактов, так и предложения по ограничению использования текстов, сгенерированных или отредактированных ИИ (например, некоторые издательства уже наложили ограничения на использование подобных научных текстов). Проблема использования ИИ чат-ботов в письменных научных публикациях будет требовать от научного сообщества решения в ближайшее время.

В заключение следует отметить, что научиться извлекать пользу из современных чат-ботов с искусственным интеллектом и понимать их стиль крайне важно в современную цифровую эпоху. Это не только повышает эффективность и производительность, но и открывает возможности для личностного и профессионального роста. Принятие этих технологий и их стилей может привести к более эффективному взаимодействию и конкурентному преимуществу в постоянно меняющемся мире.

Дополнительные материалы

Не указаны

Финансирование

Авторы не получали финансовой поддержки для проведения исследования, написания и публикации статьи

Благодарности

Не указаны

Конфликт интересов

Не указаны

Список литературы

Akram A. Quantitative Analysis of AI-Generated Texts in Academic Research: A Study of AI Presence in Arxiv Submissions using AI Detection Tool / A. Akram // Astrophysics of Galaxies. — URL: https://arxiv.org/abs/2403.12683 (accessed: 12.02.2024).
AlAfnan M. A. Do artificial intelligence chatbots have a writing style? An investigation into the stylistic features of ChatGPT-4 / M. A. AlAfnan, S. F. MohdZuki // Journal of Artificial intelligence and technology. — 2023. — № 3(3). — P. 85–94. DOI: 10.37965/jait.2023.0267
Berdejo-Espinola V. AI tools can improve equity in science / V. Berdejo-Espinola, T. Amano // Science. — 2023. — № 379(6636). — P. 991–991. DOI: 10.1126/science.adg9714
Geng M. If ChatGPT transforming Academics’ Writing Style / M. Geng, R. Trotta // Computation and Language. — URL: https://arxiv.org/abs/2404.08627 (accessed: 12.04.2024).
Gray A. ChatGPT “contamination”: estimating the prevalence of LLMs in the scholarly literature / A. Gray // Digital Libraries. — URL: https://arxiv.org/abs/2403.16887 (accessed: 25.03.2024).
Kendall G. Risks of abuse of large language models, like ChatGPT, in scientific publishing: Authorship, predatory publishing, and paper mills / G. Kendall, J. A. Teixeria da Silva // Learned Publishing. — 2024. — № 37(1). — P. 55–62. DOI: 10.1002/leap.1578
Kobak D. Delving into ChatGPT usage in academic writing through excess vocabulary / D. Kobak, R. Gonzalez-Marquez, E-A. Horvat et al. // Computation and Language. — URL: https://arxiv.org/abs/2406.07016v1 (accessed: 03.07.2024).
Weixin L. Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews / L. Weixin et al. // Computation and Language. — URL: https://arxiv.org/abs/2403.07183 (accessed: 03.06.2024).
Navigli R. Biases in large language models: origins, inventory, and discussion / R. Navigli, S. Simone, B. Ross // ACM Journal of Data and Information Quality. — 2023. — № 15(2). — P. 1–21. DOI: 10.1145/3597307
Zheng H. ChatGPT in scientific writing: a cautionary tale / H. Zheng, H. Zhan // The American Journal of Medicine. — 2023. — № 136(8). — P. 725–726. DOI: 10.1016/j.amjmed.2023.02.011

Рецензия

Все статьи проходят рецензирование. Но рецензент или автор статьи предпочли не публиковать рецензию к этой статье в открытом доступе. Рецензия может быть предоставлена компетентным органам по запросу.

Информация об авторах

Аффилиация:Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации, Санкт-Петербург, Российская Федерация

Роль:Автор

Метрика статьи

Скачиваний:1

ПросмотрыСкачивания

Просмотры

Всего: