The use of neural networks to distinguish homonymy and polysemy on the example of the neural network "Shedevrum"
The use of neural networks to distinguish homonymy and polysemy on the example of the neural network "Shedevrum"
Abstract
The "Shedevrum" neural network is an innovative tool developed to solve a complex linguistic problem – distinguishing between homonymy and polysemy. Homonymy and polysemy are phenomena in which the same word-form has multiple meanings, which can be misleading for both readers and artificial intelligence systems. The article discusses the application of neural networks to solve this problem using the example of "Shedevrum".
The article discusses in detail the process of neural network training and operation, and provides practical examples of its application. It is shown how "Shedevrum" can help in distinguishing homonymy and polysemy, increase the accuracy of natural language understanding by AI systems and improve natural language processing in various applications.
1. Введение
Омонимия и полисемия являются ключевыми понятиями в лингвистике, отражающими разнообразие языковых значений. Омонимия возникает, когда два или более слов совпадают по форме, но имеют различные, не связанные между собой значения . Это совпадение может быть как результатом исторического развития языка, так и случайным совпадением. Важно понимать различие между человеческим восприятием омонимии и машинным анализом текстов. Человек воспринимает омонимию на уровне звука, различая ее на основе контекста и знаний о языке, тогда как нейросети работают с написанным текстом, для которого первична буква, а не звук.
2. Методы и принципы исследования
Нами предпринят опыт использования нейросетей для разграничения омонимии и полисемии, основанный на гипотезе о более четкой внутриязыковой дифференциации омонимов по сравнению с полисемантантами по причине большей контекстуально-валентностнойобособленности омонимов по отношению друг к другу. В связи с этим точность интерпретации нейросетью контекстов, использующих разные лексико-семантические варианты одной лексемы, должна быть ниже, чем точность интерпретации контекстов употребления омонимов.
Инструментом проведения эксперимента выступила нейросеть «Шедеврум» (Версия 9.4.) – проект, сервис и приложение компании «Яндекс», с помощью которого пользователи могут генерировать изображения по текстовому описанию.
Методом исследования стали подача и анализ результатов запроса. В качестве запроса выступал узкий контекст использования лексико-семантического варианта слова. По результатам генерации изображение оценивалось на предмет точности интерпретации нейросетью значения. Так, в случае если генерируемая картинка показывала соответствие лексико-семантическому варианту, засчитывалась точность, в случае несоответствия – засчитывалась неточность.
Анализ слова различных контекстов употребления слова «лист» показал, что нейросеть успешно разделяет значения слова в разных значениях, таких как часть растения и лист бумаги.
3. Основные результаты
Рисунок 1 - Результат обработки запроса «порвать лист» нейросетью
Рисунок 2 - Результат обработки запроса «Дорожный каток» нейросетью
Рисунок 3 - Результат обработки запроса «Каток укладывал последние метры дороги» нейросетью
Рисунок 4 - Результат обработки запроса «Во дворе устроен ледовый каток» нейросетью
Рисунок 5 - Результат обработки запроса «расправить лист фольги» нейросетью.
Следующий запрос «расправить лист фольги» представлял собой репрезентацию лексемы в значении «тонкий, широкий пласт материала».
Как можно отметить исходя из результата генерации, нейросеть распознала лексему точно, на изображении мы видим лист фольги.
Мы повторили эксперимент с примерами употребления слова «лист» в различных толкованиях 20 раз. В числе запросов: «порвать лист»; «расправить лист фольги»; «широкий лист»; «завяли листья»; «жгучий лист»; «шумят листья»; «стальной лист»; «вырвать лист»; «перевернуть лист»; «газетный лист»; «титульный лист»; «печатный лист»; «авторский лист»; «похвальный лист»; «подписной лист»; «обходной лист»; «опросный лист»; «лист картона»; «виноградный лист»; «наградный лист».
Точность распознавания нейросетью значения составила 5 верных интерпретаций к 15 неверным. Однако стоит отметить, что нейросеть генерировала точные запросы только в случае наличия контекста и дополнительных сведений. Например, словосочетания «виноградный лист»; «расправить лист фольги»; «стальной лист»; «завяли листья» и «газетный лист» были истолкованы правильно.
Верность интерпретации составляет 25%, ошибочность – 75%. Низкая точность интерпретации различных контекстов употребления лексемы «лист» указывает на тесную связь между лексико-семантическими вариантами слова, характерную для полисемии. Значения слова выходят из одной семантической основы, что создает трудности их распознания нейросетью.
Пример 2. Мы подавали текстовый запрос с лексемой «каток»: В исследовании были использованы следующие примеры: «Во дворе устроен ледовый каток»; «Каток укладывал последние метры дороги»; «Дорожный каток»; «Пойти на каток»; «Каток с искусственным покрытием»; «Катки раскатывают асфальт»; «Городской каток»; «Детский каток»; «Полевой каток»; «Навесной каток»; «Прицепной каток»; «Чистить каток»; «Каток на реке»; «Олимпийский каток»; «Из-под катков шел дым»; «Заливать каток»; «Конькобежный каток»; «Новогодний каток»; «Каток под открытым небом»; «Спортивный каток».
«Во дворе устроен ледовый каток». Результат нейросети: Нейросеть распознала «каток» как место для катания на коньках.
Текстовый запрос: «Каток укладывал последние метры дороги». Результат нейросети: Нейросеть определила «каток» как машину для уплотнения поверхности.
Мы повторили запрос с лексемой «каток» 20 раз и анализировали результаты.
Точные результаты были даны нейросетью в следующих случаях: «Во дворе устроен ледовый каток»; «Каток укладывал последние метры дороги»; «Катки раскатывают асфальт»; «Детский каток»; «Олимпийский каток»; «Конькобежный каток»; «Новогодний каток»; «Каток под открытым небом»; «Спортивный каток».
В 9 случаях «Шедеврум» показал точность распознавания, в 11 случаях распознавание было ошибочным. Так, при подаче запроса «дорожный каток»нейросеть идентифицировала каток как ледовую поверхность.
Так, точность интерпретации полисемии нейросетью составила 45%, в то время как 55% истолкованы были ошибочно, что также позволяет говорить о тесной переплетенностью значений слова, обусловленной полисемией.
При анализе полисемии слова «лист», когда значения слова тесно связаны и выходят из одной семантической основы, такие как разные типы листьев (лист растения и лист как материал), нейросеть демонстрирует более низкую точность. Это связано с тонкими семантическими нюансами, которые сложнее распознать, особенно когда дело доходит до методов подбора синонимов и перевода.
Анализ слова «каток» в контексте омонимии показал, что нейросеть успешно различает значения слова в разных контекстах, таких как каток для катания на коньках и каток для разглаживания поверхности. Ошибки здесь также оказались не весомыми, что указывает на высокую способность нейросети к различению омонимов, когда контексты значений слова сильно отличаются.
4. Обсуждение
Согласно одной из точек зрения омографы (слова, совпадающие в написании, но произносимые по-разному) относятся не к строгой омонимии, а к смежным явлениям. В лингвистике это разделение особенно важно, так как омографы считаются случайностью орфографии и не относятся к омонимам в узком смысле. Омофоны (слова, совпадающие в звучании, но различающиеся в написании), напротив, включаются в категорию омонимов, поскольку язык в первую очередь связан со звуком. Таким образом, для нейросетей, воспринимающих текст на основе буквенных символов, омографы могут восприниматься как омонимы, что создает дополнительные трудности при их интерпретации.
Это различие в восприятии и обработке омонимии и омографов между человеком и машиной подчеркивает сложности, с которыми сталкиваются нейросети при анализе текстов на русском языке и необходимость учета этих аспектов при разработке и тренировке алгоритмов машинного обучения.
В словарях полисемия обычно представляется в одной статье с перечислением всех значений, в то время как омонимы описаны отдельно, чтобы подчеркнуть их независимость друг от друга.
Полисемия, напротив, относится к словам, которые имеют несколько связанных значений, восходящих к инвариантному. Эти значения образуют семантическую сеть, где новый лексико-семантический вариант связан с первоначальным через общие характеристики или ассоциации .
В качестве примера рассмотрим слово «стопа» исходя из определения словаря С. А. Кузнецова: «1. Нижняя часть ноги, от щиколотки вниз, служащая опорным и пружинящим органом при стоянии, ходьбе, беге и прыжках. 2. Шаги, поступь. 3. Повторяющаяся ритмическая единица стиха, состоящая из определённого количества слогов. 4. Ряд одинаковых по размеру, ровных предметов, наложенных один на другой. 5. Единица счёта писчей бумаги, равная 1000 листов (до введения метрической системы мер равнялась 480 листам)» . Все эти значения связаны общей идеей меры или предела.
Разграничение между омонимией и полисемией часто обсуждается в научных кругах, поскольку оно затрагивает основы семантической структуры языка . Полисемию рассматривают как результат метафорических и метонимических процессов, создающих новые значения в пределах одной лексемы. Омонимию считают более «четким» и «чистым» случаем разделения значений, где нет никакой семантической связи между различными значениями слова .
Язык обладает способностью с помощью ограниченного набора форм передавать бесконечное множество содержаний . Это становится возможным благодаря асимметрии языкового знака, обусловливающей полисемию и омонимию, которые позволяют одному слову иметь множество значений или разные слова звучать и выглядеть одинаково, но иметь различные значения. Полисемия и омонимия играют важную роль в обогащении языка, однако они также могут создавать сложности при интерпретации текстов .
Полисемия может проявляться в различных формах. Например, монополярная полисемия характеризуется тем, что несколько значений слова вытекают из одной семантической основы, как в случае со словом «стекло», которое может означать материал или емкость. Полюсная полисемия же связывает значения слова вокруг одной центральной идеи, но эти значения могут быть существенно различными, как у слова «банк», которое может обозначать финансовое учреждение или контейнер для хранения продуктов. Вместе с тем различные значения слов «лист» и «каток», фиксирующиеся в толковых словарях, представляют собой спорный случай разграничения омонимии и полисемии. Различие в трактовке омонимии и полисемии особенно критично при обработке текстов, где нейросети должны точно определять, к какой категории относится каждое слово в контексте, что требует учета тонкостей семантики.
В подходах к интерпретации значений слова «лист» существуют различия среди авторов академических толковых словарей современного русского литературного языка. В словаре Ожегова можно встретить следующие толкования: «ЛИСТ1. Орган воздушного питания, газообмена и фотосинтеза растений в виде тонкой, обычно зелёной пластинки. Овальный, округлый, игловидный, стреловидный, чешуйчатый л. Простой л. (с одной пластинкой). Сложный л. (с несколькими пластинками). Сидячий л. (без черешка). Осенние листья (пожелтевшие). Капустный л. (на кочане). Как осиновый л. дрожит кто-н. (мелко и часто, обычно в сильном испуге, страхе). | уменьш. листок, тка, м. и листик, а, м. | прил. листовой, ая, ое и (спец.) лиственный, ая, ое», а также: «ЛИСТ2. 1. Тонкий плоский кусок, пласт какого-н. материала. Л. бумаги. Л. железа. 2. Единица измерения печатного текста (спец.). Печатный л. (оттиск на одной стороне бумажного листа форматом 60 х 90 см). Авторский л. (текст в 40 000 печатных знаков). 3. Документ, удостоверяющий какое-н. право или содержащий какиен. предписания. Похвальный л. (похвальная грамота за отличные успехи и поведение; устар.). Опросный л.» .
Тем не менее словарь Кузнецова интерпретирует «лист» как пример полисемии: «ЛИСТ 1. Орган воздушного питания и газообмена у растений, имеющий обычно вид тонкой зелёной пластинки какой-л. формы, определенной для каждого растения, на черенке прикреплённой к его стеблю или ветке. 2. Тонкий, широкий кусок, пласт какого-л. материала. Л. бумаги. Расправить л. фольги. Покрыть крышу оцинкованными листами железа» 3.Единица измерения, применяемая в издательском и полиграфическом деле, разного характера в зависимости от того, что измеряется. Авторский л. (40 000 печатных знаков авторского текста как единица для исчисления авторского гонорара). 4. Документ, удостоверяющий что-л. или содержащий какое-л. предписание. Похвальный. л.» .
Это отражает общую проблему в лексикографии, где составители нормативных академических словарей не смогли прийти к единому мнению относительно классификации многозначных слов.
Согласно А.Н. Тихонову, «даже в специальных работах в разграничении омонимов часто царит полный произвол» . Различные подходы к классификации слова «лист» в словарях Ожегова и Кузнецова подчеркивают сложность работы русскоязычных нейросетей с языковыми данными, где необходимо учитывать не только словесные формы, но и их семантические отношения и контекстуальное значение. Полисемия и омонимия являются важным проявлением категориальных отношений в лексике, которые требуют внимательного рассмотрения при анализе и интерпретации текстов. Понимание этих явлений имеет решающее значение для лингвистов, переводчиков, писателей и всех, кто работает с языком на профессиональном уровне.
Современные технологии, такие как нейросети, открывают новые возможности для исследования этих языковых явлений. С помощью искусственного интеллекта мы можем анализировать большие объемы текстов и выявлять закономерности в функционировании омонимов и полисемичных слов, что позволяет улучшить наше понимание языковой картины мира. Нейросети достигли такого уровня развития, что мы можем говорить не только о том, как обучаем нейросети пониманию значений слов, но и о том, как они могут обучать нас. Нейросети могут помочь лексикографам выявлять неточности в толкованиях слов. Таким образом, искусственный интеллект можно использовать в русле поиска решений лексикографических проблем. Это открывает возможности для создания более точных и информативных словарных статей, которые будут лучше отражать сложность и многообразие языка. Кроме того, нейросети могут быть использованы в методике преподавания для обучения новых поколений лингвистов и лексикографов, предоставляя педагогам инструменты для более глубокого анализа языковых данных.
5. Заключение
На основании исследования мы можем предложить нейросетевой критерий разграничения омонимии и полисемии, который основывается на данном эксперименте, в дополнение к традиционно использующимся семантическом, контекстном, словообразовательном и переводческом критериям, а также методу подбора синонимов.
Предложенный подход требует дальнейших исследований с целью усовершенствования дизайна эксперимента, сбора дополнительных данных о дифференциации контекстов употребления омонимов и полисемантовнейросетями и установлением более точных критериев разграничения омонимии и полисемии на основании большего объема статистических данных.
Нейросети обладают значительным потенциалом в анализе многозначных слов и могут служить мощным инструментом в области обработки естественного языка. Однако текущий уровень их развития показывает, что они все еще допускают ошибки при разграничении омонимии и полисемии, что, с одной стороны, требует дополнительных усилий для улучшения их точности, с другой стороны позволяет использовать их несовершенства для решения теоретических и практических лингвистических задач.