A STUDY OF WORD MEANING IN INDIVIDUAL LINGUISTIC CONSCIOUSNESS USING THE METHOD OF SEMANTIC PROJECTION

Research article
DOI:
https://doi.org/10.18454/RULB.2023.48.50
Issue: № 12 (48), 2023
Suggested:
04.12.2023
Accepted:
06.12.2023
Published:
08.12.2023
971
20
XML
PDF

Abstract

The article presents the results of an experiment aimed at studying the influence of the respondent's emotional state and their stable psychological characteristics on the basic characteristics of word meaning measured on semantic differential scales using mixed linear models. The word scores on the semantic differential scales were first obtained automatically, using the method of semantic projection of the vectors of words included in the associative series in the pre-trained word2vec semantic model. Thus, for each associative series for the stimuli – the most frequent words of the Russian language – numerical values reflecting the position of the stimulus words on the scales of the semantic differential were obtained; the respondents' characteristics acted as fixed effects, "stimulus" and "respondent" as random effects. It was shown that different characteristics of respondents were associated with the similarly obtained evaluation of words on different scales of the semantic differential, and the promising potential of the proposed method was demonstrated both for interpreting the results of the associative experiment and for developing automated techniques for assessing the emotional state and psychological profiling of respondents.

1. Введение

Проблема разграничения значения и смысла слова является одной из ключевых в семасиологических исследованиях. Известный отечественный психолог Л.С. Выготский указывал, что значение – это объективно сложившаяся в процессе истории система связей, стоящая за словом, одинаковая для всех людей. Значения слов фиксируют толковые словари. Смыслом Л.С. Выготский называл индивидуальное значение слова

. Попытки исследовать смысл слова, то есть его значение в индивидуальном языковом сознании, неоднократно предпринимались лингвистами и психологами, при этом для описания различий в смыслах предлагались различные классификации базовых аспектов значения.

Одна из таких классификаций была предложена в работе 

 и стала известна в дальнейшем как семантический дифференциал Ч. Осгуда. В названной работе описываются результаты эксперимента, в котором испытуемым предлагалось оценить стимулы по нескольким десяткам антонимичных шкал (“dirty/clean,” “good/bad,” “big/small” и т.п.), затем полученные оценки были подвергнуты факторному анализу для выявления системных различий в индивидуальных значениях стимулов. Было установлено, что малое число факторов объясняют большой процент вариации в оценках стимулов. Это три ортогональных (то есть не зависящих друг от друга) фактора: оценки, силы, активности, при этом фактор оценки является ведущим. Полученный результат свидетельствовал о перспективности рассмотрения семантики слова как многомерного пространства, в котором семантические различия слов преимущественно определяются различиями по аффективным измерениям. 

Интенсивность применения семантического дифференциала как инструмента лингвистических изысканий в последние годы снизилась, хотя он активно используется, к примеру, в маркетинговых исследованиях 

. Однако в области изучения семантики идея об описании значения слова как многомерного пространства с интерпретируемыми измерениями является активно разрабатываемой, чему способствовало бурное развитие компьютерных моделей семантики, основанных на векторном представлении значения слова 
. Основываясь на данных о совместной встречаемости слов в многомиллионных корпусах текстов, подобные алгоритмы представляют значение слова в виде вектора в многомерном пространстве, где близость между векторами увеличивается с увеличением вероятности совместной встречаемости соответствующих слов. Получившееся в результате векторное пространство называется эмбеддингами слов или дистрибутивной семантической моделью (далее также – ДСМ) 
.

Исследователи предпринимают попытки выявить универсальные семантические измерения (то есть пригодные для описания любых слов) путем понижения размерности дистрибутивных семантических моделей и интерпретации получившихся в результате таких трансформаций компонент (см., например, 

). В указанной работе было установлено, что, как и респонденты в экспериментах Ч. Осгуда, дистрибутивные семантические модели преимущественно опираются на аффективные измерения  значения слова, традиционно выделяемые в зарубежной семасиологии
: оценка (valence или pleasantness – позитивная  или негативная оценка и связанное с этим состояние удовольствия (или неудовольствия), фактор, близкий к фактору «Оценка» в экспериментах Ч. Осгуда), возбуждение (arousal; интенсивность эмоции, вызванной стимулом; аналог фактора «Сила»), и доминантность (dominance; степень контроля, проявляемая стимулом; фактор «Активность») (то есть, к примеру, слова с векторами, близкими к словам с негативной оценкой, также с высокой вероятностью будут иметь негативные оценки).

Основываясь на подобных результатах, исследователи показали, что ДСМ могут быть использованы для получения оценок по различным психолингвистическим параметрам (например, субъективная частот встречаемости слова

, образность
), если для обучения моделей в наличии имеется размеченный вручную датасет для нескольких сотен слов.

Техникой, которая позволяет получить основанные на эмбеддингах оценки слова по шкалам семантического дифференциала (это могут быть любые антонимические пары), является техника семантической проекции. Семантическая проекция – метод сравнения векторов слов по какому-либо признаку. Например, если мы хотим сравнить животных по признаку «размер», мы строим шкалу, то есть прямую линию в векторном пространстве, по которой мы можем ранжировать животных в зависимости от размера.

Эта шкала строится на основании простых эвристик. Мы проводим линию между антонимами (например, «большой/маленький»), что соответствует операции вычитания векторов.  Затем, путем проекции векторов слов, обозначающих животных, на эту линию мы можем определить их размер относительно друг друга. Подобный метод был использован, например, в работе

, в которой было продемонстрировано, что с его помощью можно автоматически извлечь из ДСМ близкие к экспертным оценкам объектов и предметов по множеству свойств. Указанная работа показала, что  «геометрия эмбеддингов» отражает организацию ментального лексикона.

В названной работе семантическая проекция была применена к отдельным словам. Авторы работ

,
модифицровали метод семантической проекции, сделав возможным его применение по отношению к текстам. 

В нашей работе мы впервые демонстрируем возможность применения метода семантической проекции для получения оценок по шкалам семантического дифференциала элементов ассоциативного ряда с целью дальнейшего исследования влияния индивидуальных характеристик респондентов на полученные оценки. 

2. Материал и методы исследования

Материалом нашего исследования выступил собранный нами датасет ассоциаций к 50 самым частотным словам русского языка. Датасет содержит, помимо индивидуальных ассоциативных рядов, данные об эмоциональном состоянии респондентов и их устойчивых психологических характеристиках, входящих в «Большую пятерку» (подробнее о датасете см.:

).

Для данного эксперимента нами были отобраны ассоциативные ряды (n= 2088) с одинаковым числом элементов (5).

Результаты тестов, оценивающих эмоциональное состояние и психологические характеристики респондентов, были преобразованы в факторы: данные об эмоциональном состоянии кодировались как бинарная переменная, данные о чертах «большой пятерки» – как фактор с тремя уровнями (высокий, средний, низкий). 

Для вычисления оценок по шкалам семантического дифференциала была использована предобученная на корпусах НКРЯ и Википедии за ноябрь 2021 года модель ruwikiruscorpora_upos_cbow_300_10_2021 (https://rusvectores.org/ru/models/).

В качестве шкал семантического дифференциала (далее также – СД) нами были использованы прототипические названия шкал из работы Ч. Осгуда, отражающие три выделенные в ней ортогональных фактора: 

1) оценки (нами была использована антонимическая пара «хороший – плохой», отражающая оценку в общем виде, а также шкала «приятный – неприятный».);

2) силы («сильный – слабый»), 

3) активности («активный – пассивный»). 

Отметим, что исследователи выделяют разное число шкал семантического дифференциала

, однако в нашей работе мы ограничились «классическими» шкалами, отражающими выделенные в эксперименте Ч. Осгуда ортогональные факторы.

Для получения оценок по названным шкалам мы использовали библиотеку на языке Rtext2map.

Для оценки влияния характеристик автора мы использовали смешанные линейные модели (использовалась библиотека lme4). Было проведено две серии экспериментов: в первой серии в качестве фиксированных эффектов выступали эмоциональные состояния респондента, во второй – психологические характеристики. В качестве случайных эффектов в обеих сериях экспериментов выступали «респондент» и «стимул». 

Фиксированные эффекты отражают эффекты, которые должны воспроизводиться в других экспериментах для других респондентов и стимулов. Случайные эффекты отражают, насколько тренды, отраженные в фиксированных эффектах, варьируют по уровням какого-либо группирующего фактора (н-р, по респондентам/стимулам). Они включаются в модель для того, чтобы учесть, что поведение отдельного респондента/стимула может отличаться от общего тренда

В нашем эксперименте респонденты и стимулы были выбраны как случайные эффекты, поскольку мы случайно отобрали их из генеральной совокупности и хотим учесть возможное варьирование внутри этих факторов.

Для того чтобы оценить влияние интересующих нас переменных (фиксированные эффекты) на зависимую переменную (оценку по шкалам СД), мы использовали стандартный метод сравнения модели без фиксированных эффектов с моделью с фиксированными эффектами при помощи теста LLR

. Малые значения  p  указывают на то, что модель с фиксированными эффектами лучше соответствует данным. 

Поскольку у нас в модели присутствует несколько фиксированных эффектов, мы должны выделить те из них, которые действительно являются значимыми. Для оценки значимости эффектов мы опирались на значение p, полученное с использованием аппроксимации Satterthwaite

(реализация в библиотеке jtools).

3. Основные результаты и обсуждение

Начнем со сравнения близких в смысловом отношении шкал – «хороший/плохой» и «приятный/неприятный», которые отражают семантическое измерение «оценка».

Слова с наиболее высокими показателями по шкале «хороший/плохой» (здесь и далее таковым эмпирически выбрано значение от 0,4 и выше) – бабушка, дерево, дорогой, душа, лес, мама, настоящий, радость, семья, счастье.

Слова с наиболее низкими показателями по шкале «хороший/плохой» (здесь и далее низкими считаем значения от -1 и ниже): враг, глупый, ненавидеть, обман, плохо, смерть.

Отметим, что при построении модели, в которой тип стимула выступает как фиксированный эффект, только 20 значений этого фактора (то есть 20 разных слов-стимулов) значимо отличаются друг от друга.

Слова с наиболее высокими показателями по шкале «приятный/неприятный»: бабушка, глаз, дерево, добро, дом, друг, душа, лес, мама, настоящий, простой, радость, русский, семья, счастье.

Слова с наиболее низкими показателями по шкале «приятный/неприятный»: враг, глупый, ненавидеть, обман, смерть. 

В модели, где тип стимула выступает как фиксированный эффект, практически все (за исключением 4-х) стимулы отличаются друг от друга по значениям на данной шкале. 

Как показывают приведенные результаты, несмотря на то что названные шкалы отражают во многом близкие значения (на что указывает пересечение в словах с наиболее высокими и низкими значениями), исследуемые шкалы не являются полностью идентичными: по-видимому, степень выраженности измерения «приятный/неприятный» в ДСМ выше, на что указывает то, что практически все исследованные стимулы отличаются друг от друга по данному признаку. Отметим также более высокие средние значения стимулов по данному измерению («все хорошее также и приятно, но не все приятное хорошее»).

Что касается влияния психологических характеристик респондентов на оценки стимулов, то мы не обнаружили его ни для шкалы «хороший/плохой» (р=0.1751), ни для шкалы «приятный/неприятный» (р=0.1111), тогда как эмоциональное состояние респонлентов оказывает влияние на оценки стимулов по обеим шкалам (р=1.007e-08, Chisq = 45.779, Df = 5; р = 0.00316, Chisq = 17.836 Df = 5, соответственно).

В частности, по шкале «хороший/плохой» выявлены отличия (р=0,03) у респондентов с разными уровнями выраженности эмоции удивления: у лиц с более низкими значениями по данному показателю ассоциативные ряды характеризовались более высокими оценками (в среднем на 0.14) на исследуемой шкале. 

Низкий уровень страха (р=0.04) и интереса (р=0.03) связан с более низкими в среднем оценками по шкале «приятный/неприятный» (-0.17 и -0.15 соответственно).

Таким образом, если общее направление связи между автоматическими оценками стимулов по шкалам «хороший/плохой» и «приятный/неприятный» оказывается близким (имеется связь с эмоциональными состояниями, а не психологическими характеристиками респондентов), то в группах исследуемых признаков  обнаруживаются различия в части связи со шкалами.

Слова с наиболее высокими значениями по шкале «сильный/слабый»: враг, встретить, лес, любить, мир, ненавидеть, огонь, радость, русский, с низкими: делать, думать, много, смысл, учиться

Была обнаружена связь психологических характеристик респондентов и автоматических оценок продуцированных ими ассоциативных рядов по данной шкале (р=0.04627, Chisq = 18.557,  Df=10), в частности, было обнаружено влияние характеристики «Открытость опыту»: ассоциаты лиц с низким и  средним (р< 0.001) уровнями выраженности этой черты характеризуются более низкими (в среднем на 0.28 и 0.14) оценками по шкале «сильный/слабый». 

Была также установлена связь оценок стимулов по данному измерению с эмоциональным состоянием респондентов (р=2.2e-16, Chisq = 461.82, Df=5), в частности, с интересом (р=0.04): более низкие значения по этому фактору связаны с более низкими оценками по шкале (в среднем на -0.14), тогда как низкие значения по фактору «Удивление»  связаны с более высокими оценками стимулов (0.14).

Стимулы с наиболее высокими оценками по шкале «активный/пассивный»: богатый, делать, дерево, история, мир, огонь, помощь, путь, русский, труд, с низкими: глупый, маленький, обещать, обман, плохо, увидеть (оценки 22 стимулов достоверно отличаются от других). 

Была обнаружена связь с психологическими характеристиками респондентов и оценками стимулов по данной шкале (р=0.01099, Chisq =22.934, Df= 10): в частности,  респонденты со средним уровнем доброжелательности характеризуются более низкими (в среднем на 0.25) оценками по данной шкале (р<0.001).

Была также обнаружена связь с фактором «Нейротизм» (р=0,04): ассоциаты респондентов с низким и средним уровнем нейротизма имеют более низкие оценки по данной шкале (в среднем на 0.15).

Связь с эмоциональными состояниями и оценками по данному семантическому измерению не прослеживалась (р=0.3048). 

4. Заключение

Проведенный нами анализ показал перспективность применения метода семантической проекции векторных представлений значений слов для автоматического извлечения оценок значения слова по шкалам семантического дифференциала, представляющим собой базовые аффективные измерения семантики слова, в индивидуальном языковом сознании, полученных в ходе ассоциативного эксперимента. Было выявлено влияние ряда устойчивых психологических характеристик и эмоциональных состояний респондентов на значения оценок стимулов – высокочастотных слов русского языка: шкала оценки связана только с эмоциональными состояниями респондентов, шкала, связанная с наличием/отсутствием контроля, оказалась связана только с психологическими характеристиками, шкала, связанная с силой воздействия стимула, связана как психологическими характеристиками, так и с эмоциональными состояниями. 

В ходе дальнейших исследований нами будет расширен репертуар семантических шкал, а также будет проведен анализ, учитывающий возможные взаимокорреляции как между личностными характеристиками, так и между семантическими измерениями (анализ с использованием метода главных компонент с последующим анализом связи компонент с факторами).

Метод семантической проекции позволяет извлекать семантические отношения из языковых данных с наименьшими усилиями по разметке датасета. Используя существующие модели, обученные на многомиллионных корпусах слов, и метод семантической проекции, возможно получать оценки исследуемых единиц (слов, ассоциативных рядов, текстов) по различным семантическим измерениям. Использование подобной методологии позволит, как нам представляется, на новом уровне исследовать структуру индивидуального значения слова – его смысл.

Article metrics

Views:971
Downloads:20
Views
Total:
Views:971