Лінгвістична алгебра рятувала перед реальними текстами

Група лінгвістів з Австралії показала, наскільки точно можна описувати семантичні зв'язки між двома словами, якщо представляти їх у вигляді векторів і розраховувати їх суми і різниці. Наприклад, уявіть вислів («король» - «чоловік» + «жінка») = «королева». Автори з'ясували, наскільки загальним є такий підхід, і де закінчується область його застосовності. Препринт дослідження викладено на .Учені розглядали чотири добре відомих уявлення, в яких кожному слову зіставляється вектор. Його розмірність визначається кількістю контекстів, які враховуються в даному поданні. У найпростішому випадку, наприклад, слово «чай» частіше зустрічається в контексті «напій» і рідше в контексті «тварини». У межах дистрибутивної семантики передбачається, що при використанні досить великої кількості контекстів кожне слово можна з достатнім ступенем описати контекстним вектором. Далі автори перевіряли гіпотезу, згідно з якою різниця двох контекстних векторів несе достатню інформацію про семантичний зв'язок між відповідними словами. Наприклад, вектор («Париж» - «Франція») повинен бути схожий на вектор («Копенгаген» - «Данія»). Для перевірки гіпотези вчені проводили два експерименти: у першому кластеризували різниці векторів, щоб дізнатися, наскільки «тісні» групи вони утворюють у векторному просторі. У другому експерименті автори за допомогою машинного навчання класифікували пари слів з їх зв'язку один з одним, використовуючи в якості ознак різність векторів. Наприклад, пара «літак» - «кабіна» повинна бути пов'язана ознакою «одне є частиною іншого». Здавалося, що різниці векторів добре піддавалися кластеризації, хоча зустрічалися і винятки. Як правило, ними були слова з кількома значеннями. Що стосується класифікації, результати виявилися дуже хороші для випадку «закритої системи», коли всі аналізовані пари гарантовано належали до одного з 18 заздалегідь визначених зв'язків. Якщо ж до досліджуваної вибірки додати випадкові пари слів, між якими немає певного зв'язку, результати класифікації значно погіршувалися. Наприклад, програма зарахувала пару (took, turn) до зв'язку «минулий час», хоча ці два слова насправді ніяк не пов'язані. У підсумку вчені зазначають, що різниця контекстних векторів дійсно є зручною ознакою для семантичного аналізу. Проте цей метод не дуже добре підходить для аналізу «сирих» даних, в яких багато шуму, оскільки класифікатор знаходить зв'язки там, де їх немає, спираючись на контекст, але пропускаючи будь-які інші ознаки.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND