Лінгвістична алгебра рятувала перед реальними текстами

Лінгвістична алгебра рятувала перед реальними текстами

Група лінгвістів з Австралії показала, наскільки точно можна описувати семантичні зв'язки між двома словами, якщо представляти їх у вигляді векторів і розраховувати їх суми і різниці. Наприклад, уявіть вислів («король» - «чоловік» + «жінка») = «королева». Автори з'ясували, наскільки загальним є такий підхід, і де закінчується область його застосовності. Препринт дослідження викладено на .Учені розглядали чотири добре відомих уявлення, в яких кожному слову зіставляється вектор. Його розмірність визначається кількістю контекстів, які враховуються в даному поданні. У найпростішому випадку, наприклад, слово «чай» частіше зустрічається в контексті «напій» і рідше в контексті «тварини». У межах дистрибутивної семантики передбачається, що при використанні досить великої кількості контекстів кожне слово можна з достатнім ступенем описати контекстним вектором. Далі автори перевіряли гіпотезу, згідно з якою різниця двох контекстних векторів несе достатню інформацію про семантичний зв'язок між відповідними словами. Наприклад, вектор («Париж» - «Франція») повинен бути схожий на вектор («Копенгаген» - «Данія»). Для перевірки гіпотези вчені проводили два експерименти: у першому кластеризували різниці векторів, щоб дізнатися, наскільки «тісні» групи вони утворюють у векторному просторі. У другому експерименті автори за допомогою машинного навчання класифікували пари слів з їх зв'язку один з одним, використовуючи в якості ознак різність векторів. Наприклад, пара «літак» - «кабіна» повинна бути пов'язана ознакою «одне є частиною іншого». Здавалося, що різниці векторів добре піддавалися кластеризації, хоча зустрічалися і винятки. Як правило, ними були слова з кількома значеннями. Що стосується класифікації, результати виявилися дуже хороші для випадку «закритої системи», коли всі аналізовані пари гарантовано належали до одного з 18 заздалегідь визначених зв'язків. Якщо ж до досліджуваної вибірки додати випадкові пари слів, між якими немає певного зв'язку, результати класифікації значно погіршувалися. Наприклад, програма зарахувала пару (took, turn) до зв'язку «минулий час», хоча ці два слова насправді ніяк не пов'язані. У підсумку вчені зазначають, що різниця контекстних векторів дійсно є зручною ознакою для семантичного аналізу. Проте цей метод не дуже добре підходить для аналізу «сирих» даних, в яких багато шуму, оскільки класифікатор знаходить зв'язки там, де їх немає, спираючись на контекст, але пропускаючи будь-які інші ознаки.

Нейрофізіологи знайшли «клітинний календар»

Нейрофізіологи знайшли «клітинний календар»

Нейрофізіологи з Манчестерського університету виявили в листоподібному вирості, що оточує ніжку гіпофіза () особливі клітини, що реагують на зміни тривалості світлового дня. У літній і зимовий період ці клітини виробляють абсолютно різний набір білків. На думку вчених, вони відіграють роль своєрідного «біологічного календаря», що регулює тривалі річні циркадіанні ритми у ссавців (зокрема у овець). Роботу опубліковано в журналі.

Яшма зрушила кисневу катастрофу на 830 мільйонів років тому

Яшма зрушила кисневу катастрофу на 830 мільйонів років тому

Геохіміки з Вісконсинського університету в Мадісоні виявили свідчення наявності кисню в епоху архея - 3,23 мільярда років тому - задовго до кисневої революції (також відомої як киснева катастрофа або «Велика киснева подія»), початок якої датується раннім протерозоєм (2,45 мільярда років тому). На їхню думку, єдиним джерелом такої кількості кисню могла бути тільки життєдіяльність ціанобактерій. Якщо це припущення правильне, то здатність до фотосинтезу виникла у бактерій на 600 мільйонів років раніше, ніж вважалося досі. Роботу опубліковано в журналі.

Ентропія MIDI-файлів розділила музичні епохи

Ентропія MIDI-файлів розділила музичні епохи

Вчені з Венесуели розділили музичні твори за стилями, проаналізувавши вміст відповідних MIDI-файлів так, як якщо б вони були осмисленим текстом. Використовуючи поняття інформаційної ентропії і методи лінгвістичного аналізу, в роботі вдалося розділити кілька сотень композицій по автору і часу написання. Препринт дослідження викладено на .Автори розглядали цифровий запис кожного з 453 досліджуваних творів у форматі MIDI, який являє собою лінійну послідовність чисел. Вона кодує загальні характеристики твору (темп, тональність), а також які ноти повинні звучати в кожен момент часу, і яким тембром і гучністю вони повинні володіти. Розглядаючи кожен MIDI-файл як текст, автори підбирали до нього свою «мову». Як «слова» виступали різні комбінації з декількох чисел. «Словник» складали так, щоб у «мови» була мінімально можлива інформаційна ентропія - міра невизначеності мови. Її можна розрахувати наступним чином: для кожного з D «слів» розрахувати частоту p, з якою воно зустрічається в «тексті», а потім просумувати твори p log (p).

Фізики навчилися керувати бульбашками в киплячій воді

Фізики навчилися керувати бульбашками в киплячій воді

Вчені з Массачусетського технологічного інституту навчилися «вмикати» і «вимикати» за бажанням утворення бульбашок на поверхні водонагрівачів. За допомогою нового методу можна точно керувати процесом кипіння, домагаючись таким чином максимальної ефективності і уникаючи небезпеки перегріву. Дослідження опубліковане в .Для контролю освіти бульбашок автори змінювали змочуваність поверхні нагрівача. Це досягалося за рахунок адсорбції-десорбції поверхнево-активних речовин (ПАВ) з незарядженим гідрофобним «хвостом» і зарядженою «головою». Варіюючи заряд нагрівача, вчені змушували молекули ПАВ сідати на поверхню або віддалятися від неї. Якщо нагрівач покривався молекулами ПАВ, їхні гідрофобні «хвости» стирчали назовні, покращуючи змочуваність поверхні. Через це поліпшувалася освіта бульбашок. У тому випадку, коли нагрівач був заряджений тим же знаком, що і «голови» молекул ПАВ, вони залишали поверхню, змочуваність поліпшувалася, і утворення бульбашок знову ставало невигідним.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND