Чарівна система дрозофіли поліпшила алгоритм пошуку подібностей

Американські вчені використовували знання про структуру нюшованої системи фруктової дрозофіли (лат.) для розробки нового алгоритму хешування інформації, заснованого на пошуку подібностей. Стаття опублікована в журналі.


Нюшлива система фруктової дрозофіли влаштована наступним чином. Запах надходить до нейронів нюх рецепторів у носі комахи (всього їх близько 50) і посилає сигнали до 50 відповідальних за обробку запахів клубочкам () проекційних нейронів у головному мозку. Після цього ГАМК-єргічний нейрон інгібує більшість сигналів, в результаті чого, залежно від запаху, активується певна кількість (близько 5 відсотків) клітин Кеньона - головних нюшових нейронів мозку дрозофіли, що відповідають за визначення і запам'ятовування запахів (всього їх приблизно 2000). Така нюшлива система допомагає комахам класифікувати запахи на привертаючі (наприклад, запах їжі) і потенційно небезпечні (запах отрути). Автори нової роботи інтегрували структуру нюхливої системи дрозофіли в машинне навчання для створення нового алгоритму пошуку подібностей.


Алгоритми пошуку подібностей використовуються досить часто: наприклад, в інтернет-магазинах для того, щоб пропонувати покупцям товари, схожі на ті, які вони вже купили, або на стрімінгових сервісах (типу Netflix або Apple Music) - для того, щоб пропонувати цікавий окремому користувачеві контент. Зазвичай вони засновані на пошуку у великому масиві даних патерів, які характеризують вхідні дані, за допомогою наближеного пошуку n-мірних векторів.

Дослідники представили нюх дрозофіли як процес хешування - перетворення масиву вхідних даних (запахи) на рядок вихідних даних певної довжини (популяцію активних нейронів і ступінь їх активності - або «теги»). Кожен запах, таким чином, представлений у вигляді 50-мірного вектора визначальних його нейронів нюшливих рецепторів, кожен з яких має свій ступінь активності. Тобто, кожен об'єкт з масиву вхідних буде представлений у вигляді такого вектора ознак певної довжини (довжини хеша), який далі буде використовуватися для порівняння з вхідними даними. Таким чином, на виході буде виходити об'єкт з максимально співпадаючою кількістю ознак.

Алгоритм перевірили на трьох базах даних: SIFT і MNIST, які містять вектори ознак зображень для пошуку подібностей, а також GLOVE - базу даних слів, яка використовується для пошуку семантичних подібностей. Новий алгоритм впорався з хешуванням краще, ніж інший алгоритм пошуку схожостей, заснований на хешуванні, - в основному, на маленькій довжині геша. Наприклад, точність нового алгоритму пошуку подібностей на 28,8 відсотків вище при роботі з даними MNIST і довжині хешу, що дорівнює чотирьом.

Автори роботи зазначають, що їх новий алгоритм може поліпшити не тільки хешування, а й кластеризацію та класифікацію інформації, а також бути корисним для ефективного глибокого навчання.

У порівнянні з мозком людини, яка містить понад 85 мільярдів нейронів, мозок дрозофіли досить простий - у ньому нейронів близько 130 тисяч. Саме тому вчені часто використовують дрозофіл як модельний організм для вивчення структури і функцій нервової системи. Так, наприклад, ви можете прочитати про два атласи головного мозку цих комах: повному конектомі та функціональному атласі набоїв активності соціальної поведінки. Про те, як нобелівські лауреати в галузі медицини та фізіології цього року вивчали на прикладі дрозофіл циркадні ритми, читайте в нашому матеріалі.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND