Математики радикально прискорили обробку даних кріомікроскопії

Вчені з Університету Торонто домоглися значного поліпшення в техніці кріомікроскопії - багатообіцяючого підходу до розшифровки будови білків. Їх результати забезпечують статисячекратне збільшення швидкості обробки даних. Препринт статті доступний на сайті arXiv.org, коротко ознайомитися з роботою можна в блозі видання


Традиційний підхід до вивчення будови білків полягає в рентгенівському дослідженні їх кристалів. Вчені вирощують монокристали білків і вивчають, як розсіюється рентгенівське випромінювання, проходячи через них. Найважчою частиною такого методу є отримання самих кристалів - у багатьох випадках білки просто не кристалізуються, а часом їх структура в монокристалі значно відрізняється від існуючої в живому організмі.


У зв'язку з цим вчені шукають альтернативні методи отримання тривимірних структур білків. Одним з них є просвічувальна електронна кріомікроскопія. У цьому методі розчин білка у воді дуже швидко заморожується - досить швидко, щоб не встигли утворитися кристаліки льоду, здатні порушити природну геометрію молекули. Виходить дуже тонка платівка, що містить величезну кількість молекул, повернених під різними кутами до спостерігача. Її досліджують у електронному мікроскопі, отримуючи сотні тисяч зображень - «тіней» молекул.

Комп'ютерними методами вчені складають двомірні зображення в одне тривимірне, отримуючи тим самим структуру білка. Головним мінусом цієї методики довгий час була низька роздільна здатність і великий час, необхідний для отримання структури - на 300 ядрах суперкомп'ютера розрахунок бібліотеки з 200 тисяч «тіней» займає близько двох тижнів.

Автори нової роботи запропонували ряд удосконалень, що дозволили значно прискорити процес відновлення структури білків і збільшити їх точність. По-перше, використовуючи алгоритми машинного навчання, дослідники провели попередню обробку зображень «тіней», що дозволила прибрати велику кількість шумів, що містяться в них. Це скоротило обсяг інформації, який обробляється комп'ютером, проте найбільший приріст у швидкості обробки інформації привнесло інше нововведення.

Вчені включили в алгоритм, що накладає «тіні» один на одного, припущення про те, що більшість молекул у шарі лежать «на боці». Це дозволило зменшити в рази кількість варіантів накладень, що розглядаються комп'ютером. Два цих удосконалення, за словами авторів, збільшили швидкість обробки даних у сотні тисяч разів. Для порівняння, тепер обчислення будови білка займає всього добу на сучасній робочій станції.

Сам процес обчислення ітеративний, тобто поліпшення дозволу структури йде поступово. На прикладі АТФ-синтази термофільної бактерії автори показали, що груба оцінка структури білка може бути отримана вже за годину роботи програми.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND