Учёные «обучили» компьютер предсказывать химические свойства молекул

Ученые из Центра исследований молекулярных механизмов старения и возрастных заболеваний МФТИ разработали программный пакет Knodle для определения связей и степени связи в молекулах, который значительно упрощает разработку новых лекарств
Учёные «обучили» компьютер предсказывать химические свойства молекул

Представьте, что вы хотите создать лекарство. Разработку лекарственных препаратов с заранее заданными свойствами называют драг-дизайном. Лекарство, попав в организм человека, должно воздействовать на причину болезни. На молекулярном уровне это нарушение работы каких-то белков и генов их кодирующих. В драг-дизайне это называют мишенью. Если лекарство противовирусное, то оно должно как-то мешать вирусам встраивать свой геном в человеческий. Тогда мишенью будет уже белок вируса. Структура встраивающегося белка вируса известна, и даже известно, какое место у него самое важное — сайт связывания. Если вставить в это место, в сайт связывания, «затычку» в виде определенной молекулы химического соединения, то белок не сможет «вживиться» в геном человека, и вирус умрет. Получается, находишь «затычку» — будет у тебя лекарство от болезни.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Но как найти нужные молекулы? Исследователям здесь на помощь приходят огромные базы веществ. Для отбора берутся специальные программы, которые используя приближения квантовой химии оценивают место и силу с которой сможет прицепиться молекула-«затычка» к белку. Но оказывается, что в базах есть только форма вещества, а для адекватной оценки этим программам требуется еще и информация о состоянии всех атомов и соединений в молекуле. Задачей определения этих состояний и занимается разработанная исследователями компьютерная система Knodle. С помощью новых технологий можно сузить область поиска с сотен тысяч веществ всего до сотни. Эту сотню уже проверить и получить, например, Ралтегравир — лекарство, с 2011 года активно используемое для профилактики ВИЧ.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Фото:
Сотрудник Лаборатории структурной биологии рецепторов, сопряжённых с G белком, МФТИ Сергей Грудинин, аспирантка МФТИ Мария Кадукова и «обученный» ими компьютер
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Со школы все привыкли видеть органические вещества как буквы с палочками (структура вещества) и также понимать, что на самом деле никаких палочек нет. Ведь каждая палочка — это связь электронов, которые подчиняются законам квантовой химии. В случае одной простой молекулы опытный химик интуитивно чувствует, какие должны быть гибридизации (со сколькими соседними атомами он соединен), и за несколько часов кропотливой работы со справочниками сможет восстановить в ней все связи. Он может это делать, потому что видел сотни и сотни похожих соединений и знает, что если кислород «вот так вот торчит», то скорее всего он связан двойной связью. В своей работе аспирантка МФТИ Мария Кадукова и научный сотрудник лаборатории структурной биологии рецепторов, сопряжённых с G белком, МФТИ Сергей Грудинин решили доверить эту интуицию компьютеру, используя для этого технологии машинного обучения.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Сравните «Твердый полый предмет с ручкой, отверстием сверху и удлинением сбоку, в конце которого тоже отверстие» и «Сосуд для приготовления чая». И то и другое достаточно хорошо определяет, что такое чайник, но второе объяснение проще и в него больше верится. Так же и в машинном обучении, самый лучший алгоритм обучения — это самый простой из работающих. Поэтому исследователи выбрали нелинейный метод опорных векторов (SVM), метод, который себя зарекомендовал в распознавании рукописного текста и изображений. На вход ему давали расположения соседних атомов, а на выходе получали гибридизацию.

Принцип действия пакета Knodle
Принцип действия пакета Knodle
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Хорошее обучение требует множество примеров, и ученые составили их из 7605 соединений с известной структурой и состояниями атомов. «В этом кроется решающая сила разработанного пакета, так как при обучении на большей базе результат распознавания лучше. Сейчас Knodle находится на шаг впереди подобных себе программ: он допускает всего 3.9% ошибок, тогда как ближайший конкурент 4.7%», объясняет Мария Кадукова. И это не единственное преимущество. Программный комплекс легко изменять под конкретную задачу. Например, в данный момент Knodle не работает с веществами, содержащими металлы, потому что эти соединения относительно редки. Но если окажется, что лекарство от Альцгеймера будет заметно эффективней, если в нем будет металл, то для адаптации программы потребуется лишь набрать базу с металлическими соединениями. Поэтому остается только догадываться, для какой неизлечимой на данный момент болезни найдут лекарство, используя этот инструмент.