Раз в несколько десятилетий появляется вирус гриппа, который способен не только заражать людей, но и быстро передаваться между ними, вызывая пандемию. Ученые используют самообучающиеся алгоритмы, чтобы предсказать, какие мутации приведут к возникновению опасных штаммов.

Исследователь работает с вирусом птичьего гриппа (H7N9)
Новая вспышка гриппа, вызванного видоизменившимся штаммом H7N9, была зарегистрирована в Китае в апреле.
Вирус свиного гриппа H1N1 распространился по всему земному шару в 2009 году.
В странах, население которых наиболее сильно пострадало от вируса N1H1, чаще встречаются аллели HLA-A*24 человеческих лейкоцитарных антигенов, которые хуже «нацеливаются» на неизменяемые участки вирусных ДНК.

Чтобы выяснить, какие изменения в генах приводят к тому, что вирусы, заражавшие только, допустим, птиц или свиней, смогли вызвать эпидемию среди людей, ученые вынуждены выполнять кропотливое сравнение ДНК двух штаммов: опасного для людей патогена и его «незаразного» предшественника. Выявив мутации, которые потенциально могут оказаться причиной повышения патогенности, исследователи искусственно модифицируют различные штаммы вирусов, чтобы выявить эффект отдельных генетических изменений. Помимо высокой трудоемкости, очевиден и другой недостаток данного метода: опасность работ с патогенными штаммами.

Базы данных по свойствам и генетическим последовательностям различных вирусных штаммов постоянно растут. И теперь эта информация вполне может стать основой для работы систем, использующих машинное обучение, чтобы по уже собранным данным разработать алгоритмы, позволяющие изучить неизвестные штаммы. Для изучения ДНК и белков такой подход используется уже достаточно давно, но лишь в последнее время ученые начали применять его к вирусам. В 2011 году алгоритмы машинного обучения были впервые использованы для сравнения штаммов вируса гриппа, передающихся только между свиньями и тех, которые способны заражать человека. На основе данных об известных вирусах, помеченных как «свиные» или «человеческие», компьютер выработал набор критериев, по которым можно безошибочно отнести новый вирус к одной из этих групп. Узлами на этом дереве принятия решений оказались специфические для каждой из групп аминокислоты. Дальнейшие исследования позволили выделить 13 аминокислот, которые необходимо подменить для «превращения» свиного вируса в человеческий, и еще 10, отличающих пандемический штамм от обычных сезонных. К публикации готовится работа, в которой ученые объясняют, как штамм H1N1 стал таким опасным.

Одно из основных преимуществ вычислительного подхода — возможность выйти за рамки областей генома, в которых обычно ведется поиск ключевых мутаций. Как правило, в первую очередь исследователи обращают внимания на те гены, которые кодируют белки, так или иначе участвующие в процессе заражения (например, гемагглютинин, связывающийся с клеткой-хозяином). Но оказалось, что некоторые из мутаций, делающих вирус опасным для человека, лежат за пределами этой области.

Системы машинного обучения также используются для анализа иммунного ответа, вызываемого различными штаммами, и его зависимости от комбинации человеческих лейкоцитарных антигенов, широко варьирующихся внутри популяции как от региона к региону, так и среди отдельных людей.

Эффективность вычислительного метода будет расти с увеличением объема генетических баз данных, что позволит ученым предсказывать появление новых штаммов гриппа, выявлять виды животных, которые могут оказаться носителями их относительно безопасных предшественников, и разрабатывать вакцины, которые не позволят возникнуть пандемии.

По сообщению Wired