Сети знаний

Каждый день в мире публикуются тысячи научных статей о генах, белках и механизмах заболеваний. Поток информации растёт лавинообразно, и даже опытным исследователям всё труднее удерживать в поле зрения всё новое, что появляется в их области. Разобраться в этом океане данных помогает интеллектуальная система ANDSystem – инструмент, который умеет «читать» научные тексты, извлекать из них знания и связывать их между собой. Его создали учёные Института цитологии и генетики СО РАН – подробности в очередном материале, посвященном 10-летию образования ФИЦ ИЦиГ СО РАН.

Когда в конце прошлого века к.б.н. Владимир Иванисенко (ныне заведующий лабораторией компьютерной протеомики ИЦиГ СО РАН) пришел работать в институт, здесь, под руководством академика РАН Николая Александровича Колчанова развивалось направление по исследованию генных сетей (молекулярных систем, состоящих из взаимодействующих друг с другом генов, белков и метаболитов, которые координированно работают для выполнения определенных функций организма и формирования его фенотипических признаков).

Чтобы построить такую сеть требовалось собрать воедино данные, разбросанные по многим тысячам научных статей и отчетов об исследованиях, проводимых по всему миру. Первые сети исследователи делали практически вручную и эта работа занимада очень много времени.

Задача, поставленная перед Иванисенко – придумать, как на основе этих сетей выявлять новые мишени для создания новых лекарств от различных болезней требовала обработать еще большие объемы информации.

«Поиск мишеней для действия лекарств требует систематизации всех данных о механизмах патологии, – рассказал заведующий лабораторией компьютерной протеомики ИЦиГ СО РАН, к.б.н. Владимир Иванисенко. – А эта информация разбросана по тысячам публикаций. Прочитать вручную хотя бы 20 тысяч статей невозможно. А в случае с рядом заболеваний, таких как ревматоидный артрит или диабет – счет идет на сотни тысяч текстов, в которых разбросана нужная информация. Поэтому мы решили научить компьютер делать это за нас».

Так появилась система, которая объединяет методы анализа генетических последовательностей и технологии обработки естественного языка. ANDSystem (Associative Network Discovery System) автоматически анализирует тексты научных публикаций, патентов и баз данных, извлекая из них факты о взаимодействии генов, белков, заболеваний и лекарств. Все найденные связи представляются в виде наглядных семантических сетей, которые можно визуализировать и анализировать.

Используя ANDSystem и её веб-модуль ANDDigest, учёные ИЦиГ могут не просто искать данные, но и видеть, как развивается интерес к тем или иным биомаркерам или заболеваниям, какие направления науки набирают популярность. Программа сортирует результаты по цитируемости, дате публикации, индексу Хирша журнала и даже показывает, какие термины встречаются чаще других.

«Мы столкнулись с тем, что авторы часто используют разные термины для одного и того же процесса, – отметил Иванисенко. – ANDDigest решает эту проблему, распознавая синонимы и повышая точность поиска на 13 %, что делает анализ данных гораздо надёжнее».

С помощью этих инструментов новосибирские исследователи анализируют огромные массивы информации, строят модели взаимодействия белков, выявляют новые потенциальные мишени для лекарств и исследуют генетические механизмы сложных заболеваний – от нейродегенеративных до аутоиммунных. За последние десять лет результаты, полученные с помощью ANDSystem, легли в основу более 150 научных статей.

Когда искусственный интеллект помогает врачу

Постепенно технологии, созданные для фундаментальных исследований, нашли применение и в медицине.

«Мне всегда было интересно, смогут ли обычные врачи пользоваться нашими наработками, – поделился Владимир Иванисенко. – Ведь читать тысячи научных публикаций и ездить по конференциям могут далеко не все. Особенно врачи в районных клиниках, где на одного специалиста приходится десятки пациентов в день».

Так появилась идея цифрового помощника врача «Доктор Пирогов» – системы поддержки клинических решений, основанной на сочетании нейронных и смысловых сетей, которую Владимир Иванисенко создал уже с коллегами по Центру искусственного интеллекта Новосибирского государственного университета.

«Доктор Пирогов» содержит сведения более чем о 250 заболеваниях и объединяет знания по двадцати врачебным специальностям – от терапии и кардиологии до эндокринологии, неврологии и онкологии. Система способна анализировать жалобы пациента, лабораторные и инструментальные данные, результаты генетического тестирования и на основе семантических графов формировать вероятные диагнозы, рекомендации по обследованию и терапии.

«Мы хотим, чтобы система не заменяла врача, а помогала ему, – подчёркнул Иванисенко. – Она может сократить длительность приёма без потери качества и снизить риск диагностических ошибок. Особенно важна её роль для врачей из сельской местности, где нет доступа к узким специалистам».

В кабинетах доврачебной помощи «Доктор Пирогов» способен проводить первичный опрос пациента, анализировать клинические данные и выдавать направление к нужному врачу. Это позволит разгрузить терапевтов и повысить качество первичной диагностики.

Сегодня уже создан рабочий прототип системы, который успешно прошёл тестирование основных функций. В дальнейшем разработчики планируют добавить голосовой и визуальный интерфейсы, чтобы сделать взаимодействие с «Доктором Пироговым» максимально естественным.

От медицины – к урожаю: система SmartCrop

Идея создания интеллектуальных инструментов для анализа данных оказалась востребованной не только в медицине. По словам Владимира Иванисенко, логика «Доктора Пирогова» легла в основу нового направления – сельскохозяйственной системы SmartCrop («Умный урожай»).

«Нет смысла заниматься здоровьем людей, если им нечего будет есть, – отметил учёный. – Мы решили применить те же принципы анализа знаний к задачам сельского хозяйства».

SmartCrop использует методы искусственного интеллекта для анализа генетических и физиологических данных растений. Система помогает селекционерам находить гены, отвечающие за урожайность, устойчивость к засухе и болезням, прогнозировать результаты скрещивания и ускорять создание новых сортов.

В первую очередь внимание разработчиков сосредоточено на пшенице и рисе – стратегически важных культурах, от которых напрямую зависит продовольственная безопасность многих стран. Проект реализуется в рамках российско-китайского гранта РНФ совместно с профессором Минь Ченом, руководителем национальной программы по биоинформатике в Китае.

«Фактически мы создаём систему, которая анализирует сельскохозяйственные публикации и данные о генетических особенностях культур так же, как “Доктор Пирогов” обрабатывает медицинские знания, – поясняет Иванисенко. – Это позволит ускорить разработку новых сортов и сделать процессы селекции более прогнозируемыми».

Сегодня в Институте цитологии и генетики СО РАН создаются технологии, способные соединить научные данные, клинический опыт и аграрные знания в единое цифровое пространство. Эти разработки показывают, что искусственный интеллект – это не отвлечённая тема для ИТ-компаний, а реальный инструмент, помогающий учёным, врачам и аграриям работать эффективнее и принимать решения на основе фактов.