Скрытые марковские модели в биоинформатике

Биоинформатика — применение методов математической статистики и информатики для анализа и обработки биологических данных: последовательностей нуклеотидов (ДНК) и аминокислот (белки).

Одной из основных категорий математических моделей, которые используются для анализа ДНК / генов и белков, являются скрытые марковские модели (СММ). В рамках СММ предполагается, что последовательность наблюдаемых состояний (нуклеотидов или аминокислот) порождается с помощью ненаблюдаемых (скрытых) состояний. Хорошо изученная задача — поиск оптимальной цепочки скрытых состояний по заданной наблюдаемой цепочке — имеет в биоиноформатике большую практическую ценность. В самом деле, если сопоставить скрытые состояния с характеристиками ДНК и белков, которые сложно замерить экспериментально (например, пространственная структура в белках, функциональные участки в генах), то становится возможным предсказывать эти характеристики на основе последовательностей нуклеотидов или аминокислот.

Скрытые марковские модели стали темой моей кандидатской диссертации (Методы распознавания на основе моделей Маркова со скрытыми переменными).

В обыкновенных СММ цепочка скрытых состояний обладает марковским свойством (то есть вероятность вхождения в эту цепочку любого состояния зависит исключительно от предыдущего состояния в цепочке); каждое скрытое состояние порождает строго одно наблюдаемое. В биоинформатике чаще используются обобщенные СММ, в которых каждое скрытое состояние порождает целую цепочку наблюдаемых состояний. Например, отдельные скрытые состояния могут соответствовать фрагментам генов (экзонам и интронам) или базовым пространственным структурам белков (спиралям, листам и нерегулярным структурам). Хотя эти модели более сложные, чем обыкновенные СММ, у них есть недостатки:

  • Для того, чтобы определение наиболее вероятной последовательности скрытых состояний занимало приемлемое время, приходится прибегать к эвристикам — вводить дополнительные скрытые состояния (сигналы), соответствующие переходам между соседними сегментами скрытых состояний. Выделение сигналов возможно не для всех задач распознавания.
  • Сложность вероятностной модели затрудняет ее использование в качестве составляющих, например, в алгоритмических композициях.
  • Сложность модели также препятствует использованию более сложных функций потерь, которые могли бы использоваться при минимизации эмпирического риска. Поиск наиболее вероятной последовательности скрытых состояний — далеко не лучший возможный критерий качества в задачах структурного распознавания.

В своей кандидатской диссертации я рассмотрел вероятностные модели, которые являются обобщениями обыкновенных СММ. В этих моделях вероятность наблюдения состояния зависит от нескольких предыдущих наблюдаемых и скрытых состояний. Для определения наиболее вероятной последовательности скрытых состояний можно применить модифицированный вариант алгоритма Витерби. Модели показывают хорошие результаты на белках и геномах простых организмов (например, растений).

Для того, чтобы повысить качество распознавания для геномов сложных организмов (например,млекопитающих),я использовал алгоритмические композиции.Каждый ген распознается одним из алгоритмов композиции; выбор этого алгоритма зависит от концентраций отдельных нуклеотидов в гене (то есть, от наблюдаемых характеристик гена). Количество моделей в композиции можно увеличивать итеративно; в результате получается бинарное дерево предикатов, которое достаточно легко интерпретировать. Несмотря на простоту композиций, они позволили повысить качество распознавания на 10–15 %.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *