English  
О проекте
Энциклопедия
Указатель
Обзоры
Модели
Базы данных

Объединение результатов работ программ по сборке генома

|   Описание  |   Cтатьи  |   Счет  |   Регистрация  |   Список моделей  |

Кирилл В. Романенков

ОПИСАНИЕ

Зачастую сборки генома de novo (в отсутствии референсной сборки генома), построенные сборщиками на основе ридов (reads) длины 100–150 нуклеотидов, фрагментированы и содержат ошибки. Существует ряд программ для сборки геномов, каждая их них имеет в своей основе оригинальный подход. Обычная практика решения задачи в этом случае заключается в запуске нескольких сборщиков с различными параметрами и выборе наилучшего с точки зрения конкретного исследователя варианта. При этом неизвестно, каким критериям должна соответствовать "правильная" сборка. Исследования показывают, что одни сборщики показывают лучший результат по одному из критериев и уступают другим алгоритмам по другим критериям [1].

Таким образом, различные сборки одного и того же генома могут дополнять друг друга, и важно уметь максимально выгодным способом использовать сильные стороны каждой. Для решения задачи объединения геномных сборок при отсутствии референса существуют решения для симметричного согласования наборов контигов, например MIX [2] и CISA [3]. Данные программы реализованы на интерпретируемых языках программирования и требуют серьезных вычислительных ресурсов даже для объединения бактериальных геномов. Кроме того в ряде случаев качество их работы вызывает определенные вопросы.

В силу недостатков вышеперечисленных программ был предложен новый метод (GAR - Genome Assembly Refinement) [4, 5] для объединения наборов контигов, полученных от разных сборщиков. Работа метода разбита на несколько этапов:

  • попарное выравнивание контигов программой MEGABLAST;
  • построение неориентированного графа контигов и его кластеризация;
  • объединение контигов в найденных кластерах жадным алгоритмом;
  • корректирование полученного множества: удаление перекрывающихся концевых участков в объединенных контигах и исключение из результирующего множества вложенных последовательностей.

На рисунке показан пример работы предложенного метода объединения результатов работ геномных сборок для трех наборов контигов.

GAR позволяет пользователю получить сборку генома, которая будет интегрировать результаты работы разных программ-сборщиков генома. Для качественной сборки нужно подать на вход сервера не меньше трех наборов контигов в FASTA-формате. Если наборов контигов меньше трех, программа не работает.

Запуск сборщиков пользователь должен осуществить самостоятельно. Исходный код программы доступен по ссылке https://bitbucket.org/kromanenkov/gar

Copyright 2004-2019 © Институт математических проблем биологии РАН
О проекте
Энциклопедия
Указатель
Обзоры
Модели
Базы данных