Секвенирование: новый подход к сборке геномов

06.07.201223330

Секвенаторы новейшего поколения в сочетании с более старыми технологиями секвенирования позволят увеличить точность сборки геномов.

К настоящему времени ни один из крупных проектов по полногеномному секвенированию так и не был завершен: конечные сборки геномов обычно содержат пропущенные или перестроенные участки, что дает неполную генетическую информацию об организме. Новый алгоритм сборки, предложенный американскими биоинформатиками и заключающийся в комбинировании данных, полученных с помощью нескольких разных методик секвенирования, позволит "закрыть пробелы" и предоставит больше информации о геноме, чем можно было бы получить с использованием лишь одной методики секвенирования.

Секвенаторы «второго поколения» способны считывать геном небольшими фрагментами протяженностью 100-700 пар оснований, но такие участки (риды) затем сложно соединить в правильном порядке. Приборы «третьего поколения» (или одномолекулярные секвенаторы), например, PacBio RS, производимый компанией Pacific Biosciences, могут генерировать риды длиной до 23 тыс. пар оснований, но делают больше ошибок, чем допустимо для обычного программного обеспечения для геномного анализа.

Адам Филлиппи (Adam Phillippy), исследователь в области биоинформатики из центра National Biodefense Analysis and Countermeasures Center (США), и его коллеги решили использовать короткие риды, полученные в ходе секвенирования на приборах второго поколения Illumina и Roche 454, для корректировки ошибок в длинных ридах, генерированных секвенатором PacBio RS. Протестировав разработанный алгоритм корректировки на геномах бактерии Escherichia coli и дрожжей, а также на транскриптоме кукурузы, исследователи выяснили, что точность сборки можно повысить с 83% до 99,9%. Ученые также применили разработанный метод гибридной корректировки к сборке ранее несеквенированного генома волнистого попугайчика (Melopsittacusundulatus). Результаты исследования опубликованы в последнем выпуске журнала Nature Biotechnology [1].

Компании Pacific Biosciences, в связи с несовершенcтвом разработанной ими технологии секвенирования, полученные результаты могут пригодиться. Осенью прошлого года руководству компании пришлось уволить более четверти своего рабочего персонала из-за нарастающей конкуренции на рынке. Однако, по мнению Дэвида Феррейро (David Ferreiro), аналитика американской компании Oppenheimer, алгоритм, направленный на повышение точности секвенирования, значимо не увеличит продажи компании. По его словам, новая разработка предоставит компании Pacific Biosciences дополнительные преимущества, но главенствовать на рынке секвенирования эта технология не будет. Для определения белок-кодирующей части генома, которая представляет интерес для большинства исследователей, достаточно хороши уже существующие методики секвенирования, а метод, требующий использования множества инструментов, слишком дорог и сложен.

Но длинные риды могут найти применение для решения более специализированных задач. Элейн Мардис (Elaine Mardis), со-руководитель Геномного Института при Вашингтонском Университете (Genome Institute at Washington University, США), считает, что алгоритм может быть полезен при анализе транскриптома, поскольку один длинный рид, генерированный секвенатором, может содержать целую матричную РНК и, таким образом, выявить разные способы сборки белка. В той же статье, опубликованной в журнале Nature Biotechnology, разработчики компании Pacific Biosciences описывают другой метод гибридной корректировки для быстрой корректировки небольших бактериальных геномов [2].

По словам Филлиппи, предложенный алгоритм сгодится для работы как с длинными, так и с короткими ридами, полученными с использованием разных секвенаторов. Он надеется, что новая стратегия подстегнет интерес ученых именно к некодирующим областям генома, которые обычно игнорируются. «Чаще всего исследователей интересует белок-кодирующая часть генома, которую они и секвенируют. Но при этом теряется структурная информация. О некодирующих участках генома получена только поверхностная информация, поскольку секвенирование таких последовательностей короткими фрагментами не подходит для их изучения. Это касается и участков повторов: они также слишком протяженны для их секвенирования обычными методами», - говорит Филлиппи.

Соавтор исследования Эрик Джарвис (Erich Jarvis), нейробиолог из Медицинского Центра при Университете Дьюка (Duke University Medical Center, США), изучающий голосовое общение птиц, сотрудничал с Филлиппи для получения новой информации по этой проблеме. Джарвис считает, что различия в вокальном обучении птиц разных видов нельзя объяснить различиями в белках, кодируемых специфическими генами. По его мнению, эти различия обусловлены разницей в количестве белка, что может регулироваться некодирующими участками генома. «Без хорошей сборки регуляторных участков генома проведение подобных экспериментов не возможно», - говорит Джарвис.

Геном волнистого попугайчика стал первым геномом, одновременно секвенированным приборами второго и третьего поколения. (фото:STEPHEN DALTON/NATUREPL.COM)

Оригинальный текст: Monya Baker

По материалам Nature News

Литература:

1. Koren, S. et al. Nature Biotechnol(2012).

2. Bashir, A. et al. NatBiotechnol (2012).


Ваш комментарий:
Только зарегистрированные пользователи могут оставлять комментарии. Чтобы оставить комментарий, необходимо авторизоваться.
Вернуться к списку статей