Геномные базы данных страдают от человеческого фактора

23.02.201122090
Генетик из Университета Коннектикута (University of Connecticut) Марк Лонго (Mark Longo) и его коллеги установили, что 18% общедоступных баз данных геномов бактерий, растений и животных содержат фрагменты ДНК человека. Возможно, причиной этому послужила обработка образцов учеными во время секвенирования ДНК. Результаты исследования были недавно опубликованы в авторитетном журнале PLoS ONE.

«Многие ученые, которые занимаются исследованиями в области геномики, обеспокоены наличием в базах данных геномов различных животных человеческой ДНК, но степень подобного загрязнения ранее не оценивали. Судебно-медицинские эксперты и ученые, которые изучают ДНК древних организмов, используют строгие и дорогостоящие меры безопасности, чтобы избежать контаминации, но ученые, работающие в большинстве обычных проектов секвенирования геномов, не могут позволить себе применять такие методы защиты», - рассказывает инженер в области биомолекулярных технологий Дэвид Хаусслер (David Haussler) из Калифорнийского Университета в Санта Круз (University of California).

После того, как последовательности человеческой ДНК были обнаружены при изучении генома рыбки Danio rerio, Лонго и его коллеги решили проверить контаминацию баз данных геномов других организмов. Ученые исследовали базы данных на наличие Alu-повторов – коротких последовательностей ДНК, которые в большом количестве представлены в геноме приматов.

Человеческая ДНК была выявлена в 492 случаев из 2 749 проверенных архивов секвенирования. Контаминация была обнаружена в первоначальном материале и в окончательных базах данных, которые были собраны вместе с помощью компьютеров для компиляции полной последовательности геномов.

Большинство «загрязнений» в собранных последовательностях состояло только из нескольких сотен азотистых оснований, расположенных рядом, в то время как участки человеческой ДНК длиною больше тысячи оснований наблюдались в меньшем количестве в последовательностях неприматов.

«Наличие контаминации в первоначальном материале для секвенирования не удивляет. Это – «исходные данные без прикрас». В некоторых случаях загрязнение материала неизбежно. Но наличие последовательностей ДНК человека в окончательных «сборках» – другой вопрос», - объясняет специалист в области геномики из Университета Вашингтона в Сиэтле (University of Washington) Роберт Уотерсон (Robert Waterston).

«Компьютерные алгоритмы, собирающие последовательности, должны выделять области контаминации и удалять артефакты. Результаты последнего исследования указывают на недостаток этого фильтра», - говорит Хаусслер.

Лонго и его коллеги предполагают, что загрязнение последовательностями ДНК человека баз данных по другим организмам возникает из-за клеток кожи и волос людей, работающих с образцами, или из-за других библиотек ДНК, которые хранятся в тех же установках. Группа ученых нашла признаки загрязнения баз данных последовательностями ДНК не только человека, но и других видов организмов, что свидетельствует в пользу последнего предположения.

«Результаты исследования показывают, что, например, базы данных ДНК утконоса (Ornithorhynchus anatinus) содержат некоторые последовательности ДНК, которые, вероятно, принадлежат валлаби (Macropus eugenii) – животным, близким к кенгуру», - рассказывает один из авторов исследования, биолог из Университета Коннектикута Рейчел О’Нил (Rachel O'Neill).

«Было бы замечательно, если бы мы смогли очистить базы данных от этих артефактов. Использование правил техники безопасности на уровне судебно-медицинских исследований будет чрезвычайно дорого для большинства проектов, но специалисты в области биоинформатики должны улучшить меры защиты от контаминации до создания окончательной базы данных. Большинство последовательностей регулярно обновляются. Я надеюсь, что новые версии не будут содержать загрязненных участков ДНК», - говорит Хаусслер.

«Основная проблема контаминации связана не столько с ошибками, которые совершались до сих пор, сколько с последующим переводом новых исследований в области геномики в клиническую практику. Часто достаточно легко выявить загрязнение человеческим ДНК в геноме непримата, но трудно определить присутствие фрагментов ДНК одного человека в геноме другого. Чем больше лабораторий и компаний начинают секвенировать весь геном отдельного человека для создания индивидуальной медицины или изучать то, как генетические различия влияют на заболевание, тем сложнее будет отследить потенциальную контаминацию», - считает О’Нил.

По материалам:
NatureNews

Оригинальная статья:
Longo, M. S., O'Neill, M. J. & O'Neill, R. J. PLoS ONE 6, e16410 (2011).

Ваш комментарий:
Только зарегистрированные пользователи могут оставлять комментарии. Чтобы оставить комментарий, необходимо авторизоваться.
Вернуться к списку статей