ENCODE: что такое ген? Эволюция понятия и новое определение гена (1)

05.09.2007148260

What is a gene, post-ENCODE? History and updated definition

Gerstein MB, Bruce C, Rozowsky JS, Zheng D, Du J, Korbel JO, Emanuelsson O, Zhang ZD, Weissman S, Snyder M.

Genome Research 17:669-681, 2007. PMID: 17567988


Резюме


Секвенирование генома человека хотя и удивило незначительным количеством генов, кодирующих белки, но не вызвало сомнений в существующем определении гена. В ходе проекта ENCODE (the ENCyclopedia of DNA Elements), направленного на выявление функциональных элементов в геноме, обнаружились сложные элементы регуляции и транскрипции, рассыпанные по геному, а также масса генов, кодирующих РНК. Новые данные поставили под вопрос корректность современного определения гена. Для разработки наиболее точного понятия гена рассматривается эволюция определения гена – от абстрактных элементов наследственности Менделя и Моргана до современных представлений об открытых рамках считывания и последних открытий проекта ENCODE. Новое определение гена формулируется так: «Ген – это совокупность геномных последовательностей, кодирующих сцепленный набор потенциально перекрывающихся функциональных продуктов». В нем не упоминаются сложные аспекты регуляции и транскрипции и утверждается, что с одним геном могут быть ассоциированы группы функциональных продуктов гена (а не промежуточные транскрипты).




Введение



Проект ENCODE заставил пересмотреть классический взгляд на ген как на дискретный элемент генома


Недавно завершилась описание 1% генома человека в рамках программы ENCODE (The ENCODE Project Consortium 2007). Задачей этой программы является характеристика функциональных элементов генома. Эпохальное секвенирование генома человека поразило незначительным (по сравнению с более простыми организмами) количеством генов, кодирующих белки – примерно 21000 (см. www.ensembl.org). C помощью программы ENCODE удалось оценить количество и сложность транскриптов (молекул РНК), производимых геномом. Из-за существенных различий между представлениями о гене, основанными на его белковом продукте, и обнаруженной (по результатам проекта ENCODE) широчайшей транскрипционной активности генома, назрела насущная необходимость пересмотреть определение гена (Fleischmann et al. 1995, Lander et al. 2001, Venter et al. 2001). Ниже описывается эволюция концепции гена, приведены открытия, сделанные в ходе программы ENCODE и, на основе этих данных, предлагается обновленное определение гена.


История гена с 1860 года до программы ENCODE



Определение 1860 – 1900х: «Ген – это дискретная единица наследственности»


Концепция «гена» эволюционировала и усложнялась со времени ее появления (рис.1); плакат размером 126×56 см (pdf, 1,3 Mb) можно скачать из оригинала статьи.



Первоначальные понятия гена основывались на выделении отличительного признака организма и его наследуемости. Слово ген впервые использовал Вильгельм Иоганнсен (Wilhelm Johannsen) в 1909 году, основываясь на концепции Грегора Менделя (Mendel 1866). Слово ген – производное от пангена, которое использовал Гуго де Фриз (Hugo De Vries) для сущностей, вовлеченных в пангенез – гипотетическую теорию наследственности Дарвина, согласно которой от всех частей организма отделяются мельчайшие материальные частицы (геммулы), перемещающиеся в половые клетки и обеспечивающие развитие у потомков признаков, сходных с родительскими (Heimans 1962). Иоганнсен назвал геном «определенные условия, основы и детерминанты, присутствующие [в гаметах], являющиеся уникальными и самостоятельными, и поэтому независимыми путями определяющие многие характеристики организма» (Johannsen 1909, стр. 124). Этимология термина происходит от греческого генезис (рождение) или генос (источник, начало). Связанный термин генетика предложил William Bateson в 1905 г.


Разводя разные сорта гороха, Мендель заметил, что некоторые признаки растений, такие как высота или окраска цветка, у потомков не смешиваются и наследуются согласно определенным законам, и пришел к выводу, что эти признаки передаются различными дискретными сущностями (Mendel 1866). Он также показал, что различия признаков обусловлены различиями в наследуемых факторах, или, говоря на современном языке, фенотип определяется генотипом. Однако настоящая работа по выяснению природы единицы наследственности началась только после того, как работу Менделя повторили и «переоткрыли» Карл Корренс (Carl Correns), Эрих фон Чермак-Зейзенегг (Erich von Tschermak-Seysenegg) и Гуго де Фриз (Hugo De Vries) в1900 году (Tschermak 1900, Vries 1900, Rheinberger 1995).


Определение 1910х: «Ген – это отдельный локус»


Следующее важное открытие сделал американский генетик Томас Хант Морган (Thomas Hunt Morgan) со своими студентами, изучая расщепление мутаций у плодовых мушек Drosophila melanogaster. Они предложили модель, в которой гены расположены линейно и их способность к обмену (кроссоверу) пропорциональна расстоянию между ними. Первую генетическую карту создал Стёртевант (Sturtevant 1913), а Морган со студентами опубликовали работу «Механизм менделевской наследственности» (Morgan et al. 1915). В ранней генетике ген представлял собой некое абстрактное понятие, существование которого отражалось в том, как внешние признаки передавались от поколения к поколению. Первые генетики использовали в качестве методологии для изучения законов наследственности мутации и рекомбинацию нитей ДНК. Поэтому ген представлял собой локус, размер которого определялся мутацией, инактивирующей (или активирующей) изучаемый признак, и размером рекомбинирующих участков. Тот факт, что связь между генами соответствует их физической локализации на хромосомах, был показан позже американской исследовательницей Барбарой МакКлинток (McClintock 1929) в экспериментах на кукурузе.


Определение 1940х: «Ген – это чертеж белка»


Изучая метаболизм у гриба Neurospora, Бидл и Тейтем (Beadle and Tatum 1941) обнаружили, что мутации в генах могли вызывать дефекты в звеньях метаболических путей. Это привело к определению «один ген – один фермент», которое впоследствии преобразовалось в «один ген – один полипептид». С этой точки зрения, под «геном» неявно подразумевалась информация, стоящая за отдельными молекулами в биохимическом пути. Этот подход стал более явным и механистическим в последующие десятилетия.


Определение 1950х: «Ген – это физическая молекула»


Тот факт, что рентгеновские лучи могут вызывать мутации, показал, что наследственность имеет физическую молекулярную основу (Muller 1927). Следующим доказательством была демонстрация Гриффитом (Griffith 1928) того, что живые невирулентные штаммы бактерии Pneumococcus могут извлекать нечто из вирулентных, но мертвых штаммов и превращаться в вирулентные. Позднее выяснилось, что это вещество может разрушаться под действием фермента ДНКазы (Avery et al. 1944). В 1955 году Херши и Чейз установили, что веществом, которое передается бактериофагом своему потомку, является ДНК, а не белок (Hershey and Chase 1955). Более того, идея о том, что продуктом гена является вещество, способное к диффузии, легла в основу цис-транс-теста (cis-trans-test), использовавшегося в то время в бактериологии для определения принадлежности двух рецессивных аллелей (мутаций), сходных в фенотипическом выражении, к одному и тому же или разным генам, по способности соответствующих участков ДНК комплементировать друг с другом. С этой точки зрения С.Бензер предложил для определения понятия гена почти не употребляемый в настоящее время термин «цистрон» – участок ДНК, отвечающий за единичную функцию (Benzer 1955).


Определение 1960х: «Ген – это транскрибируемый код»


Трехмерная структура ДНК, открытая Уотсоном и Криком (Watson and Crick 1953), позволила объяснить механизм, обеспечивающий ее функции в качестве молекулы наследственности. Спаривание оснований показало, как генетическая информация может копироваться, а существование двух нитей ДНК – как случайные ошибки репликации могут приводить к мутациям в одной из дочерних копий ДНК.


Начиная с 1960 года молекулярная биология развивалась в ускоренном темпе. В 1965 году обнаружили, что молекулы РНК – копии (транскрипты) последовательностей ДНК, кодирующих белки – преобразуются (транслируются) в аминокислотные последовательности (Nirenberg et al. 1965, Söll et al. 1965). Фрэнсис Крик (Francis Crick 1958) обобщил понятие «экспрессия гена» как поток информации от нуклеиновой кислоты к белку (а не обратно) и сформулировал «центральную догму» молекулярной генетики: «Перенос генетической информации идет в направлении ДНК – РНК – белок». Однако уже тогда существовали исключения из этого определения: было известно, что некоторые гены кодируют не белки, а функциональные молекулы РНК, такие как рибосомальная РНК (рРНК), входящая в состав рибосом, с помощью которых осуществляется синтез белков, и транспортная РНК (тРНК), доставляющая аминокислоты к месту сборки белка. Кроме того, в РНК-содержащих вирусах ген имеет рибонуклеиновую природу. Молекулярный взгляд на ген 1960-х годов можно сформулировать так: ген представляет собой заключенный в нуклеиновой кислоте код, по которому образуется функциональный продукт.


Определение 1970х-1980х: «Ген – это открытая рамка считывания (open reading frame – ORF) части последовательности»


Развитие в 1970х годах методик клонирования генов (получения множества их копий) и секвенирования вкупе со знаниями о генетическом коде привело к прорыву в области молекулярной биологии. Мы получили подробную информацию об организации экспрессии генов – того, как из генов получаются белки. Первый просеквенированный ген принадлежал бактериофагу MS2. Этот бактериофаг был также первым полностью просеквенированным организмом (Fiers et al. 1971, 1976). Параллельное развитие компьютерных методик позволило создать алгоритмы для идентификации генов, основанные на характеристиках нуклеотидных последовательностей (Rogic et al. 2001). Во многих случаях по последовательности нуклеотидов можно предположить структуру и функцию гена и его продукта. Эта ситуация породила новую концепцию «номинального гена», который определяется предсказанной последовательностью, а не генетическим локусом, ответственным за фенотип (Griffiths and Stotz 2006). Идентификация большинства генов в просеквенированных геномах основывается либо на их сходстве с другими известными генами, либо на статистически значимых характеристиках последовательности, кодирующей белок. Во многих случаях гены эффективно определяли как прокомментированные открытые рамки считывания – нуклеотидные последовательности ДНК (реже – РНК), потенциально способные кодировать белок и расположенные между первым, инициирующим кодоном и последним, стоп-кодоном (Doolittle 1986).


Определение 1990х-2000х: «Аннотированная структурная единица генома, зарегистрированная в одной из баз данных» (современный взгляд, до ENCODE)


По определению Human Genome Nomenclature Organization, ген – это «сегмент ДНК, влияющий на фенотип или функцию. В отсутствие проявленной функции ген может быть охарактеризован последовательностью, транскрипцией или гомологией» (Wain et al. 2002). А согласно определению Sequence Ontology Consortium, ген – это «локализуемый участок последовательности генома, соответствующий единице наследственности, которая ассоциирована с регуляторными, транскрипционными и другими функциональными участками последовательности» (Pearson 2006). Секвенирование геномов различных организмов, от первого бактериального генома Haemophilus influenza до человека (Fleischmann et al. 1995, Lander et al. 2001, Venter et al. 2001), привело к взрывообразному росту числа последовательностей, подпадающих под приведенное выше определение. Большой интерес к подсчету числа генов в различных организмах вылился даже в такую оригинальную форму, как широко освещенный в свое время в печати «Генный тотализатор» – Gene Sweepstake (Wade 2003). Накопление данных привело к пониманию того, что до сих пор чрезмерное значение придавалось генам, кодирующим белки. К примеру, когда в 2003 году опубликовали число кодирующих белки генов в геноме человека, стало ясно, что мы очень мало знаем о генах, кодирующих РНК. Концепция гена по Ensembl (совместный проект European Molecular Biology Laboratory, European Bioinformatics Institute и Wellcome Trust Sanger Institute, целью которого является создание программной системы для автоматической аннотации эукариотических геномов) сформулирована в правилах Gene Sweepstake так: «все транскрипты, полученные в результате альтернативного сплайсинга, относятся к одному гену, даже если из них получаются разные белки».


Современная компьютерная аналогия: «Ген – это подпрограмма в операционной системе генома»


Лексика компьютерного языка все шире применяется для описания генов, поскольку они тоже причастны к передаче информации, а геномика предполагает широкое использование биоинформатики. Ученые, занимающиеся компьютерной биологией, используют логику формального языка для описания структуры генов по аналогии с грамматикой компьютерных программ – с точным синтаксисом, описывающим каждый этап регуляции их функций и все экзоны (части генов, кодирующие аминокислотные цепочки) и интроны (участки генов, не кодирующие аминокислотные последовательности и удаляемые в процессе сплайсинга) (Searls 1997, 2001, 2002). Наиболее популярная компьютерная метафора – это представление генов в качестве подпрограмм в огромных операционных системах (ОС). Как нуклеотиды генома складываются в код, который реализуется в процессах транскрипции и трансляции, так и геном можно рассматривать как ОС живого существа, а гены – как ее отдельные подпрограммы, которые неоднократно «запускаются» в процессе транскрипции.


Перевод: Дарья Червякова,
Интернет-журнал «Коммерческая биотехнология» http://www.cbio.ru/


Продолжение: Проблемные аспекты в современном определении гена


Ваш комментарий:
Только зарегистрированные пользователи могут оставлять комментарии. Чтобы оставить комментарий, необходимо авторизоваться.
Вернуться к списку статей