ENCODE: что такое ген? Эволюция понятия и новое определение гена (3)

05.09.200744780

Начало статьи: История гена с 1860 года до программы ENCODE


Активность генома: что открыл ENCODE


Как описано выше, до наступления эпохи проекта ENCODE уже были известны очень сложные аспекты определения термина «ген», которые, впрочем, не влияли на понимание фундаментального понятия гена. Результаты проекта ENCODE, в особенности картирование транскрипционной активности и регуляции с помощью tiling arrays (дословно – «черепичные микрочипы», набор микрочипов, на которые нанесены 45 миллионов однонитевых проб, представляющих весь геном), расширили и углубили сбивающие с толку сложности, вынося их на поверхность и приближая к пониманию того, что же представляет собою ген.


ENCODE обнаружил сети длинных молекул РНК и элементов регуляции генов, рассыпанных по геному


Не аннотированная транскрипция


Первое, что обнаружилось в рамках программы ENCODE, – это подтверждение недавних работ (Bertone et al. 2004, Cheng et al. 2005) о том, что огромные количества не аннотированной ДНК транскрибируются в РНК (The ENCODE Project Consortium 2007). Новые участки, производящие РНК, называют транскрипционно активными регионами – ТАРами (transcriptionally active regions – TARs) или трансфрагами (transfrags). Основная часть генома транскрибируется на уровне первичных транскриптов. Однако из всех сплайсированных молекул РНК, обнаруженных в известных культурах клеток, для которых составлялись генетические карты, только около половины аннотированы как гены.


Не аннотированные и альтернативные ССТ


Вторым важным открытием проекта ENCODE стали огромные количества не аннотированных сайтов старта транскрипции (ССТ) (transcription start sites – TSSs), обнаруженных в результате секвенирования начальных участков мРНК и картирования областей, с которыми связываются транскрипционные факторы при помощи методик ChIP-chip или ChIP-PET (The ENCODE Project Consortium 2007).


Методика ChIP-chip представляет собой комбинацию двух методов: иммунопреципитации хроматина (chromatin immunoprecipitation – ChIP) и микрочипов (chip). При помощи иммунопреципитации хроматина белки, «работающие» на ДНК в живых клетках, фиксируют в их сиюминутных позициях на ДНК (например, транскрипционные факторы на промотерах), затем осаждают с антителами к интересующему белку и выделяют связанные кусочки ДНК. По взаимодействию выделенных и помеченных флуоресцентным красителем однонитевых участков ДНК с парными фрагментами на микрочипах (наборах поверхностей с зафиксированными однонитевыми копиями фрагментов генома) определяют сайты связывания интересующего белка и их положения в геноме, т.е. картируют.


Кроме этого оказалось, что многие известные гены, кодирующие белки, имеют альтернативные ССТ, удаленные порой более чем на 100 тысяч оснований «вверх по течению» (в направлении 5’) от известного места старта транскрипции. Часть удаленных ССТ используют промоторы других генов, т.е. имеют общий ССТ. Поэтому многие альтернативные РНК получаются при транскрипции нескольких генов с общего ССТ (рис.2). Многие альтернативные РНК, кодирующие один белок, различаются только 5’ нетранслируемыми участками (5' untranslated regions – UTRs).



Рисунок 2. ENCODE: сложная картина регуляции и транскрипции.
(A) Типичный геномный регион.
Вверху – последовательность ДНК с аннотированными экзонами генов (черные прямоугольники) и новыми ТАРами (белые прямоугольники).
Ниже – различные транскрипты, образованные с прямой и обратной нитей этого региона ДНК (пунктирные линии – интроны, исключенные во время сплайсинга).
С помощью обычной генной аннотации можно обнаружить только часть транскриптов четырех генов, указанных в регионе. Проект ENCODE открыл, что многие транскрипты образуются с удаленных ССТ при непрерывном синтезе по нескольким генным локусам.
(B) Различные регуляторные последовательности гена. Для Gene1 показаны все транскрипты, включая новые изоформы и регуляторные регионы (серые кружки). Оказалось, что некоторые энхансеры на самом деле являются промоторами для новых сплайсированных изоформ. Некоторые регуляторные последовательности Gene1 могут располагаться ближе к другому гену, из-за чего возможно неверное определение гена, регулируемого этой последовательностью.


Еще раз об альтернативном сплайсинге


Анализ нарастающего потока аннотированных последовательностей, генерируемого учеными из Института Сэнджера (Sanger Institute) в рамках программы GENCODE (Harrow et al. 2006), показал, что увеличилось количество альтернативных транскриптов, приходящихся на один генный локус, а не самих генов, кодирующих белки. По данным GENCODE, на один локус приходится в среднем 5,4 транскриптов. Таким образом, часть огромной массы не аннотированных транскриптов может соответствовать совершенно новым генным локусам, кодирующим белки. Однако все же большая часть не аннотированных РНК может относиться как к неизвестным некодирующим РНК, так и являться сегментами не аннотированных транскриптов, прошедших альтернативный сплайсинг и относящихся к известным генам.


Рассыпанная регуляция


Рисунок 2B иллюстрирует картину разбросанных по геному элементов регуляции (The ENCODE Project Consortium 2007). Регуляторные сайты для данного гена не обязательно должны находиться сразу «сверху по течению», а могут располагаться очень далеко от него, вблизи другого гена. Транскрипционные факторы, покрывающие весь геном, образуют богатые регуляторными участками «леса» и бедные «пустыни» (Zhang et al. 2007).


Некоторые регуляторные элементы сами могут транскрибироваться. В классической краткой модели гена элемент ДНК, регулирующий экспрессию гена (промотор, энхансер – последовательность ДНК, активирующая транскрипцию и инсулятор – последовательность ДНК, блокирующая энхансер), сам не транскрибируется. Однако даже в 1960х было уже известно, что регулирующие элементы могут располагаться в транскрибируемых регионах – например, lac-оперон (Jacob and Monod 1961), энхансер бета-глобинового гена (Tuan at al. 1989) и сайт связывания транскрипционного фактора YY1 (Shi et al. 1991).


Море данных, полученных в рамках программы ENCODE, а также недавние эксперименты с использованием методики ChIP-chip еще раз подтвердили, что краткая модель гена слишком проста (Cawley et al. 2004, Euskirchen et al. 2004, Kim et al. 2005, The ENCODE Project Consortium 2007, Zhang et al. 2007).


Генные или интергенные регионы: есть ли разница?


В общей сложности, результаты проекта ENCODE открыли широкомасштабную транскрипционную активность генома. Согласно традиционному определению, гены – это отделенные друг от друга единичные участки последовательностей ДНК. Если попытаться дать определение гена на основе знания о перекрывающихся транскриптах, то выяснится, что многие аннотированные генные локусы объединятся в большие геномные регионы.


В свете результатов ENCODE стираются различия в понятиях «генные» и «интергенные» регионы. Интергенными регионами называют последовательности ДНК, соединяющие кластеры генов. Они составляют значительную часть генома человека, но содержат при этом очень мало генов, кодирующих белки; их относят к «мусорной» ДНК. Согласно последним данным, гены распространяются теперь и на интергенное пространство, потенцируя образование новых транскриптов, синтезируемых с дополнительных регуляторных сайтов.


В интергенном пространстве тоже наблюдается существенная активность, определяемая двумя известными основными факторами: молекулами РНК, не кодирующими белки – нкРНК (non-protein-coding RNAs – ncRNAs) и транскрибируемыми псевдогенами. Часть этих элементов генома находится в интронах генов, кодирующих белки.


Некодирующие РНК


К некодирующим РНК относятся транскрипты, занятые в регуляции генов – к примеру, микро-РНК (miRNAs), в созревании РНК – малые ядрышковые РНК (snoRNAs) и в белковом синтезе (tRNAs и rRNAs) (Eddy 2001, Mattick and Makunin 2006). Гены, кодирующие нкРНК, сложно локализовать, т.к. у них нет кодонов и открытых рамок считывания. По этой причине у людей известна только фракция функциональных нкРНК. Часть нкРНК можно найти путем анализа пространственной свертки РНК и коэволюционного анализа (например, нкРНК из рибонуклеиновых комплексов, формирующих специфические вторичные структуры в комплексе с пептидами) (Washietl et al. 2005, 2007, Pedersen et al. 2006). Пример длинного гена XIST (X inactive specific transcript; длина гена – 17000 пар оснований), участвующего в механизме компенсации доз генов, сцепленных с полом, (нетранслируемая РНК, продуцируемая геном Xist, покрывает Х-хромосому, в результате чего она конденсируется и инактивируется, а это, в свою очередь, приводит к уравниванию доз Х-сцепленных генов между мужским (XY) и женским (XX) полом), показывает, что влияние функциональных нкРНК может распространяется далеко за пределы их локусов, определяемых компьютерными программами (Chureau et al. 2002, Duret et al. 2006).


Возможно, что продукты РНК не имеют функции сами по себе, но могут иметь значение в определенных клеточных процессах или как-то их отражать. Например, транскрипция регуляторного региона может играть важную роль в доступности хроматина, или быть необходимой для связывания транскрипционного фактора и для репликации ДНК. С другой стороны, транскрипция может отражать неспецифическую активность определенного региона, например, доставку полимераз (ферментов, осуществляющих синтез) к регуляторным сайтам. В каждом из этих сценариев молекулы РНК не имеют собственной функции и, скорее всего, не являются консервативными.


Псевдогены


Псевдогены – это нефункциональные производные известных генов, кодирующих белки или РНК, которые потеряли свою кодирующую функцию (Balakirev and Ayala 2003). Псевдогены гомологичны своим прототипам, но не функциональны. Их часто обнаруживают в интронах генов или интергенном пространстве (Torrents et al. 2003, Zhang et al. 2003). Превалирование псевдогенов в геноме человека и их гомологичность известным генам сильно затрудняет аннотирование. Недавно обнаружилось, что значительная фракция псевдогенов (до 20%) транскрипционно активна, что необходимо учитывать при методе картировании генов, основанном на экспрессии (Yano et al. 2004, Harrison et al. 2005, Zheng et al. 2005, 2007, Frith et al. 2006). Некоторые из ТАРов можно отнести к транскрипционным псевдогенам (Bertone et al. 2004, Zheng et al. 2005). Псевдогенная РНК или даже ее фрагмент может участвовать в сплайсинге с транскриптом соседнего гена, формируя химерный транскрипт «ген-псевдоген». Функциональные псевдогенные транскрипты обнаружили в эукариотических клетках – в нейронах улитки Lymnaea stagnalis (Korneev et al. 1999). Интересно, что вышеупомянутый ген XIST происходит от псевдогена (Duret et al. 2006). Транскрипция псевдогенов и размывание границ между генами и псевдогенами (Zheng and Gerstein 2007) подчеркивает в очередной раз, что функциональную природу новых ТАРов необходимо прояснить дальнейшими генетическими и биохимическими экспериментами (Gingeras 2007).


Консервативные элементы


Некодирующие интергенные регионы содержат много функциональных элементов, идентифицированных при анализе эволюционных изменений у многих видов и в человеческой популяции. По данным проекта ENCODE, только 40% эволюционно консервативных оснований находятся в пределах экзонов или ассоциированных с ними нетранслируемымых участков – untranslated regions, UTRs (The ENCODE Project Consortium 2007). Межвидовой анализ по проекту ENCODE выявляет с высокой точностью консервативные элементы размером до 8 (в среднем 19) оснований (The ENCODE Project Consortium 2007). Поэтому локусы генов, кодирующих белки, можно рассматривать как кластеры маленьких консервативных элементов, рассеянных в море не консервативных последовательностей. Другие 20% консервативных элементов перекрываются с экспериментально аннотированными регуляторными регионами. Оставшиеся консервативные элементы, около 40% (100% – 40% кодирующих – 20% регуляторных) располагаются в регионах, кодирующих белки, в качестве не аннотированных некодирующих участков.


Компьютерная метафора, созданная проектом ENCODE: «Гены – это неточно кодирующие программы»


Метафора гена как простой программы в огромной операционной системе (ОС) уже не согласуется с новыми знаниями о гене, полученными в ходе проекта ENCODE. Теперь следовало бы определять генную «программу» не одним путем, а несколькими, беря за основу альтернативный сплайсинг и сети длинных транскриптов. Геномная ОС работает менее точно, чем ОС обычного компьютера с повторяющимися обращениями к дискретным подпрограммам. И все же идея описания генома как действующего кода имеет свои достоинства. К примеру, можно лучше понять транскрипцию генов как аллегорию плетущихся параллельных нитей с условием, что все эти нити не подчиняются канонической модулярной подпрограммной структуре. Скорее всего, создаваемые нити беспорядочно перекручены и их можно было бы описать как нестабильный неструктурированный код компьютерной программы с множеством ответвлений «GOTO», имитирующих «застегивание и расстегивание молний» двунитевых петель и других конструкций.


Значение моделей генов для интерпретации высокопродуктивных экспериментов ENCODE


Провокационные результаты проекта ENCODE ставят вопрос о том, как интерпретировать множество данных, полученных высокопродуктивными методами? Фактически, интерпретация напрямую зависит от используемой модели гена.


Аспекты интерпретации данных по tiling array


Основную массу данных по транскрипции получили с помощью методики tiling arrays («черепичных микрочипов»), специально разработанной для картирования неизвестных транскриптов (Emanuelsson et al. 2007, Rozowsky et al. 2007, The ENCODE Project Consortium 2007).


Преимуществом этих микрочипов является объективное и детальное зондирование транскрипции, поскольку оно проводится на всем геноме, а не на предвзято выбранных его областях. С другой стороны, результаты по tiling arrays могут быть искаженными, и для достоверного определения регионов транскриции необходимо тщательно интерпретировать полученные данные. Количество определяемой РНК сильно зависит от границ исследуемого участка транскрпции и от алгоритмов, используемых для того, чтобы отличить транскрибируемые регионы от нетранскрибируемых. Поскольку картирование транскриптов по проекту ENCODE проводится на различных тканях и клеточных культурах, простое сравнение результатов этих экспериментов является нетривиальной задачей. Полученные транскрипционные карты редко перекрываются из-за изменчивых биологических характеристик, используемых в tiling arrays.


Очевидно, что ожидаемый точный результат этих экспериментов – истинная транскрипционная карта – неизвестен. Критическим моментом в интерпретации транскрипционного картирования с помощью tiling arrays является выбор тех значений сигналов, которые можно было бы принять за ноль.


«Базовую линию» (ноль) транскрипции невозможно получить, просто придав случайный характер необработанным результатам и применив к ним все нормализующие, подсчитывающие и сегментирующие схемы (с неизменными параметрами). При выборе «базовой линии» распределения транскрипции необходимо учитывать GC-состав, протяженность транскрибируемых регионов (действительных или ожидаемых) и динуклеотидный состав. Ожидаемый результат также зависит от используемого биологического образца: культур клеток или тканей органов, стадий развития и внешних стимулов и т.д. Достоверность транскрипционных карт повышается при обобщении результатов транскрипционного картирования, полученного для разных экспериментальных объектов (тканей, клеточных культур).


Гены как статистические модели, суммирующие результаты многих экспериментов


Концепция гена важна для интерпретации высокопродуктивных методов, дающих море данных, таких как tiling arrays, и для сжатого суммирования потенциально фоновых экспериментальных данных. В конечном счете, tiling arrays идентифицируют ТАРы и трансфраги, обычно находящиеся в экзонах, поэтому наиболее подходящей моделью гена в этом случае может быть модель сплайсирующихся графов (splicing graphs, Heber et al. 2002). Этот метод принципиально отличается от традиционных тем, что в нем линейные последовательности транскриптов представлены в виде узлов графа и каждому транскрипту соответствует свои связи в графе, а процесс сплайсинга обобщен в модель, описывающую связи между узлами графа.


Для разработки статистических моделей, помогающих интерпретировать экспериментальные результаты по tiling arrays, необходимо учитывать дополнительные биологические сведения, например, генные аннотации. Кроме этого, tiling arrays дают возможность определить изолированные транскрибируемые регионы, а экспериментально подтвердить полученные результаты можно, например, с помощью метода быстрой амплификации концов кДНК (Rapid Amplification of cDNA Ends, RACE), производящего множество ДНК-копий концов РНК по информации из ее середины (RT-PCR, reverse transcription-polymerase chain reaction – полимеразная цепная реакция с обратной транскриптазой).


Для объяснения результатов по tiling arrays предлагались различные статистические модели (Karplus et al. 1999, Bertone et al. 2004, Schadt et al. 2004, Gibbons et al. 2005, Ji and Wong 2005, Li et al. 2005, Du et al. 2006, Marioni et al. 2006). Оптимально сегментировать последовательность генома на функциональные элементы можно, применяя эти модели к данным по tiling arrays и другим биологическим знаниям и экстраполируя обработанные результаты на весь геном. Чем больше накоплено биологических данных, особенно с помощью экспериментальной оценки предсказанных регионов, тем лучше можно будет подогнать статистические модели и уточнить результаты анализа экспериментальных данных.


Перевод: Дарья Червякова,
Интернет-журнал «Коммерческая биотехнология» http://www.cbio.ru/


Окончание: На пути к обновленному определению гена


Ваш комментарий:
Только зарегистрированные пользователи могут оставлять комментарии. Чтобы оставить комментарий, необходимо авторизоваться.
Вернуться к списку статей