Число генетических регуляторов у человека превысило два миллиона
Информация из гена, то есть из ДНК, сначала копируется (транскрибируется) в РНК, а потом на РНК синтезируется белок. Есть типы РНК, которые не несут никакой белковой информации, а работают сами по себе. В любом случае, активность гена можно оценить по количеству РНК, которые на нём синтезируются. Львиная доля регуляции генетической активности приходится как раз на этот этап, то есть на транскрипцию, и один из главных инструментов здесь – так называемые цис-регуляторные элементы. Так называют последовательности ДНК, которые влияют на гены, расположенные на той же молекуле ДНК: последовательности-промоторы сидят вплотную к регулируемым генам, энхансерные последовательности, активирующие транскрипцию, могут находиться как рядом со своим геном, так и довольно далеко от него (но всё равно на той же ДНК); то же самое касается сайленсеров, которые транскрипцию подавляют. Промоторы, энхансеры и сайленсеры работают не сами по себе, а в связке с белками, которые взаимодействуют с регуляторными последовательностями и влияют на поведение других белков, непосредственно занимающихся транскрипцией, то есть синтезом РНК на ДНК. Есть и другие типы цис-регуляторов, но все они так или иначе влияют на возможность и интенсивность транскрипции.
Один ген может управляться сразу несколькими регуляторами, и наоборот, один регулятор может влиять на несколько генов. Цис-регуляторных элементов много, намного больше, чем генов. До последнего времени предполагалось, что в мышином геноме их 300 тыс., а в человеческом – 900 тыс. Однако авторы недавней статьи в Nature полагают, что эти цифры сильно занижены. Регуляторные последовательности обнаруживают, наблюдая, как меняется активность гена при мутациях в тех или иных областях ДНК. К этому добавляются данные о том, как с ДНК взаимодействуют регуляторные белки. Грубо говоря, если один из таких белков как-то по-особенному тянет к той или иной последовательности, с большой долей уверенности можно предположить, что последовательность представляет собой регуляторный элемент. Ещё есть данные о трёхмерной структуре генома, то есть о том, какие участки внутри ДНК склонны сближаться друг с другом: чтобы отдалённый регуляторный элемент смог повлиять на свой ген, он должен к нему приблизиться. Ещё сведения о регуляторных элементов можно выудить просто из последовательности ДНК.
Информация, указывающая на новые регуляторные элементы, содержится в большом количестве молекулярно-генетических исследований, и она достаточно структурирована, чтобы её можно было свести воедино. Исследователи проанализировали эти данные, и оказалось, что регуляторных последовательностей в человеческом геноме не 900 тыс., а 2,37 млн. У мыши это число поднялось до 927 тыс. Попутно выяснилось, что одна и та же регуляторная последовательность в разных типах клеток может вести себя диаметрально противоположным образом: в одних клетках она работает энхансером, то есть активатором гена, в других – сайленсером, то есть подавителем.
Среди генетических исследований есть так называемый полногеномный поиск ассоциаций, когда устанавливают связи между вариантами генетического текста (часто под вариантами подразумеваются только однобуквенные-однонуклеотидные замены) и «внешними» признаками (обычно это какие-то медицинские особенности). В таких исследованиях вовсе не обязательно говорится о генах или генетических регуляторах.
Но если данные полногеномных ассоциаций объединить с реестром регуляторных последовательностей, можно узнать нечто новое именно о генах. Для примера исследователи пишут о гене KLF1, от которого зависит созревание эритроцитов: благодаря обновлённому атласу регуляторов удалось показать, что в формировании красных кровяных клеток главную роль играет именно KLF1. Другие гены могут влиять на этот процесс, но на вторых ролях. Не секрет, что хотя человеческий геном прочитан, функции очень многих генов до сих пор неясны. С новыми данными о регуляторных ДНК-последовательностях работа в этом направлении должна пойти быстрее.
