20 лет публикации генома человека / От скрининга генома HGP к сетевой протеомике
20-летие публикации первого варианта генома человека дает возможность проследить, как этот проект расширил возможности исследования генетических корней болезней человека, изменил открытие лекарств и помог пересмотреть идею самого гена.
Здесь мы выделяем эти воздействия и тенденции. Мы объединили несколько наборов данных для количественной оценки различных типов генетических элементов, которые были обнаружены и породили публикации, а также того, как модель открытия и публикации изменилась с годами. Наш анализ соединил данные, включая 38 546 транскриптов РНК; около 1 миллиона однонуклеотидных полиморфизмов (SNP); 1660 болезней человека с задокументированными генетическими корнями; 7 712 одобренных и экспериментальных лекарственных препаратов; и 704 515 научных публикаций с 1900 по 2017 год (см. дополнительную информацию; SI).
Результаты показывают, как проект «Геном человека» (HGP) с его исчерпывающим списком генов, кодирующих белок, стимулировал новую эру выяснения функции некодирующей части генома и проложил путь для терапевтических разработок. Важно отметить, что результаты отслеживают появление системного подхода к биологии наряду с традиционной перспективой одного гена, поскольку исследователи картировали взаимодействия между клеточными строительными блоками (см. «Никаких прыжков для больших команд»).
У нашего анализа есть ограничения. Например, нет единого мнения о том, где начинается и заканчивается ген или, что удивительно, даже какая последовательность точно кодирует некоторые гены. Для некоторых геномных элементов используется несколько соглашений об именах, поэтому иногда наша методология не связывает их. А другие связи между публикациями и элементами могли не быть добавлены авторами в базы данных. Наконец, наши графики заканчиваются в 2017 году, потому что между публикацией статьи и входом в используемые нами базы данных может быть временная задержка.
Визуализация Алисы Грищенко; исследования Александра Дж. Гейтса, Дейзи Морселли Гизи, Чаба Бота, Манолиса Келлиса и Альберта-Ласло Барабаши.
Однако мы не ожидаем, что эти проблемы повлияют на наблюдаемые нами тенденции изменений в исследованиях генома с течением времени. Тенденции сохранятся, если мы будем контролировать рост публикаций по биологии за тот же период (см. SI, рис. S6). Мы не контролировали время с момента открытия генов, но полагаем, что это не изменило бы наших выводов.
Эти связи дают представление об эволюции исследовательского ландшафта до и после HGP. Он демонстрирует пристальное внимание к небольшому количеству генов, кодирующих белки «суперзвезды», потенциально в ущерб интересной работе, которую можно было бы проделать с другими. Произошел поворот к участкам генома, не кодирующим белки, и к пониманию взаимодействия между генетическим материалом и белками. И открытие лекарств было основано всего на нескольких белковых мишенях.
Некоторые из этих тенденций знакомы биологам, но для их количественной оценки и визуализации необходимо рассмотреть их заново.
Для сравнения, нет мира без HGP. Поэтому невозможно сказать, возникли ли эти тенденции в любом случае. Другие факторы, от увеличения вычислительной мощности до сложных методов секвенирования, также сыграли роль во многих из этих разработок. Тем не менее ясно, что каталог HGP стал катализатором продолжающейся генетической революции.
источник Barabási Lab
Гены «суперзвезды»
Распространено мнение, что HGP положил начало интенсивным поискам генов, кодирующих белок. Фактически, проект документа HGP 2001 года означал конец многолетней охоты. Действительно, доказательства первого гена, кодирующего белок, появились в 1902 году с открытием гормона секретина 4 ( SCTgen), за 50 лет до открытия структуры ДНК и за 75 лет до того, как секвенирование генома стало обычным явлением. Наш анализ показывает, что между началом HGP в 1990 году и его завершением в 2003 году (после того, как проект был опубликован в 2001 году), количество обнаруженных (или «аннотированных») генов человека резко выросло. Он внезапно выровнялся в середине 2000-х и составил около 20 000 генов, кодирующих белок (см. «Двадцать лет мусора, звезд и лекарств: некодирующие элементы»), что намного меньше 100 000-сильной оценки, ранее принятой многими в научных кругах. сообщество .
Хотя открытия генов, кодирующих белок, достигли плато, интерес к отдельным генам быстро вырос после HGP. Каждый год, начиная с 2001 г., публикуется от 10 000 до 20 000 статей, в которых упоминаются гены, кодирующие белок (см. SI; рис. S3).
Однако этот интерес в основном сосредоточен всего на нескольких генах. До 1990 г. HBA1 был наиболее изученным, поскольку он кодирует один из белков гемоглобина взрослого человека. С 1990 года внимание переключилось на CD4 (по совокупному количеству публикаций), учитывая участие белка в Т-клеточном иммунитете и в качестве клеточного рецептора ВИЧ. Тем не менее, интерес к этим двум генам бледнеет по сравнению с взрывом внимания к отдельным генам после проекта последовательности 2001 HGP. Некоторые гены «суперзвезды», включая TP53, TNF и EGFR, стал предметом сотен публикаций в год, при этом большинству других генов уделялось мало внимания (см. «Глубокое воздействие» и «Двадцать лет мусора, звезд и лекарств: гены звезд»). Мы обнаружили, что к 2017 году 22% публикаций, связанных с генами, ссылались только на 1% генов.
источник Barabási Lab
Разумеется, пристальное изучение генов, имеющих огромное биологическое значение, оправдано. Хорошим примером является TP53 — он имеет решающее значение для роста и гибели клеток и приводит к раку в случае его инактивации или изменения. Вариации этого гена обнаруживаются более чем в 50% опухолевых последовательностей. Он упоминается в 9232 публикациях с 1976 по 2017 год (см. SI, рис. S4).
Можно предположить, что чем больше известно об одних и тех же генах, тем сильнее будет стимул исследовать остальную часть генома. Вместо этого в течение последних двух десятилетий произошло обратное: больше внимания было уделено немногим избранным. Несмотря на то, что это было помечено как потенциальная проблема к десятой годовщине публикации проекта генома, корректировки курса не было.
Наша предыдущая работа над другими, очень разными системами, от социальных сетей людей до Всемирной паутины, показывает, что этот огромный дисбаланс может быть объяснен динамикой «богатый становится богаче» основанной на социальных факторах. Вероятно, что по мере увеличения количества статей, посвященных TP53, тем легче будет обеспечить финансирование, наставничество, инструменты и ссылки для дальнейшей работы над TP53, потому что это безопасная ставка (см. SI; рис. S4). В сетевой науке это явление называется предпочтительной привязанностью 7. Действительно, мы обнаруживаем, что количество новых ежегодных публикаций, посвященных данному гену, линейно пропорционально размеру предыдущей литературы по нему (см. SI, рис. S6).
Сегодня перед биологией стоит задача разобраться в мотивах того, что будет изучаться дальше. Вкладывают ли исследователи деньги, время и усилия в то, что является наиболее важным или срочным, или во что-то еще, потому что это гарантированно принесет гранты и похвалы?
Не мусор
Перед началом HGP начались большие дебаты: стоит ли наносить на карту обширные некодирующие области генома, которые были названы мусорной ДНК, или темной материей генома? В значительной степени благодаря HGP теперь стало понятно, что большинство функциональных последовательностей в геноме человека не кодируют белки. Скорее, такие элементы, как длинные некодирующие РНК, промоторы, энхансеры и бесчисленные мотивы, регулирующие ген, работают вместе, чтобы оживить геном. Вариации в этих областях не изменяют белки, но могут нарушать сети, управляющие экспрессией белков.
С подготовкой проекта HGP открытие элементов, не кодирующих белок, стало взрывным. Пока этот рост в пять раз опередил открытие генов, кодирующих белок, и не показывает никаких признаков замедления. Аналогичным образом, количество публикаций о таких элементах также выросло за период, охватываемый нашим набором данных (с 1900 по 2017 год; см. SI, рис. S3a). Например, существуют тысячи статей о некодирующих РНК, которые регулируют экспрессию генов.
HGP также предлагает способ каталогизировать генетические вариации человека, в том числе SNP. Другие большие усилия позволили сократить расходы на профилирование общих различий между тысячами людей; к ним относятся Международный проект HapMap (третий и последний этап которого был завершен в 2010 году) и проект «1000 геномов» (завершен в 2015 году). Эти наборы данных, в сочетании с достижениями в статистическом анализе, положили начало общегеномным ассоциативным исследованиям (GWAS) бесчисленных признаков, включая рост, ожирение и предрасположенность к сложным заболеваниям, таким как шизофрения.
Сейчас существует более 30 000 статей в год, связывающих SNP и черты характера. Большая часть этих ассоциаций находится в некодирующих областях, которые когда-то были отклонены (см. SI, Таблица S3).
Клеточная функция зависит от слабых и сильных связей между генетическим материалом и белками. Картирование этой сети теперь дополняет менделевскую перспективу. На сегодняшний день нанесено на карту более 300 000 взаимодействий регуляторной сети — связывание белков с некодирующими участками или с другими белками.
Открытие лекарств
Примерно до 1980-х годов лекарства были обнаружены в основном благодаря интуиции. Их молекулярные и белковые мишени обычно были неизвестны. До 2001 года вероятность узнать все целевые уровни белка в лекарстве была менее 50% в любой конкретный год. HGP изменил это. Теперь цели известны почти для всех лекарств, лицензируемых в США каждый год (см. «Двадцать лет мусора, звезд и лекарств: мишени для лекарств»).
источник Barabási Lab
Из примерно 20 000 белков, выявленных HGP в качестве потенциальных мишеней для лекарств, мы показываем, что только около 10% — 2 149 — до сих пор были нацелены на одобренные лекарства (см. SI, Таблица S4 и Рис. S1). Это оставляет 90% протеома нетронутым фармакологией . Экспериментальные препараты в нашем наборе данных увеличивают это число до 3119 (SI, рис. S2). Опять же, им уделяется очень неравномерное внимание. Пять процентов всех одобренных в настоящее время лекарств (99 различных молекул) нацелены на белок ADRA1A, который участвует в росте и пролиферации клеток.
Как и раньше, для такого перекоса могли быть веские причины. Некоторые белки могут быть более важны для здоровья человека или с большей вероятностью выступать в качестве мишеней для лекарств. Некоторые могут не поддаваться воздействию лекарств. Или могло бы быть, что есть намного больше белков, которые стоит изучить в качестве мишеней для лекарств, если бы только исследователи, спонсоры и издатели были менее склонны к риску.
Тем не менее, большинство успешных лекарств не нацелены напрямую на отдельные гены болезней. Вместо этого они нацелены на белки на одно или два взаимодействия, модулируя последствия неисправных компонентов. Например, широкомасштабные проверки существующих лекарств, которые можно было бы перепрофилировать для использования против COVID-19, показали, что только 1% многообещающих кандидатов нацелены на вирусный белок — большинство из них были лекарствами, которые модулируют человеческие белки, не участвующие напрямую в SARS-CoV-2. мероприятие. Такие сетевые препараты обладают огромным потенциалом.
Сеть мельком
Итак, мы думаем, что HGP более примечателен новой эрой геномики, которую он открыл, чем самим каталогом белков. Как показывает теория сложных систем, точный обзор компонентов необходим, но не достаточен, чтобы понять любую систему. Сложность возникает из-за разнообразия взаимодействий между компонентами. После 20 лет исследований, основанных на HGP, биологи теперь имеют представление о сетевой структуре и динамике, которые определяют жизнь.
фото и источник
Здесь мы выделяем эти воздействия и тенденции. Мы объединили несколько наборов данных для количественной оценки различных типов генетических элементов, которые были обнаружены и породили публикации, а также того, как модель открытия и публикации изменилась с годами. Наш анализ соединил данные, включая 38 546 транскриптов РНК; около 1 миллиона однонуклеотидных полиморфизмов (SNP); 1660 болезней человека с задокументированными генетическими корнями; 7 712 одобренных и экспериментальных лекарственных препаратов; и 704 515 научных публикаций с 1900 по 2017 год (см. дополнительную информацию; SI).
Результаты показывают, как проект «Геном человека» (HGP) с его исчерпывающим списком генов, кодирующих белок, стимулировал новую эру выяснения функции некодирующей части генома и проложил путь для терапевтических разработок. Важно отметить, что результаты отслеживают появление системного подхода к биологии наряду с традиционной перспективой одного гена, поскольку исследователи картировали взаимодействия между клеточными строительными блоками (см. «Никаких прыжков для больших команд»).
У нашего анализа есть ограничения. Например, нет единого мнения о том, где начинается и заканчивается ген или, что удивительно, даже какая последовательность точно кодирует некоторые гены. Для некоторых геномных элементов используется несколько соглашений об именах, поэтому иногда наша методология не связывает их. А другие связи между публикациями и элементами могли не быть добавлены авторами в базы данных. Наконец, наши графики заканчиваются в 2017 году, потому что между публикацией статьи и входом в используемые нами базы данных может быть временная задержка.
Визуализация Алисы Грищенко; исследования Александра Дж. Гейтса, Дейзи Морселли Гизи, Чаба Бота, Манолиса Келлиса и Альберта-Ласло Барабаши.
Однако мы не ожидаем, что эти проблемы повлияют на наблюдаемые нами тенденции изменений в исследованиях генома с течением времени. Тенденции сохранятся, если мы будем контролировать рост публикаций по биологии за тот же период (см. SI, рис. S6). Мы не контролировали время с момента открытия генов, но полагаем, что это не изменило бы наших выводов.
Эти связи дают представление об эволюции исследовательского ландшафта до и после HGP. Он демонстрирует пристальное внимание к небольшому количеству генов, кодирующих белки «суперзвезды», потенциально в ущерб интересной работе, которую можно было бы проделать с другими. Произошел поворот к участкам генома, не кодирующим белки, и к пониманию взаимодействия между генетическим материалом и белками. И открытие лекарств было основано всего на нескольких белковых мишенях.
Некоторые из этих тенденций знакомы биологам, но для их количественной оценки и визуализации необходимо рассмотреть их заново.
Для сравнения, нет мира без HGP. Поэтому невозможно сказать, возникли ли эти тенденции в любом случае. Другие факторы, от увеличения вычислительной мощности до сложных методов секвенирования, также сыграли роль во многих из этих разработок. Тем не менее ясно, что каталог HGP стал катализатором продолжающейся генетической революции.
источник Barabási Lab
Гены «суперзвезды»
Распространено мнение, что HGP положил начало интенсивным поискам генов, кодирующих белок. Фактически, проект документа HGP 2001 года означал конец многолетней охоты. Действительно, доказательства первого гена, кодирующего белок, появились в 1902 году с открытием гормона секретина 4 ( SCTgen), за 50 лет до открытия структуры ДНК и за 75 лет до того, как секвенирование генома стало обычным явлением. Наш анализ показывает, что между началом HGP в 1990 году и его завершением в 2003 году (после того, как проект был опубликован в 2001 году), количество обнаруженных (или «аннотированных») генов человека резко выросло. Он внезапно выровнялся в середине 2000-х и составил около 20 000 генов, кодирующих белок (см. «Двадцать лет мусора, звезд и лекарств: некодирующие элементы»), что намного меньше 100 000-сильной оценки, ранее принятой многими в научных кругах. сообщество .
Хотя открытия генов, кодирующих белок, достигли плато, интерес к отдельным генам быстро вырос после HGP. Каждый год, начиная с 2001 г., публикуется от 10 000 до 20 000 статей, в которых упоминаются гены, кодирующие белок (см. SI; рис. S3).
Однако этот интерес в основном сосредоточен всего на нескольких генах. До 1990 г. HBA1 был наиболее изученным, поскольку он кодирует один из белков гемоглобина взрослого человека. С 1990 года внимание переключилось на CD4 (по совокупному количеству публикаций), учитывая участие белка в Т-клеточном иммунитете и в качестве клеточного рецептора ВИЧ. Тем не менее, интерес к этим двум генам бледнеет по сравнению с взрывом внимания к отдельным генам после проекта последовательности 2001 HGP. Некоторые гены «суперзвезды», включая TP53, TNF и EGFR, стал предметом сотен публикаций в год, при этом большинству других генов уделялось мало внимания (см. «Глубокое воздействие» и «Двадцать лет мусора, звезд и лекарств: гены звезд»). Мы обнаружили, что к 2017 году 22% публикаций, связанных с генами, ссылались только на 1% генов.
источник Barabási Lab
Разумеется, пристальное изучение генов, имеющих огромное биологическое значение, оправдано. Хорошим примером является TP53 — он имеет решающее значение для роста и гибели клеток и приводит к раку в случае его инактивации или изменения. Вариации этого гена обнаруживаются более чем в 50% опухолевых последовательностей. Он упоминается в 9232 публикациях с 1976 по 2017 год (см. SI, рис. S4).
Можно предположить, что чем больше известно об одних и тех же генах, тем сильнее будет стимул исследовать остальную часть генома. Вместо этого в течение последних двух десятилетий произошло обратное: больше внимания было уделено немногим избранным. Несмотря на то, что это было помечено как потенциальная проблема к десятой годовщине публикации проекта генома, корректировки курса не было.
Наша предыдущая работа над другими, очень разными системами, от социальных сетей людей до Всемирной паутины, показывает, что этот огромный дисбаланс может быть объяснен динамикой «богатый становится богаче» основанной на социальных факторах. Вероятно, что по мере увеличения количества статей, посвященных TP53, тем легче будет обеспечить финансирование, наставничество, инструменты и ссылки для дальнейшей работы над TP53, потому что это безопасная ставка (см. SI; рис. S4). В сетевой науке это явление называется предпочтительной привязанностью 7. Действительно, мы обнаруживаем, что количество новых ежегодных публикаций, посвященных данному гену, линейно пропорционально размеру предыдущей литературы по нему (см. SI, рис. S6).
Сегодня перед биологией стоит задача разобраться в мотивах того, что будет изучаться дальше. Вкладывают ли исследователи деньги, время и усилия в то, что является наиболее важным или срочным, или во что-то еще, потому что это гарантированно принесет гранты и похвалы?
Не мусор
Перед началом HGP начались большие дебаты: стоит ли наносить на карту обширные некодирующие области генома, которые были названы мусорной ДНК, или темной материей генома? В значительной степени благодаря HGP теперь стало понятно, что большинство функциональных последовательностей в геноме человека не кодируют белки. Скорее, такие элементы, как длинные некодирующие РНК, промоторы, энхансеры и бесчисленные мотивы, регулирующие ген, работают вместе, чтобы оживить геном. Вариации в этих областях не изменяют белки, но могут нарушать сети, управляющие экспрессией белков.
С подготовкой проекта HGP открытие элементов, не кодирующих белок, стало взрывным. Пока этот рост в пять раз опередил открытие генов, кодирующих белок, и не показывает никаких признаков замедления. Аналогичным образом, количество публикаций о таких элементах также выросло за период, охватываемый нашим набором данных (с 1900 по 2017 год; см. SI, рис. S3a). Например, существуют тысячи статей о некодирующих РНК, которые регулируют экспрессию генов.
HGP также предлагает способ каталогизировать генетические вариации человека, в том числе SNP. Другие большие усилия позволили сократить расходы на профилирование общих различий между тысячами людей; к ним относятся Международный проект HapMap (третий и последний этап которого был завершен в 2010 году) и проект «1000 геномов» (завершен в 2015 году). Эти наборы данных, в сочетании с достижениями в статистическом анализе, положили начало общегеномным ассоциативным исследованиям (GWAS) бесчисленных признаков, включая рост, ожирение и предрасположенность к сложным заболеваниям, таким как шизофрения.
Сейчас существует более 30 000 статей в год, связывающих SNP и черты характера. Большая часть этих ассоциаций находится в некодирующих областях, которые когда-то были отклонены (см. SI, Таблица S3).
Клеточная функция зависит от слабых и сильных связей между генетическим материалом и белками. Картирование этой сети теперь дополняет менделевскую перспективу. На сегодняшний день нанесено на карту более 300 000 взаимодействий регуляторной сети — связывание белков с некодирующими участками или с другими белками.
Открытие лекарств
Примерно до 1980-х годов лекарства были обнаружены в основном благодаря интуиции. Их молекулярные и белковые мишени обычно были неизвестны. До 2001 года вероятность узнать все целевые уровни белка в лекарстве была менее 50% в любой конкретный год. HGP изменил это. Теперь цели известны почти для всех лекарств, лицензируемых в США каждый год (см. «Двадцать лет мусора, звезд и лекарств: мишени для лекарств»).
источник Barabási Lab
Из примерно 20 000 белков, выявленных HGP в качестве потенциальных мишеней для лекарств, мы показываем, что только около 10% — 2 149 — до сих пор были нацелены на одобренные лекарства (см. SI, Таблица S4 и Рис. S1). Это оставляет 90% протеома нетронутым фармакологией . Экспериментальные препараты в нашем наборе данных увеличивают это число до 3119 (SI, рис. S2). Опять же, им уделяется очень неравномерное внимание. Пять процентов всех одобренных в настоящее время лекарств (99 различных молекул) нацелены на белок ADRA1A, который участвует в росте и пролиферации клеток.
Как и раньше, для такого перекоса могли быть веские причины. Некоторые белки могут быть более важны для здоровья человека или с большей вероятностью выступать в качестве мишеней для лекарств. Некоторые могут не поддаваться воздействию лекарств. Или могло бы быть, что есть намного больше белков, которые стоит изучить в качестве мишеней для лекарств, если бы только исследователи, спонсоры и издатели были менее склонны к риску.
Тем не менее, большинство успешных лекарств не нацелены напрямую на отдельные гены болезней. Вместо этого они нацелены на белки на одно или два взаимодействия, модулируя последствия неисправных компонентов. Например, широкомасштабные проверки существующих лекарств, которые можно было бы перепрофилировать для использования против COVID-19, показали, что только 1% многообещающих кандидатов нацелены на вирусный белок — большинство из них были лекарствами, которые модулируют человеческие белки, не участвующие напрямую в SARS-CoV-2. мероприятие. Такие сетевые препараты обладают огромным потенциалом.
Сеть мельком
Итак, мы думаем, что HGP более примечателен новой эрой геномики, которую он открыл, чем самим каталогом белков. Как показывает теория сложных систем, точный обзор компонентов необходим, но не достаточен, чтобы понять любую систему. Сложность возникает из-за разнообразия взаимодействий между компонентами. После 20 лет исследований, основанных на HGP, биологи теперь имеют представление о сетевой структуре и динамике, которые определяют жизнь.
фото и источник