Цена доставки диссертации от 500 рублей 

Поиск:

Каталог / БИОЛОГИЧЕСКИЕ НАУКИ / Биоинформатика

Выявление взаимосвязанных белков методами анализа геномов

Диссертация

Автор: Пятницкий, Михаил Алексеевич

Заглавие: Выявление взаимосвязанных белков методами анализа геномов

Справка об оригинале: Пятницкий, Михаил Алексеевич. Выявление взаимосвязанных белков методами анализа геномов : диссертация ... кандидата биологических наук : 03.00.28 / Пятницкий Михаил Алексеевич; [Место защиты: Науч.-исслед. ин-т биомед. химии им. В.Н. Ореховича РАМН] - Москва, 2009 - Количество страниц: 119 с. ил. Москва, 2009 119 c. :

Физическое описание: 119 стр.

Выходные данные: Москва, 2009






Содержание:

СПИСОК СОКРАЩЕНИЙ
ВВЕДЕНИЕ
1 ОБЗОР ЛИТЕРАТУРЫ
11 Молекулярная и контекстная функция белка
12 Метод "розеттского камня" и анализ генных кластеров
13 Метод филогенетических профилей
14 Сравнение точности методов сравнительной геномики
15 поиск логических взаимоотношений МЕЖДУ фп
2 МАТЕРИАЛЫ И МЕТОДЫ
21 Исходные данные
22 Предсказание групп взаимосвязанных белков
23 Сравнение кластеризации белков
24 Оценка оптимального количества кластеров
25 Построение филогенетического дерева
26 Логическая регрессия
27 Программное и аппаратное обеспечение
3 РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
31 анализ распределений расстояний между филогенетическими профилями
32 определение оптимального набора референтных геномов
34 определение оптимальных параметров для кластеризации ФП
35 Предсказание состава известных метаболических путей методом ФП
36 Предсказание групп взаимосвязанных белков de novo
37 Поиск логических взаимосвязей между ФП белков

Введение:
Одной из важнейших задач современной биологии является выявление белков, которые либо физически взаимодействуют между собой (например, являются субъединицами белкового комплекса), либо взаимосвязаны функционально (участвуют в одних и тех же метаболических или регуляторных путях). Определение таких белков позволит идентифицировать белковые взаимодействия, отвечающие за различные клеточные процессы, а также выявить возможные пути развития патологических состояний на молекулярном уровне. Для выявления белок-белковых взаимодействий применяются многочисленные экспериментальные методы: коиммунопреципитация [Masters S., 2004], белковые чипы [Kerschgens J. et al., 2009], масс-спектрометрия [Arifuzzaman M. et al., 2006] и т.д.
Исследование взаимосвязанных белков в настоящее время особенно актуально благодаря успехам крупномасштабных проектов по секвенированию геномов различных организмов, что революционизировало современную биологию [Mushegian А., 2007]. В настоящее время данные о первичной структуре большинства белков получают путем трансляции соответствующих генов in silico, вместо непосредственного определения последовательности аминокислот.
Уже накоплены сведения о последовательностях геномов более тысячи организмов. При этом широко употребляющийся термин "расшифровка генома" не отражает реальность, поскольку знание последовательности ДНК само по себе не несет в явном виде информации о роли этого гена и кодируемого им белка в функционировании клетки. Для определения функции белка необходимы трудоемкие экспериментальные исследования. Проведение таких работ является отчасти искусством, в то время как секвенирование геномов — это хорошо отработанная технология. Поэтому основной проблемой, стоящей перед постгеномной биоинформатикой, можно считать наиболее рациональное использование имеющегося массива данных о секвенированных геномах для предсказания функций белков и выявления взаимосвязей между белками, обеспечивающих ключевые клеточные процессы.
Для решения подобных задач были созданы вычислительные методы, предсказывающие функции белка и взаимосвязи между белками. В дополнение к традиционному прогнозированию функции белка на основании гомологии, в течение последних лет добавились методы, опирающиеся на данные сравнительной геномики. Для поиска взаимосвязей между белками используются контекстные свойства генов - распределение гомологов в ряду организмов [Pellegrini М. et al., 1999], положение и относительный порядок следования генов на хромосоме [Overbeek R. et al, 1999b], частота слияний генов [Marcotte С., Marcotte Е., 2002]. Подобные методы называются контекстно-ориентированными, поскольку используемые свойства генов имеют смысл лишь при их одновременном сравнительном изучении в ряду геномов, то есть в определенном контексте. Анализ контекстных свойств гена показывает, что геном и совокупность геномов представляют собой особый тип данных, который нельзя сводить к простому сочетанию последовательностей генов [Koonin Е., Galperin М., 2003].
Для предсказания групп взаимосвязанных белков в работе использовали метод филогенетических профилей (ФП), согласно которому функционально взаимосвязанные белки также связаны и эволюционно [Pellegrini М. et al., 1999]. Данный метод использует интуитивно понятную идею, а также относительно прост в реализации. В методе ФП предполагается, что гены, кодирующие взаимодействующие белки, либо совместно наследуются вновь образованным видом, либо элиминируются естественным отбором, то есть являются ко-эволюционирующими. Каждый белок изучаемого организма характеризуется бинарным вектором (профилем), определяющим наличие гомолога гена, кодирующего данный белок, в ряду других геномов (т.н. референтных геномов). При наличии достаточного количества референтных геномов, каждая пара взаимосвязанных белков, входящих в структурный комплекс или метаболический путь, будет иметь схожие ФП.
Предложены различные модификации основной идеи метода ФП. В большинстве работ используется единый методический подход: на первом этапе вводится метрика, определяющая взаимосвязь между парой белков как функцию сходства их филогенетических профилей. Затем выбирается определенное значение метрики (порог), и все пары белков, для которых метрика выше порога, считаются взаимосвязанными. Результаты работы алгоритма сравниваются с одной из баз данных (БД) по взаимодействующим белкам: оценивается количество ложнопозитивных и ложнонегативных предсказаний.
В данной работе используется более общий подход, ориентированный на поиск групп взаимосвязанных белков, называемых также функциональными белковыми модулями [Snel В., Huynen М., 2004]. Предсказание функциональных модулей производится путем кластерного анализа матрицы расстояний между ФП белков. Поиск функциональных белковых модулей представляется более осмысленным по сравнению с предсказанием пар взаимодействующих белков, поскольку, связывая системную и молекулярную биологию, позволяет раскрывать контекст предсказанных взаимосвязей [Chen J., Yuan В., 2006; Vinogradov А., 2008] и прогнозировать функции неохарактеризованных белков [Dittrich М. etal., 2008].
Для применения модульного подхода к поиску функционально связанных белков необходимо выбрать параметры, влияющие на результаты работы метода ФП. Таковыми параметрами являются: набор референтных геномов, метод кластерного анализа и способ вычисления сходства между ФП. Для достижения максимальной точности предсказания функциональных белковых модулей необходимо подобрать оптимальные значения этих параметров.
Важным этапом работы являлся выбор способа проверки и верификации предсказанных групп взаимосвязанных белков, поскольку в литературе отсутствует общепринятая методика. Алгоритмы предсказания групп взаимосвязанных белков предложено сопоставить с точки зрения задачи о сравнении разбиений [Gan G. et al, 2007]. В этом случае, заданное экспертами "истинное" группирование взаимосвязанных белков сравнивается с результатами работы алгоритма. Таким образом, появляется возможность количественно сопоставлять различные подходы к предсказанию взаимосвязанных белков. Этот подход также позволяет учитывать возможность принадлежности белков к нескольким функциональным модулям и автоматически находить оптимальное количество таких модулей.
В качестве источника "корректных" групп взаимосвязанных белков использовали метаболические пути микроорганизмов из БД KEGG [http://www.genome.jp/kegg]. Сравнивая состав предсказанных групп взаимосвязанных белков с составом метаболических путей, определяли оптимальные параметры метода ФП.
В то же время можно представить ситуацию, когда информация о составе метаболических путей и их количестве недоступна или недостоверна, например, при изучении организма с вновь секвенированным геномом. Возникает вопрос, можно ли использовать данные о ФП для предсказания оптимального количества метаболических путей и будут ли биологически осмысленными полученные группы белков. Для решения этой задачи в работе использовали индексы, оценивающие полученное группирование белков без привлечения дополнительных источников информации.
Принципиально новый подход к поиску взаимосвязей между белками был описан в работе [Bowers P. et al., 2004а], в которой предлагается использовать логические операции для выявления более сложных ассоциаций между белками, нежели простое сходство на уровне ФП. Однако, Bowers et al. провели логический анализ только для троек ФП, а использованный метод не мог быть обобщен на большее количество белков. В настоящей работе для поиска ассоциаций более высокого порядка предложено использовать математический аппарат логической регрессии [Ruczinski I. et al., 2003], свободный от вышеуказанных недостатков.
Таким образом, целью работы явилось выявление групп взаимосвязанных белков E.coli К12 и M.tuberculosis H37Rv путем сравнения соответствующих филогенетических профилей, отражающих закономерности наследования генов в ряду прокариотических организмов.
Для этого необходимо последовательно решить следующие задачи:
1. Определить численные критерии для оценки соответствия состава предсказанных групп взаимосвязанных белков и метаболических путей БД KEGG.
2. Исследовать степень соответствия между кластеризацией ФП белков E.coli К12 и распределением белков по разделам БД KEGG в зависимости от набора референтных геномов, метода кластерного анализа и способа расчета различий между ФП. Предсказать группы взаимосвязанных белков E.coli К12, используя найденные оптимальные параметры метода ФП.
3. Оценить количество групп взаимосвязанных белков M.tuberculosis H37Rv, используя данные о ФП белков. Предсказать группы взаимосвязанных белков M.tuberculosis H37Rv путем кластеризации ФП на оцененное число групп.
4. Выявить дополнительные группы белков M.tuberculosis H37Rv, взаимосвязи внутри которых определяются наличием устойчивых логических отношений между ФП.
В качестве объекта исследования были выбраны геномы микроорганизмов E.coli К12 и M.tuberculosis H37Rv. Такой выбор объясняется тем, что для подбора оптимальных параметров при выявлении взаимосвязанных белков требуется сравнение с уже известными данными о функциональных аннотациях белков и сведения о распределении белков по известным метаболическим путям. Кишечная палочка является наиболее популярным из модельных микроорганизмов, а ее протеом изучен в тысячах экспериментальных работ. Поэтому изучение и оптимизация параметров метода ФП были проведены для белков E.coli К12.
Туберкулезная микобактерия была выбрана для применения оптимизированной методики, в связи с большой социальной и медицинской значимостью данного микроорганизма. В настоящее время важнейшей проблемой является борьба с высокорезистентными к антибиотикам штаммами M.tuberculosis, а поиск групп взаимосвязанных белков может указать на новые потенциальные белки-мишени для противотуберкулезных препаратов.
За последние 10 лет область вычислительного предсказания функции генов и белков активно развивается [Barker D. et al., 2007; Wu J. et al., 2006]. Важнейшим стимулом для развития является выполнение высокопроизводительных экспериментов, в первую очередь проектов по секвенированию полных геномов. Если первые геномы (Haemophilus influenzae, Mycoplasma pneumonia) аннотировались в основном экспертами [Fleischmann R. et al., 1995; Himmelreich R. et al1996], то в настоящее время первичная разметка вновь секвенированных геномов и предсказание функций генов осуществляется автоматически. При этом неизбежно возникает необходимость в автоматической же проверке и уточнении сделанных аннотаций [Artamonova I. et al2007]. Можно утверждать, что работы по определению взаимосвязанных генов и белков методами in silico будут крайне востребованы в обозримом будущем.
1. ОБЗОР ЛИТЕРАТУРЫ
Белковые взаимодействия определяют большинство процессов в клетке [Gavin A. et al., 2006; Li S. et al., 2004]. Реконструкция и изучение сетей взаимосвязанных белков позволяет систематизировать представления о молекулярных механизмах биологических процессов. Функция белка наиболее полно раскрывается в контексте его структурно-функциональных взаимодействий с другими белками: субъединицами, если белок является компонентом молекулярного комплекса, либо участниками биохимического процесса, если белок участвует в метаболическом пути или внутриклеточной передаче сигнала [Gabaldon Т., Huynen М., 2004; Huynen М. et al., 2003]. Исследование белок-белковых взаимодействий позволит лучше понять физиологию и патологию клетки, а в конечном итоге — всего организма.
Изучение взаимосвязанных белков сейчас особенно актуально благодаря успехам крупномасштабных проектов по секвенированию геномов различных организмов, что революционизировало современную биологию. В настоящее время данные о первичной структуре большинства белков получают путем in silico трансляции соответствующих генов, вместо прямого определения последовательности аминокислот, например, методом Эдмана.
Однако само по себе знание первичной структуры биополимера - это только начало определения его биологической значимости, раскрывающейся при добавлении биологических фактов в процессе аннотации последовательности. Словарь Webster определяет аннотацию как "заметку, добавленную при комментировании или объяснении". В базах данных по биологическим последовательностям такие аннотации обычно содержат информацию о клеточной роли и механизмах действия генов и их продуктов. Однако, для определения функции белка необходимы трудоемкие экспериментальные исследования. Проведение таких работ является отчасти искусством, в то время как секвенирование геномов — это хорошо отработанная технология. На момент написания литературного обзора полностью секвенированны 869 геномов бактерий, 64 генома архей и 114 геномов эукариот [http://ncbi.nlrn.nih.gov/genbank]. При этом в настоящее время продолжаются проекты по секвенированию 2631 геномов бактерий, 97 геномов архей и 1049 геномов эукариот (по данным ресурса www.genomesonline.org).
Парадоксальность ситуации состоит в том, что объем получаемых данных намного больше того, который можно осмыслить, проверить и исследовать в эксперименте. Таким образом, увеличивается разрыв между получением биологических последовательностей (генов и белков) и определением функций этих последовательностей.
Обозначившееся отставание определения функции последовательностей от процесса их секвенирования возможно преодолеть развитием методов, которые позволят проводить функциональную аннотацию всех генов в геноме за приемлимое время. При этом возникает альтернатива между медленным и надежным аннотированием последовательностей экспертами-биологами и быстрым, но подверженным ошибкам, аннотированием с помощью полностью автоматизированных программных систем.
На протяжении 80-х и 90-х годов молекулярно-биологическое сообщество полагалось на высоко достоверные аннотации белков, которые разрабатывали относительно небольшие группы экспертов в процессе тщательного анализа опубликованных экспериментальных данных. В настоящее время ситуация в корне изменилась. Изучение записей в БД по биологическим последовательностям показывает, что для большинства последовательностей их аннотации были получены автоматическими методами. По данным системы RefSeq [http://www.ncbi.nlm.nih.gov/RefSeq/] от 1 мая 2009 года, всего 3,2% белков из БД было обработано экспертом для проверки качества автоматической функциональной аннотации. Близкие результаты дает и БД SwissProt [http://www.expasy.org/sprot/] — только для 6,6% функциональных аннотаций белков была проведена экспертиза. С течением времени доля проверенных специалистами аннотаций неуклонно уменьшается. В связи с экспоненциальным ростом потока данных о последовательностях (удвоение примерно каждые 18 месяцев), экспертам все больше приходится полагаться на предсказание функций методами in silico. В сложившейся ситуации совершенствование методов крупномасштабного автоматического аннотирования биологических последовательностей приобретает все большую значимость.