Сергей Яковлев:Черновики:Автоматическая пост обработка данных, полученных при секвенировании прокариот

С. Яковлев, Mg.sc.comp. e-mail: : sergeyk@fis.lv, tac@inbox.lv

Введение[]

Белковый кросс-анализ[]

Белковый кросс-анализ – это прямой метод, позволяющий однозначно построить участки филогенетического дерева эволюции наиболее близких видов внутри семейства (хотя может быть использован и между семействами). Данный метод основан на перекрестной проверке нахождения идентичных аминокислотных последовательностей (представляющих собой белковую цепь) в ДНК организма (приведенную к транскрибируемой последовательности аминокислот).

Такой анализ имеет смысл проводить для трех или более организмов (точнее нитей ДНК, имеющих отдельный NC номер).

Тогда после применения кросс-

NC_1 NC_2 NC_3

NC_1 - 5 25

NC_2 8 - 31

NC_3 22 30 -

анализа получается, например, следующая таблица, где в столбике указанны ДНК анализируемых организмов, а в строчке белки тех же организмов (точнее просто код, соответствующего организма). Тогда на пересечении в таблице получаем число одинаковых белков, найденных в ДНК другого организма. Например, в ДНК NC_1 найдено 5 идентичных белков организма NC_2, и 25 идентичных белков организма NC_3. Не стоит удивляться, когда во второй строке мы получим несколько другой результат, а именно в ДНК NC_2 найдено 8 идентичных белков организма NC_1, и 31 идентичных белков организма NC_3. Сравнивая с первой строкой, видим что в ДНК NC_1 есть 5 белков NC_2, а в ДНК NC_2 есть 8 белков NC_1. Такие несимметричные результаты появляются в результате ошибочных данных о белках в рассматриваемых организмах. В данном случае это нужно интерпретировать как, то что в организмах NC_1 и NC_2 совпадают от 5 до 8 белков (остальные же подвержены мутациям, возможно, и не существенным). То же самое и с другим сравнением – в организмах NC_2 и NC_3 совпадает от 30 до 31 белков, а в организмах NC_1 и NC_3 совпадает от 22 до 25 белков. Этих данных достаточно, чтобы выстроить организмы в линию филогенетического дерева.

Видим, что вариант а) не может быть в действительности, т.к. если из NC_3, произошел NC_2 с консервативными 30-31 белком, а при переходе NC_2 → NC_1, остается только 5-8 белков, то никак не может быть, что напрямую у NC_3 и NC_1 совпадало бы больше белков – 22-25 (Чисто математически, могут быть варианты, т.к. это зависит от того одно ли это множество белков или нет – практически это именно так; и еще от того выстраиваются ли организмы в линию или начинают ветвиться – но здесь важно взять за принцип следующие – если получается выстроить в линию нет необходимости предполагать ветвление.).

С другой стороны, мы на основании кросс анализа можем автоматически устранить часть ошибок в исходных данных. Автоматическое исправление возможно только в двух типовых случаях:

Когда указана более короткая последовательность, а на самом деле присутствует более длинная (т.е. разнятся длины одного и того же белка у разных авторов, предоставляющих исходные данные секвенирования);
Когда белок, отмеченный одним автором для определенного организма, присутствует в другом организме, но не указан, соответствующим автором (в своем большинстве эта ошибка распространенна для гипотетических малых белков).

Автоматическое исправление базируется на нахождении белка организма А в ДНК организма В, но в месте которое отличается от всех указанных в исходных данных. Т.е. когда в исходных данных организма В нет информации о том, что находится в найденной позиции.

Выполнение кросс анализа после одного цикла автоматической коррекции ошибок – мы будем называть вторичным кросс анализом. Этого бывает вполне достаточным, чтобы получить более точную кросс таблицу. Но иногда может потребоваться несколько циклов автоматической коррекции. Тогда желательно указывать отдельно число этих циклов, но также считать что кросс анализ вторичен.

Сергей Яковлев: Кросс-анализ вида Helicobacter pylori

Блоковое сравнение[]

Данный метод представляет собой альтернативу подходу, используемому в таких программах как BLAST. Данный метод несмотря на свою простоту позволяет получить более прямые результаты сравнения. Дело в том, что если разрешаются разрывы в последовательностях, то известно, что результат сравнения можно элементарно подогнать под желаемый. Поэтому разрывов нужно избегать, и в этом методе они не разрешены. Второй недостаток из-за которого увеличиваются ошибки при сравнении, является “побуквенное сравнение” (нуклеотидные основание для ДНК, РНК и аминокислота для белка). Совпадение отдельной “буквы” является очень частым случайным событием, даже если не допускать разрывов, то число совпавших букв является слабым критерием однозначного совпадения сравниваемых участков (особенно при низком уровне совпадения).

В тоже время, каждое РНК или белок обладает своей спецификой, выражающейся в том, что он имеет ряд наиболее значимых консервативных последовательностей. Поэтому данному методу предоставляется последовательность, предварительно разбитая на блоки, каждый из который имеет смысл рассматривать только целиком. В результате поиска в геноме строиться варианты масок, отражающих совпадение указанных блоков, и чем больше блоков совпадает в найденных вариантах тем и ближе к ним искомая последовательность.

Сергей Яковлев:Черновики:Автоматическая пост обработка данных, полученных при секвенировании прокариот

Введение[]

Белковый кросс-анализ[]

Блоковое сравнение[]

Fan Feed