Механизмы эволюции

Постановка проблемы[]

Данный форум хотелось посветить исключительно молекулярной биологии с целью выявить и описать механизмы эволюции так сказать на нижнем уровне.

Эволюция это вещь не оспоримая идёт она или по Дарвину, или по Ламарку – она всё равно идёт. Говорить без доказательно (поверхностно) об отсутствии эволюции вообще – только не здесь, для этого есть место в http://forum.membrana.ru/forum/scitech.html?parent=1052541565&page=0, как только созреете для серьёзного разговора то прошу сюда ...

Чтобы потом не возникало вопросов – я специалист по ИТ, а молекулярная биология моё, наверное самое серьёзное увлечение (хобби). Отсюда проблемы и возможности. С одной стороны для меня нет проблем обработать материал, но с другой я могу не знать частные вопросы и состояние науки на сегодняшний день. Поэтому очень хорошо если найдутся знающие люди, и смогут ответить на вопросы, которые возникнут по ходу дела. В отсутствии таковых – высказывайте любые “бредовые” идеи, но только начиная с фразы “По моему мнению – это можно объяснить так: ”.

Теперь собственно чем я предлагаю заниматься. По возможности сил, времени и знаний предлагаю совместно (коллективно) ПОРАБОТАТЬ (а не поболтать :) ). Для этого конечно нужно возможность повторяемости эксперимента. Эксперимент, конечно, подразумевается не биологический, а информационный. Поясняю – говорить об эволюции как таковой прейдётся не сразу, нужно включиться в курс дела. Думаю многим известно, что ДНК человека и многих животных, бактерий и вирусов – секвенирована, и доступна по официальному публичному адресу ftp://ftp.ncbi.nih.gov/genomes/ . Проверять правильность секвенирования мы, конечно же не будем, не в нашей это компетенции, но для постановки информационного эксперимента нам этого вполне достаточно. Не секрет, что гомологию ДНК определяют и предсказывают двумя способами – по биофизическим признакам, и информационно. Биологи заявляют что последний способ даёт не много возможностей, но мы посмотрим, что из этого можно “выжать”. Как минимум, думаю, путеводитель начинающему биологу (в смысле учённого) я думаю мы сможем создать, и порассуждаем какие принципы эволюции информационно возможны при имеющихся данных. Может кому-то не понятно причём здесь гомология и эволюция? Всё очень просто чем большую гомологию мы наблюдаем в разных организмах, тем теория эволюции более верна, для полноты только нужно показать информационный алгоритм как из одного организма получается другой, введя таким образом алгоритм (механизм) эволюции, справедливый для всех изменений (мутаций). Как только подтянутся люди (смело говорите если вас это интересует и в каком качестве) – попробую описать основы для проведения эксперимента, точнее ряд ньюансов с которыми мне пришлось столкнуться прежде, чем сравнил два организма ...

Кишечная палочка[]

Думаю начнем разбирать последовательно, начиная с прокариот, а именно с бактерий, а еще конкретнее с E. coli (кишечной палочки).

Начну с вопроса. Если кто то заходил по адресу ftp://ftp.ncbi.nih.gov/genomes/Bacteria/ то там можно найти несколько организмов Escherichia_coli_536, Escherichia_coli_K12, Escherichia_coli_W3110 - это вроде понятно различный организмы одного вида. Но вот если, например, зайти в директорию ftp://ftp.ncbi.nih.gov/genomes/Bacteria/Escherichia_coli_APEC_O1/ то можно увидеть куски ДНК (белков и т.д.), разделенных на несколько кодов NC_008563, NC_009837, NC_009838 - при этом лишь один из них занимает серьезную часть генома порядка 5000 белков, остальные же не более 100-200 белков. Вопрос: почему некоторые организмы разбиты на такие части, а другие нет, что именно подразумевается под номером NC_008563 ?

astsergey. NC - порядковый номер кодирующей последовательности (cDNA)/или содержащей таковую/ в относительной нумерации в геноме . Это исторически сложилось , потом стали добавлять `буквы` из-за альтернативного сплайсинга и т.п

Но почему этих номеров несколько для одного организма?

astsergey. каждому номеру отвечает своя последовательность, +есть кластеры записанные в ДНК не один раз.

Означает ли это, что организм делится по каким то существенным признакам ? И как составить из нескольких одну полную последовательность ?

astsergey. Исторически , вначале давали номера только кодирующим последовательностям(кодирующим пептиды - первичные белки)- считая , что другие или `пустые` или что для них найдется что-то...

Может вы о том же, но уточню для большей убидительности ... Вот я тут вчера подумал, может наличие нескольких последовательностей в организме – это что-то аналогичное тому, что у человека существуют разные хромосомы ... у бактерий это, конечно, хромосомами назвать нельзя, но в бактерии существую получаются одновременно просто различные нити ДНК, причем повидимому одна из них является основополагающей (наиболее длиной). Чтобы мы упустим из рассмотрения если скажем на первых порах не будем рассматривать короткие нити ДНК ?

astsergey. бактерии обычно имеют ДНК в виде кольца , но есть такие (как Холерный вибрион ..) которые имеют несколько хромосом . Часто бактерии имеют одну или несколько `плазмид` - чаще всего это остатки дублицирования своей ДНК .(Почему так , потому что я проверял много геномов бактерий по своей модели - она показывает полную родственность плазмид основной ДНК бактерий.и ни разу не встретил чужую)

я пробывал сравнить 6 вариации E. coli, только 340 белко из примерно 5000, у них совпадают - много это или мало ?

astsergey. Это не просто мало , это говорит о `неточности` информации - уже на уровне государственных вебсайтов . Вот почему я все делаю сам , и считаю и делаю `проверки` . Мне легче , потому что секвенсы (в тайне надеюсь , ввиду их китайского содержания - не `корректируют`) Но , Изменчивость бактерий настолько высока , что скажем Е.коли О157Н (патоген высокого класса,запрещен для работы без допуска) имеет геном - 5,5 М.н.о. . то есть уже на уровне 20 % больше - происхождение этих `довесков` просто неясно . Там находится `жало` этого штамма - веротоксин VTX . Состоящий из двух частей - Собственно ядовитой VT1 и пяти субъединиц - обеспечивающих ему высокую проницаемость VT2, по своей токсичности она уступает только токсину холерного вибриона и ботулизма . Причем , появились эти `довески` недавно ... Вот такие подарки `старых` микробов ...

Давайте не будем торопиться с выводами. Я может не совсем пояснил, белки я ищу точь в точь похожие (!) - отсутствие хотя бы одной аминокислоты - например буковки "К" - все "таких не берем в пионеры", с учетом этого вы так же считаете, что этого мало ???

Сравнение геномов[]

Прямое сравнение последовательностей ДНК[]

Итак, о подходах к сравниванию геномов ... Наверно понятно, что взять ДНК одного организма, например, файл NC_000913.fna и в “тупую”, сравнить с ДНК другого, например, с NC_008253.fna, и на выходе получить число совпадающих оснований (буковок T, G, C, A) – будет совсем не серьезно, тоже самое, что взять оперативную память одного компьютера (переведя в двоичную систему) и сравнить ее с оперативной памятью другого, и на этом основании делать выводы о идентичности моделей компьютера.

astsergeyНо именно так и делают генетики при статистической обработке , только они его используют именно для сравнения РАЗНыХ геномов (а даже не фенотипических) - Т.к. этот `инструмент` несет именно информацию о близости и эволюционной иерархии геномов. При этом они сравнивают как нуклеотидные последовательности (секвенсы)/A,T,C.G/ так и собственно последовательности аминокислот (в пептидах).

Но, вы многого не договариваете, попробуем уточнить. Главное, что я имел здесь ввиду это способ сравнивания ДНК двух организмов, без знания о том, как и какие белки транслируются с этого ДНК. Расмотрим по возможности все мыслимые способы сравнения на примере двух последовательностей подвидов E. Coli: 1. NC_000913 (Длина генома – 4639675 нуклеотидных пар оснований) 2. NC_009801 (Длина генома – 4979619 н.п.о.)

Мыслимы два серьезно отличаемых типа сравнений (1) Целеком ДНК с ДНК, не разрывая последовательности (2) Разрешая разрывать участки ДНК в одной из ДНК-последовательностей для нахождения большей гомологии. Рассмотрим первый тип, в нем можно выделить два подтипа: 1. Сравниваем одну ДНК с другой начиная с начала. Но из-за разницы длин на 339944 н.п.о. – видим что эти основания совсем игнорируются, что не есть хорошо. Делаем первую поправку: пробуем сдвигать начало одной ДНК по отношению к другой вначале но одно основание, потом на два, и так до 339944. Получаем столько же варианций возможной гомологии, можем например выбрать наилучшию, или наихудшую, соответственно имеея песиместическую и оптимистическую оценку. 2. Немного подумав окажется и этого не достаточно, и можем обобщить первый подтип сравнения. Дойдя до конца, начнем сравнивать в круговую, т.е. при выравнивании концов геномов, сдвигаем еще раз так чтобы одно основание вылезло за конец и его мы будем сравнивать с началом, и т.д. по кругу. Получим в данном случае 4979619 вариантов оценок совпадения геномов. Наверное уже стало понятно, что даже если мы сравним что-то осмысленное, то не будем знать какой из 4979619 вариантов правильный. А значит достоверность нашего исследования близка к нулю.

Поняв, что такой способ никуда не годится можем рассмотреть второй тип-сравнения, а именно при сравнении позволим разрывать некоторые участки ДНК. Но чем мы будем руководствоваться при разрыве ? Некоторые программы для сравнения геномов, такие как BLAST, используют некоторые штрафы которые произвольно определяет автор программы, например учитывая длину разрыва и ряд еще некоторых эвристических признаков. Все это сказывается на достоверности сравнения очень сильно. Из дальнейшего станет еще более понятно почему мы не можем принебрегать информацией о том как транслируется РНК (а затем и белки). Здесь важно же понять, что изменение даже одной аминокислоты в последовательности белка может существенно изменить его функцию. Поэтому нам нужно прочное основание и высокая достоверность ! Это еще более важно, т.к. уже сам принцип информацинного эксперимента – имеет меньшую доказательную силу, чем экспиременты in vitro или in vivo.

astsergeyВашим способом сравнивают ТОЛЬКО маленькие , заведомо родственные последовательности .

Livinson Именно! BLAST и другие программы, реализующие выравнивание, предназначены для сравнения аминокислотных или нуклеотидных последовательностей, а не для сравнения геномов. Не стоить ставить абсолютное равенство между геномом и огромным сиквенсом полученным при его изучении. Геном - очень сложная динамическая система. В "тупую" сравнивать целиком геномную последовательность с другой геномной последовательностью вообще бесполезная трата времени, по моему мнению. Для филогенетических исследований проводят сравнение определенных генов (универсальных, консервативных).

Извините, но это не мой метод - это мыслимо возможный элементарный метод - и я уже писал, что он заведомо ложный. Говорю о нем лишь, чтобы понять что идти по этому пути нельзя ... о разработанном вами методе я, конечно, не слушал. Если он достаточно полно описан, дайте ссылку на его описание ... Я же здесь, рассматриваю подходы самого нуля - поэтому не торопите события ...

Сравнение последовательностей белка и РНК[]

Но, если сосредоточится не на ДНК, а на белках, которые по сути и выполняют все функции организма – мы можем уже сделать кое какие выводы.

astsergey далеко не все функции исполняют белки даже в простейшем геноме , там управляют РНК .(впрочем как и липидные, глюкозидные, стероидные и тд.и т.п. комплексы или с белками или с РНК , а есть и РНК.белковые комплексы.

Согласен, я не явно просто причислил РНК к белкам :) ... Итак, уточняю "белок и РНК".

Праймеры и промоторы[]

Первое что нужно это правильно подойти к тому как найти последовательности белков в ДНК организма.

astsergeyЭто определяют с помощью праймеров.

Livinson Как? Вообще, с помощью синтетических праймеров проводят ПЦР, и в итоге получают большое количество копий целевой последовательности, кстати, не обязательно кодирующей ген. С помощью праймеров можно амплифицировать последовательность и всё.

Можно ли, использовать информацию о последовательности естественных праймеров для поиска генов в базе? Вряд ли.

Вроде оно действительно так. Но проблема в том, что не обноруженно существенно консервативной последовательности, которая бы определяла праймеры или промоторы (кстати, разницу между неми если можете поясните – а то я как то слабо ее чувствую).

astsergeyПраймеры и промоторы это практически одно и тоже праймер: http://en.wikipedia.org/wiki/Sequencingпромотор: Всегда искусственная последовательность нулеотидов (отличие от праймеров)используемая для `считывания` (транскрипции) с ДНК - РНК .Термины: http://en.wikipedia.org/wiki/User:Skysmith/Missing_topics_about_Genetics#Terminology

Livinson Праймер - олигонуклеотид комплементарно присоединяемый к начальному участку последовательности ДНК которую необходимо реплицировать. Он служит затравкой для синтеза новой цепи ДНК, так как ДНК-полимераза может только добавлять новые нуклеотиды к 3'-концу. Промотор - особый участок в начале гена обеспечивающий узнавание гена РНК-полимеразой и её "посадку на ДНК". Это разные понятия, даже в плане анализа последовательностей.

А это значит, что подступаясь к новому ораганизму имеея только последовательность ДНК (и никакой другой статистики, а только некоторые общие положения) – мы не как не сможем быть уверены, что мы правильно определили промоторы, места которые определяет рРНК.

astsergeyВ чем уверены?..Вопрос с промоторами - вопрос вытекающий из некоей модели , а не обратно.На настоящем уровне , уже определяют `компьютерной` моделью общий перечень пептидов , для нового генома . И тут тоже бывают подарки , некоторые геномы (очень редко) имеют `свою специфику` - немного `смещаются` кодоны , и другие известные `фундаментальные` постоянные извистного процессинга в геноме .

Скорее известно, что рРНК узнает не точные последовательности, а ей достаточно неких «сигналов», которые лишь в совокупности преодалевают порог «чувствительности», и рРНК начинает транслировать мРНК. Но механизм этого не известе, скорее всего он основан на энергии, которая содержится в определенных характерных сцеплениях нуклеотидных оснований – но об этом мало, что известно.

Для понимания, выше описанного, конечно нужно знать, что транслируемые последовательности, которые потом превращаются в белок, расположенны в ДНК не друг за другом, а с существенными разрывами, в которых и находятся промоторы (но не всегда – они могут располагаться и на транслируемой последовательности с конца). Я уже и не говорю о интронах-экзонах, но счастью они есть преймущественно только в эукариотах, а в бактериях нет.

К счастью, биологи определяют размещение белков не информационным экспериментом, а биологическим с использованием точечных мутаций, и определяя когда рРНК перестанет транслировать ДНК, детали этого нам не очень важны. Наоборот важно, что имеется уже упоминавшийся файл .faa, за содержание которого биологи несут ответственность. Поэтому первое, что мы сделаем это попробуем самостоятельно поискать в последовательности ДНК последовательность аминокислот белков. И сверимся с размещением данным в .faa файле. Конечно оно будет совпадать, если мы все правильно сделаем – но тут есть некоторые ньансы, о которых мы и поговорим дальше ...

astsergeyТут вообще не понятно ...о чем речь?

Как раз о том, на что вы дали ссылку, вот русский вариант: http://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%BB%D0%B8%D0%BC%D0%B5%D1%80%D0%B0%D0%B7%D0%BD%D0%B0%D1%8F_%D1%86%D0%B5%D0%BF%D0%BD%D0%B0%D1%8F_%D1%80%D0%B5%D0%B0%D0%BA%D1%86%D0%B8%D1%8F

Т.е. о Полимеразной цепной реакции (экспериментальный метод молекулярной биологии). Так вот в нашем информационном исследовании детали этого нам не интересны, мы будем пользоваться результатами. Соответственно понятие о Праймерах, нам не столь важно. Главное понятие о промоторах http://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%BE%D0%BC%D0%BE%D1%82%D0%BE%D1%80_%28%D0%BC%D0%BE%D0%BB%D0%B5%D0%BA%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D0%B0%D1%8F_%D0%B3%D0%B5%D0%BD%D0%B5%D1%82%D0%B8%D0%BA%D0%B0%29

И все равно прямой связи здесь нету, "Промотор — последовательность нуклеотидов ДНК, узнаваемая РНК-полимеразой", а праймеры, как я понимаю это исскуственно созданные последовательности используемые в ПЦР. Так ? Тогда не понятно почему вы называете промоторы искуственными ? Только потому, что мы не знаем их истиную последовательность в каждом случае ?

astsergeyЭто так , сам `промотор` в зависимости от источника (пути активации тропы) может находится в разных местах или быть сдвинутым в пределах предтрансляционного участка .А назвал я его так по общей полупривычке -и относительно нашего варианта - ошибочно (нужно праймер так `обозначить` - ../и то в смысле инженеринга/) посему и в Викпедии там - практически пустое место . Мне нравится русская трактовка - она четко отделяет термины . Тут есть маленькая неувязка Promotor - от англ. Возбудитель , инициатор , а , по сути русской трактовки - `начало` работы РНК-полимеразного комплекса (+)с адресным вектором . Праймер - Тот адрес-вектор (обычно микроРНК) который имеет комплимент (комплементарную последовательность) - Промотору . Как видно , эти пары , даже при считывании одного пептида могут существенно отличаться .

ХХХ[]

Собственно транскрипция[]

Но без биологов это было бы не мыслимо. Если только исходить из того, что нам излагали в школе, что ДНК переписывается на РНК, с заменами T на U, G на C, C на G, A на T, а далее исходить из трех таких буковок (через таблицу транскрипции), которые якобы превращаются в одну из 20 аминокислот, или является стоп-кодоном, для прерывания транскрипции – то на этом багаже мы далеко не уедем :(. Но нам повезло :) , на том же сайте можно найти и последовательности ВСЕХ белков (.faa файл), которые есть в соответствующей ДНК и даже указаны точки от и до где находится локус ДНК соответствующий белку. Будем считать это достоверной информацией полученной в биофизиологическом опыте (хотя кое-что наводит на мысль, что и там просто поработали компьюторщики и просто прочитали по стандартным правилам, т.к. некоторые белки помещены как “hypothetical protein” гипотетический белок, но пока закроем на это глаза, сами биологи подписывают ряд геномов как “ complete genome ”, хотя 40% белков гипотетические).

astsergey Гипотетические , потому что они должны появляться , но им `ПОКА` не нашли работу-место в деятельности генома и организма. `complete genome` -потому что пишут о нуклеотидном секвенсе генома , а он получен. И в понятие геном , сегодня , входит : в первую очередь эта последовательность ДНК , и , во-вторую не-ДНК посители информации (мРНК).

Условности при заменах в транскрипции[]

Значит далее, первое что повергло меня в шок, что РНК переписывается по другому не с заменой T на U, G на C, C на G, A на T, а всего лишь T на U и все, это как то связано с тем, что ДНК состоит из двух комплементарных нитей, но почему в школе мне это объясняли не так, я так и не понял. Принял как должное, но буду рад если кто нибудь мне пояснит этот вопрос.

astsergey А напрасно , все нормально , переписывается именно как вы и ожидали , только вместо `Т`(тимина) - появляется `U`-урацил.. ,и вместо дезоксирибозы - рибоза .

Непонял, какой вариант вы имеете ввиду под "все нормально": 1. T на U, G на C, C на G, A на T 2. T на U, G на G, C на C, A на A

astsergey Первый , - посмотрите `Трансляция`

Давайте все же последовательно ... Я уже говорил, что так и думал, НО ... Посмотрите здесь: http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?list_uids=49175990&db=nucleotide&dopt=gbwithparts

Самый первый ген: thrL находится в ДНК в позиции 190..255, транслируется как "MKRISTTITTTITITTGNGAG", в ДНК соответствует последовательность

"ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA"

Посмотрим со второго триплета: ААА по вашему должно перенестись на мРНК как ТТТ с образованием F Phe в белке (ведь так?), оно же образует К, что соответствует просто ААА. Объясните мне это ?

там все так ... пока я не изменил принцип, я не мог найти ни один белок, который должен там быть, как только изменил осталось 4-10 белков которые я не нашел, но думаю они просто несколько специфичны (разбираться буду позже) Поэтому это не может быть случайной ошибкой, скорее всего ошибка просто в анотировании - еще понятно, или может быть , ну незнаю чтобы легче было транслировать ? Хотя страно, что тут особо сложного ? А не может быть так, что при трансляции рРНК связывается с одной нитью ДНК, а транслирует вторую (тогда вроде все объясняется) ?

astsergey В этом случае явно транслировалась противоположная сторона . Я вас понял , что вы имеете ввиду .

Начало и конец транскрипции[]

«Есть начало трансляции и ее конец»

Это вроде и так, но этого мало, с концом вроде более и менее понятно. А вот с началом проблемы. Мы знаем, что начало белка всегда начинается с «М». Но вот коды могут быть не только «ATG», но и TTG, GTG, ATC – и много других в зависимости от таблицы трансляции. Но скажем, TTG в нормальных условиях (не в начале трансляции) образует L Leu. Поэтому, чтобы найти начало трансляции белка нельзя искать инициирующий треплет, найдем совсем не, то. Однозначные промоторы не найдены (если хотите не предложены) – поэтому априорно начало кодирования белка информационно найти нельзя (без наличия модели построенной на достоверной статистике).

Открытая рамка считывания[]

Итак, поговорили мы уже о многом, осталось (если я ничего не забыл) для введения в суть дела сказать о т.н. «открытой рамки считывания». Это первый стопор, который может получить начинающий ... Если взять последовательность ДНК с первой позиции и триплетами перевести в последовательность аминокислот белка. То больше чем наверняка мы натолкнемся, что существует очень много стоп-кодонов. Таких что случайно выбранный белок из .faa файла вы врятли найдете. Хорошо если найдете первых 5-7 аминокислот. Если учесть что существует 64 триплета, 3 из которых стоп-кодоны, то это вполнее ожидаемое, что могла бы дать теория вероятности. Таким образом, жизнь заключается в поиске таких ДНК-последовательностей, которые были бы длиными и следовательно могли бы выполнять впоследствии существенную функцию (там по ходу есть еще вопрос о разрешении парадокса Левенталя, но мы тут его разбирать не будем). Вопрос решается тем, что трансляция может начинаться с почти любого места (что определяется рРНК), а следовательно есть 3 возможных варианта: начиная с самого начала, сдвигаясь на одно основание и сдвигаясь на 2 основания. А сдвиг уже на три основания даст то же результат, что и «начиная с самого начала». Кроме того, как известно ДНК состоит из двух комплементарно связанных нитей. Поэтому мозможно чтение на основе второй нити – но только с другой стороны (учитывая замены C-G, G-C, T-A, A-T). И того имеем 6 различных «дорожек» по которым нужно искать белок (последовательность аминокислот) на последовательности ДНК. Белок как правило может находится на любой из этих 6 дорожек, но тем ни менее, если белок найден на одной дорожке, то другого белка не будет рядом с ним на других дорожках, хотя очень часто есть пересечения (на разных дорожках) но только на конце одного белка и начале другого, но более чем два пересечения я еще не встерчал ... Таким образом, последовательности кодирующие белки располагаются почти линейно, лишь только на других дорожках немного пересекаются .

astsergey Есть такое дело, работает и одна и другая сторона, более того, они даже могут `накладываться` друг на друга . Сдвиг, на одну позицию ? такого нет , просто это уже другая информация . В бактериях практически нет альтернативного сплайсинга , я по крайней мере - не видел .

Давайте уточним о бактериях, совершенно условно имеем цепочку: "ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA"

скажем читаем сначала получаем один белок, сдвигаемся на одну позицию т.е. "TGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA" и видим, что с треплета так 7 начинается второй белок ...

Этого вы не видели в бактериях ? Если да то как нибудь могу продемонстрировать, исходя из данных http://www.ncbi.nlm.nih.gov/

Ошибки в исходных данных[]

Теперь мы вынуждены поговорить об ошибках. Их достаточно много различных типов, начнем классифицировать :) . Ошибка первого рода – сомнения при секвенировании, здесь об этом побольше: http://ru.wikipedia.org/wiki/%D0%9D%D1%83%D0%BA%D0%BB%D0%B5%D0%BE%D1%82%D0%B8%D0%B4

astsergey К сожалению , ситуация даже похуже. Дело в том , что сам секвенс делается примерно так: нужный геном (хромосому) `режут` на куски (в зависимости от размера на большее или меньшее к-во) - эти куски разделают и `умножают` , получая первичные `части` - им присваивают внутренний номер. Потом опять режут уже эти `куски` на еще более мелкие ... и так до размеров ~ 10 000 н.о. (вроде как предел сегодняшней техники). В самом процессе умножения (ДНКполимеразой - кроется большой `?` - дело в том , что ДНК способно нести активные микроРНК - которые способны `переписвать` (перетасовывать и приписывать) ДНК куски /что случается в некоторых видах опухолей/. И тогда , мы имеем черте-что ...Особенно это характерно для `АТ` - насышенных частей...

«Если при секвенировании последовательности ДНК или РНК возникает сомнение в точности определения того или иного нуклеотида, помимо пяти основных (A, C, T, G, U), используют другие буквы латинского алфавита в зависимости от того, какие наиболее вероятные нуклеотиды могут находиться в данной позиции последовательности.» Т.е. в секвенированном геноме запросто можно встретить букву M, что будет означать A или C. Иы будем остерегаться таких секвенированных организмов, и использовать их будем в крайнем случае (Хватит нам и своих ошибок :) ). Кроме того в белке тоже можно встретить X – что будет означать любая из аминокислот. Так же в последовательности белков встречается буква U – точно не уверен, что она означает, но на этом месте в ДНК находится стоп-кодон, но белок не прерывается. Судя по всему это те случаи когда терминация блокируется особыми ферментами. Это, кстати, важное добавление к тому, что не только на начало кодирования нельзя безусловно положиться, но так же и на конец (пока мы тоже эти случаи рассматривать не будем). Итак для эксперимента от E. Coli нам остаются следующие последовательности (коротки плазмиды мы тоже пока не рассматриваем): 1. NC_008253.ffn 2. NC_009801.ffn 3. NC_000913.ffn 4. AC_000091.ffn 5. NC_002695.ffn 6. NC_007946.ffn Эти то последовательности мы и используем для экспериментов. Второй род ошибок – это неточности. Неточностями мы будем назвать такие ошибки, которые можно устранить, согласовав мнение различных ученных, каждый из которых как правило секвенировал один из организмов, вследствии этого в другом организме (секвенированном другим ученным) как минимум коменнтарий к конкретному белку различен, но если бы дело было только в комментарии, то не так страшно. Но оказывается, что у них могут быть разные данные по длине белка, хотя в большенстве случаев они сами относят их одной группе белков, и даже обозначают одним кодом COGXXXXX. С такими не точными данными программным образом трудно работать, а точнее не возможно. Я уже говорил, что при таких данных только 340 белков одинаковы в рассматриваемых 6 последовательностях. Вроде как маловато (если верить astsergey). Посмотрим, что получится когда я устраню неточности – моя программа находит эти неточности автоматически, вот пока нехватило времени научить ее исправлять автоматически. Пока лишь можно однозначно говорить только в такой формулировке по данным ученных только 340 белков одинаковы в 6 организмах разных подвидах E. Coli. На вскидку не точностей много порядка 500. Незнаю интересно ли кому этот список уточнений ??

См. также[]

Источник