數百萬年前至今的生物(wù)進化樹
何為(wèi)宇宙?
古人稱:四方上下曰宇,古往今來曰宙。宇宙有(yǒu)上千億個星系存在,銀河系就是其中(zhōng)一個存在。每個星系中(zhōng)又(yòu)都包含數十億顆恒星,而每一顆恒星都會在自身引力的作(zuò)用(yòng)下,吸引一群行星繞在自己身旁形成子單系,太陽系就是恒星,我們居住的地球就是圍繞太陽運轉的那顆行星。地球形成至今已有(yǒu)46億年,在地質(zhì)、環境等條件不斷演變的情況下,生物(wù)體(tǐ)通過基因突變(自然選擇)慢慢适應這個星球,再經過時間的延續,無數碳基生物(wù)體(tǐ)你來我往,構建了上圖的生物(wù)種類進化樹。這裏的基因突變就是DNA鏈中(zhōng)的特殊某段定義的,地球的生命史就被篆刻在每一種生物(wù)的DNA中(zhōng)。今天的故事就要從DNA說起。
那麽,什麽是DNA呢(ne)?
DNA:脫氧核糖核酸(英語:DeoxyriboNucleic Acid,縮寫為(wèi)DNA)由含氮的堿基+脫氧核糖+磷酸組成。因為(wèi)脫氧核糖核糖和磷酸都一樣,但堿基可(kě)以分(fēn)為(wèi)四種(腺嘌呤A,鳥嘌呤G,胸腺嘧啶T,胞嘧啶C),所以脫氧核糖核苷酸就可(kě)以分(fēn)為(wèi)四種(按照堿基的不同區(qū)分(fēn)),同時在書寫過程中(zhōng)可(kě)以用(yòng)堿基的簡寫(AGTC)代替。
人類DNA序列片段
簡單來說,DNA就是由A、T、G、C四種堿基無規則排序組成的一長(cháng)串序列編碼,是大多(duō)數生物(wù)的遺傳信息的載體(tǐ)。DNA編碼上的信息可(kě)以組成遺傳指令,用(yòng)來引導生物(wù)發育與生命機能(néng)運作(zuò)。
生物(wù)體(tǐ)中(zhōng)的DNA堿基構成一條長(cháng)序列後,幾乎從不作(zuò)為(wèi)單鏈存在,而是應用(yòng)堿基互補原則,既通過A對T或者T對A、G對C或者C對G的方式形成堿基對,構建出另一條DNA堿基序列,作(zuò)為(wèi)一對彼此緊密相關的雙鏈,彼此交織在一起形成雙螺旋結構。
DNA雙螺旋結構
影視劇中(zhōng)經常出現被我們大家熟知的親子鑒定,就是利用(yòng)到了DNA。生物(wù)學(xué)、遺傳學(xué)上使用(yòng)DNA做親子鑒定時,否定親子關系的準确率幾近100%,肯定親子關系的準确率可(kě)達到99.99%。
在我們開發的應用(yòng)程序中(zhōng),通過對某禽流感病毒DNA堿基序列片段的比對,找到同源性比較高的DNA序列片段,這些序列代表的是與原序列相近的病毒,或者說與原序列代表的病毒屬于“近親”。
DNA比對結果
再對列表内的序列進行同源性比較,就能(néng)看到所選擇的序列兩兩之間的同源性為(wèi)多(duō)少,用(yòng)以判斷兩種病毒的“親緣”關系,如下圖:
DNA比對矩陣
由這些DNA序列構建而成的進化樹更能(néng)說明序列所代表的病毒的“親緣”關系,如下圖。圖中(zhōng),進化樹中(zhōng)的橙色字體(tǐ)代表查詢序列的序列号,藍色字體(tǐ)代表比對序列的序列号。其中(zhōng),在一個外群的分(fēn)支“親緣”關系更為(wèi)緊密,而同一外群中(zhōng),一個節點下的兩個病毒的DNA序列支長(cháng)越短,“親緣”關系越近,反之,“親緣”關系越遠(yuǎn)。而對于支長(cháng),我們可(kě)以通過标尺來觀測其長(cháng)短。
進化樹
而DNA又(yòu)是如何成為(wèi)蛋白質(zhì)的呢(ne)?
DNA不是直接就變成了蛋白質(zhì),而是通過一系列過程,最終轉化為(wèi)蛋白質(zhì)。
首先是DNA的轉錄:DNA在細胞核内,根據堿基互補配對原則,和基因的選擇性表達等,轉錄出mRNA(信使RNA),信使RNA上攜帶的就是特定的DNA序列,叫做密碼子,密碼子對應不同的氨基酸。
其次是mRNA的翻譯:mRNA通過核孔來到細胞質(zhì)中(zhōng)的核糖體(tǐ)上,根據密碼子的不同,tRNA(轉運RNA)上有(yǒu)反密碼子和攜帶的特定氨基酸。根據堿基互補配對的方式,tRNA和mRNA結合,那麽就會有(yǒu)不同的氨基酸,通過脫水縮合的方式形成肽鍵,多(duō)個氨基酸通過肽鏈結合形成肽鏈。
最後肽鏈:多(duō)個肽鏈通過高爾基體(tǐ),内質(zhì)網等加工(gōng),在空間上通過折疊,反轉,螺旋等方式形成空間結構,從而形成具(jù)有(yǒu)生物(wù)活性的蛋白質(zhì)。
DNA—RNA—蛋白質(zhì)
總結下來就是:DNA序列是遺傳信息的貯存者,它通過自主複制得到永存,并通過轉錄生成mRNA,再翻譯生成蛋白質(zhì)的過程。該過程完全自主完成,且該過程控制所有(yǒu)生命現象。通俗點講就是我幹自己的活,誰也管不了我,但我能(néng)弄你。偉不偉大先不說,牛X不牛X就完了!
不由感歎:敬畏宇宙,敬畏自然!
工(gōng)作(zuò)中(zhōng),我們通常操作(zuò)的隻是類似ATGC這樣的DNA堿基的序列編碼,通過對DNA堿基序列的轉錄、翻譯,最終成為(wèi)的氨基酸序列就可(kě)以了。在我們應用(yòng)程序裏更是直接利用(yòng)密碼子表将DNA序列轉換為(wèi)氨基酸序列:
DNA序列翻譯為(wèi)氨基酸序列
上圖就是在一長(cháng)串DNA原始序列找到開放閱讀框,将該閱讀框内的DNA序列翻譯為(wèi)氨基酸序列的操作(zuò)。通過程序計算,該原始序列内共找到13條開放閱讀框序列。也就是說,我們可(kě)以将該原始序列翻譯成13條氨基酸序列。
提到開放閱讀框,就不得不提密碼子,它就像摩斯電(diàn)碼一樣,不同的點橫組合,可(kě)以翻譯為(wèi)不同的代碼。
摩斯電(diàn)碼表
所謂密碼子,就是三個連續DNA堿基為(wèi)一組,這一組堿基序列就可(kě)以翻譯為(wèi)一個氨基酸編碼,而所有(yǒu)的三個連續DNA堿基的排列組合構成了密碼子表。有(yǒu)了密碼子表(下圖),我們就能(néng)更便捷的将DNA翻譯為(wèi)氨基酸。但密碼子表中(zhōng)有(yǒu)兩個特殊存在:起始密碼子ATG和終止密碼子TAA/TAG/TGA,它們是定義一段DNA序列是否能(néng)翻譯為(wèi)氨基酸序列的标準。
DNA-氨基酸密碼子表
氨基酸中(zhōng)文(wén)對照表
在正向DNA序列中(zhōng),從第一個起始密碼子開始到最後任意一個終止密碼子結束,且中(zhōng)間堿基數量是3的倍數的DNA序列,才是正常的可(kě)翻譯氨基酸的DNA序列,也被稱為(wèi)開放閱讀框;否則稱為(wèi)殘缺序列。殘缺序列是無法被翻譯為(wèi)氨基酸序列的。需要提到的一點就是,當我們翻譯時,默認将終止密碼子翻譯為(wèi)星号(*)。
到這裏,我們就已經成功将DNA翻譯成了氨基酸。而氨基酸最終會構成蛋白質(zhì)。至于蛋白質(zhì)的功效,就不必多(duō)講了。生活中(zhōng)各種高蛋白之類的産(chǎn)品宣傳估計已經将蛋白的功效普及的差不多(duō)了。
那麽問題來了,給你一串人類DNA序列片段:ATGGCACATGCAGCGCAATAG,你能(néng)将其翻譯成氨基酸序列嘛?
中(zhōng)科(kē)北緯軟件研發團隊,長(cháng)期從事林草(cǎo)病蟲害監測預報防治、野生動物(wù)保護和疫源疫病監測預警等方面業務(wù)梳理(lǐ)和軟件開發工(gōng)作(zuò),以網絡和信息化助力您的基因探索之路。