如果你是一位拼圖高手,或許曾經挑戰過數百片甚至上千片的拼圖。但你想過完成一幅上百萬片,甚至再高几個數量級的拼圖作品嗎?
這幅巨大的“拼圖”實際上就是國際上許多機構和科學家多年來一直在努力完成的作品,也就是人類基因組研究。
最近,這項浩大的工程又迎來了一個里程碑式的成就。科學家首次“從頭到尾”(從端粒到端粒)確認了人類X染色體的完整序列,其中不存在任何缺口,它的精確度達到了前所未有的水平。這一成果也標誌著,創造出精確到鹼基的完整人類染色體已經成為現實,基因組學研究或許將邁入新的時代。
事實上,當我們說起人類基因組測序或者研究時,通常會有一些典型的“錯覺”。比如,說到“人類基因組”這個詞時,可能總覺得好像只有一種似的。其實我們每個人都有自己的基因組“副本”,而且每個副本都略有不同。
而在基因組研究中,通常會採用“參考基因組”(reference genome)的概念。參考基因組通常是一個由科學家組裝的數字的核酸序列數據庫,作為物種的一個理想個體的基因代表。
人類參考基因組最初來自一些匿名志願者,基因組參考聯盟(GRC)負責對參考基因組進行不定期地更新。2013年,GRC發佈了最新的人類參考基因組GRCh38。儘管經過數十年的努力,目前的人類參考基因組是迄今為止最精確和完整的脊椎動物基因組之一,但它並非一個“一字不差”的完整基因組,其中的DNA序列仍然存在許多“缺口”等待著填補。
這就和另一個常見的“錯覺”有關。當我們談到對人類基因組測序,我們腦海裡浮現出的畫面可能是像“複印機”一樣的場景——科學家把一個完整的基因組信息按順序一點一點“印”出來。但事實卻不是這樣。
人類基因組非常長,包含約60億個鹼基。任何DNA測序儀器都無法一次性完全讀取所有的鹼基信息。因此,簡單來說,研究人員需要把基因組分成更小的片段,就像把把一幅圖畫切割成拼圖的一小塊。然後,再對每一塊的信息進行分析,最後把這些短片段拼回到整幅圖中去。這也就是為什麼科學家的工作更像是在“拼拼圖”。
在這幅“拼圖”中,DNA重複序列在基因組中非常普遍,它們一直是巨大的挑戰。大多測序技術只能製造出長度很小的“短片段讀取”,重複序列就會導致許多看起來幾乎完全相同的短片段出現。這就好像在拼圖中出現了一大片藍天,這裡的每一塊看起來並沒有什麼不同,但又沒有線索告訴我們這些片段是如何拼接在一起的,也沒有線索說明片段重複了多少次。這就帶來了許多“缺口”,也就是“丟失”的信息。
在這項新研究中,團隊沒有選擇測序正常人類細胞中的X染色體。相反,它們使用了一種特殊的細胞類型。這種細胞包含兩條完全相同的X染色體,它比一般的男性細胞(XY)多一條X染色體,同時又能避免分析典型的女性細胞(XX)時會遇到的兩條染色體的序列差異的問題。
研究的第一作者Karen Miga在2018年曾參與一項研究,證明了納米孔測序技術在創造完整人類基因組序列方面的潛力。研究使用的是一種特殊的納米孔測序儀,它通過檢測單個DNA分子通過膜上的小孔(納米孔)時電流的變化,對DNA進行測序。
Miga介紹,這些重複性很高的序列曾經被認為十分棘手,但現在,測序技術取得了長足的進步。納米孔測序技術可以獲得包含數十萬個鹼基對的“超長讀取”,這樣的長度可以跨越覆蓋整個重複區域,從而繞過了一些複雜的挑戰。新的突破正是由能夠實現“超長讀取”的新測序技術實現的。
在先前研究的基礎之上,新的研究將納米孔測序與其他測序技術結合,並利用了光學圖譜進行整合。藉助這些技術,團隊製造出了一個全基因組的組裝,它在連續性、完整性和準確性等方面超過了之前所有人類基因組組裝,甚至在某些指標上超越了當前人類參考基因組。
不過,序列上仍然存在多處缺口。為了獲得完整的X染色體,團隊不得不手動解決序列中的幾個缺口。納米孔的超長讀取解決了兩個片段的複製。
接下來,剩餘的中斷部位就是在著絲粒,也可以理解成染色體兩條“腿”交叉的地方。這是一個出了名的難題,因為這裡存在著大量重複DNA。在X染色體中,著絲粒包含的高度重複的DNA區域跨越了310萬個鹼基對。團隊成功識別出了重複序列中的變異,將它們作為標記,用這些變異來排列長段的讀取,再將它們連接在一起,從而完成了整個著絲粒區域。
下一步則是利用來自多種測序技術的數據的完善策略,從而確保序列中每個鹼基的準確性。Miga解釋,團隊在三個不同的測序平臺上使用了一種迭代過程來完善序列,並達到了高精度的水平。
染色體核型模式圖顯示了人類CHM13基因組的全基因組組裝,它在連續性、完整性和準確性方面超過了所有先前的人類基因組組裝。最右的X染色體被放大了。核型模式圖旁邊的藍色和橙色長條代表沒有缺口的重疊群丨[2]
納米孔測序除了能提供超長讀取之外,還可以檢測被甲基化修飾的鹼基——這是一種“表觀遺傳”的變化,也就是說,它不會改變序列,但對DNA結構和基因表達有著重要影響。通過繪製X染色體上甲基化模式的圖譜,研究人員能夠證實之前的一些觀察,並揭示著絲粒內甲基化模式的一些有趣的趨勢。
新的人類基因組序列來自填補了目前人類參考基因組中的許多缺口,為基因組研究開闢了新的領域。但潛在的挑戰依然存在。比如,1號染色體和9號染色體的重複DNA片段比X染色體上的要大得多。科學家接下來計劃繼續努力彌合更多未知的“缺口”區域。
研究人員相信,我們已經來到了“一個完整基因組序列的時代”。Miga表示:“我們開始發現,這些參考序列中存在缺口的區域,實際上是人類種群變異最為豐富的區域之一,因此,我們一直缺少許多關鍵信息,它們可能對理解人類生物學和疾病至關重要。”
參考來源:
[1]https://news.ucsc.edu/2020/07/x-chromosome.html
[3]https://www.eurekalert.org/pub_releases/2020-07/nhgr-nrg071020.php
封面來源:Pixabay
轉載請超鏈接註明:頭條資訊 » 首次獲得人類X染色體的完整序列
免責聲明 :非本網註明原創的信息,皆為程序自動獲取互聯網,目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責;如此頁面有侵犯到您的權益,請給站長發送郵件,並提供相關證明(版權證明、身份證正反面、侵權鏈接),站長將在收到郵件24小時內刪除。