16個小家鼠種系從頭測序:究竟是什麼造成了個體差異?
文章推薦指數: 80 %
小家鼠(Mus
musculus)是生物學和醫學上最常用的模式生物之一。
相較其他哺乳動物,它具有諸多獨特優勢,例如適應性強,繁殖快,成本低,易於近親繁殖。
在過去的近100年,小家鼠發展出眾多「近交系」,大大提高了實驗的可追溯性和可重複性【1】。
科學研究中最常用的小鼠近交系是C57BL/6J。
在2002年,作為人類基因組計劃的一部分,C57BL/6J全基因組測序完成【2】,並且成為了小家鼠的參照基因組(Reference
genome)。
在過去的十幾年,歷經數次更新,其錯誤率已從3.3x10-4降低到<10-5【3】,成為最可靠的基因組之一。
因此,其他眾多小鼠近交系的基因組,都是基於C57BL/6J的:大量Illumina短片段測序(通常為75-125個鹼基)通過比對,組裝到參照基因組上,然後標識出所有的單鹼基突變(SNP)、插入缺失(indel)和結構變異(SV),作為種系間差異的遺傳學基礎。
這種方法花費低、效率高、測序錯誤率低,廣泛用於小鼠和人類遺傳學研究【4】。
然而不久,一個明顯問題浮現出來,即比對-組裝-變體識別的方法只能用於基因組內相似度高的部分,而對於類似於「主要組織相容性複合體(MHC)」的複雜區域,其結果完全不可靠。
在最近一期Nature Genetics上【7】,歐洲生物信息研究所(EMBL-EBI)的Thomas Keane研究組發表了12個最常用的實驗室小鼠近交系和4個野生來源近交系的從頭測序(de
novoassembly)結果。
令人意外的是,在小鼠基因組,類似於MHC的高度多態性區域多達數千個,占小鼠基因組的0.5-2.5%,編碼1.5-5.5%的蛋白。
這些區域被稱作「種系特徵區」。
通過基因道(gene
ontology)分析,種系特徵區主要編碼免疫、感知、神經、行為、有性繁殖和親屬辨認相關基因。
與基因組中其他部分不同,這些區域編碼了大量全新基因。
除非是同卵雙胞胎,否則不同個體所攜帶的序列很可能完全不同。
以野生來源近交系WSB/EiJ為例,它與參照基因組C57BL/6J遺傳學相距1萬年左右,卻在IRG,Nlrp1,Raet1等多個區域攜帶全新等位基因,差異超過大鼠/小鼠間距離,即1200-2400萬年。
這些基因的組合是WSB/EiJ獨有的,與其他15個種系均不相同。
另一個例子是「類海馬體鈣結合蛋白(Hpcal)」,一類只在大腦和視網膜中表達的蛋白,可能與記憶的形成有關【8】。
在小鼠基因組,Hpcal家族編碼於染色體12——一個極度複雜的種系特徵區,長達7百萬鹼基,共有50-100個基因。
目前我們還無法釐清這些高度多態性的Hpcal的基因,但發現各個種系內,Hpcal的編碼和組合方式可能完全不同。
在小鼠群體中,不同的個體會有各自的思考和行為方式。
我們有理由相信,這些性格特徵,很可能已經編碼在基因組中類似Hpcal的區域。
這些結果提示我們,從事免疫、感知、神經、繁殖等領域的研究,光從SNP、拷貝數、表觀遺傳來尋找候選基因是遠遠不夠的。
種系特徵區(或個體的特徵區)會給目前的研究帶來巨大困難。
遺憾的是,由於技術局限,目前科學界大多採用短片段測序-比對-組裝-變體識別的方法尋找基因組差異,而在這種條件下,個體特徵區內的差別很難被發現。
另一方面,小鼠不同種系間基因組差異遠大於我們過去的想像,通過雜交兩個背景不同的基因敲除鼠來培育雙敲除種系會帶來不可預測的污染。
由於種系特徵區很難進行變體識別,目前常用的基因晶片並不一定覆蓋這部分區域,因此有時候這些污染很難被發現。
據悉,在過去的幾年中,Thomas Keane研究組與其他實驗室合作,測序了小鼠基因組中數個種系特徵區。
在這些區域種系間差異往往令人瞠目結舌。
有興趣的讀者不妨可參考以下文獻進一步深入了解【9-11】。
值得一提的是,上述工作早在今年2月份就在預印本雜誌bioRxiv上在線發表了。
基因與人類基因組計劃
生命的源頭在於基因!近十年來,我們對基因及基因組工作的原理、性質、功能等認識和了解都更加深入與明確,基因的神秘面紗正越來越多地被人類揭開。它是人類生老病死、健康長壽的內因,決定著一切生命的生存...