目標序列捕獲技術 |
1. 前 言 人類基因組計劃(Human Genome Project, HGP)給基因組學研究帶來了天翻地覆的變化,通過測定人類基因組DNA的序列,探尋基因在染色體上的位置,明確基因的結構和功能,解讀人類的全部遺傳信息,人類第一次在分子水平上全面認識自我。在這期間,建立了兩項非常重要的高通量技術:基因芯片和新一代測序技術。這兩種技術進一步結合,就產生了一種新的解決方案:目標序列捕獲測序技術。新一代測序技術的發展和成功應用使得普通實驗室對整個人類基因組進行測序成為可能,由此,科學家們提出了千元人類基因組計劃。然而就目前而言,全基因組測序對實驗成本和能力的要求還是很高,并且由于大部分基因的功能還不是很清楚,對所產生的海量數據進行生物信息學分析將是一項巨大的挑戰。 在新一代測序技術以前,對基因組大片段特定區域的研究主要通過PCR擴增后進行傳統毛細管測序的方法。這種方法的問題是目標片段大于500kb時PCR和測序的成本會變得讓研究人員難以承受。而傳統的單基因疾病的解決方案是家系連鎖定位,最后定位的區域往往是以兆(M)bp來計算的,這就為后續的研究工作帶來了困難。 近年,目標序列捕獲、全外顯子捕獲等方法能更加經濟有效的靶定基因組的相應區域。而且這些方法產生的大量DNA片段非常適合使用新一代測序平臺進行測序。通過這些技術的組合,人們對于遺傳疾病的研究的效率大大的提高,2009年-2011年,應用該技術解決遺傳疾病的文章就達到200余篇。 基因捕獲測序的主要優勢在于可針對特定區域進行測序,有效降低了測序成本,提高了測序深度,更精確地發現特定區域遺傳變異信息。目前常用的基因捕獲方法包括雜交捕獲和多重PCR擴增,核心技術主要掌握在國外大生物科技公司手上,如Roche、Agilent、ADV、IDT、Life Technologies等。其中,雜交捕獲的特點是能夠對外顯子組甚至更大的目標區域進行捕獲,但操作流程復雜,需要依賴較多專門的儀器設備;多重PCR則操作簡單靈活,對儀器要求最小化,能在數小時內完成目標序列富集和文庫構建,適用于相對較小的目標序列捕獲。 2 目標序列捕獲測序技術 2.1 目標序列捕獲 目標序列捕獲是指通過某種方法有選擇性的分離或者富集基因組的特定片段。從這個定義看,目標片段的PCR也是目標序列捕獲的一種,不過這種方法通量小,目前一次PCR獲取最長的基因組DNA片段長度應該不會超過50kb,而且需要特殊的酶和特殊的PCR條件,成本高昂,穩定性差。當然100kb以下的片段,通過多次PCR的方式也是可行的,一般每個擴增片段的長度在500bp左右性價比最佳。 目標序列捕獲的另一種重要的方法是根據核酸分子堿基互補雜交原理發展的。即根據目標基因組序列,設計與之完全互補的探針,將這些探針固定在某些支持物上(用于分離),然后打斷基因組DNA,加上接頭(用于測序)后與探針雜交,洗脫未雜交上的DNA,回收目標DNA片段,可以直接建庫進行DNA測序。根據雜交時狀態不同,目標序列捕獲可以分為固相雜交法和液相雜交法。固相雜交法所用的探針通常都是固定在固體支持物上,如玻璃、塑料等,其中最典型的是基因芯片?;蛐酒膬纱髲S商(Agilent,NimbleGen)都提供這一方法的商業化試劑盒。固相捕獲系統構建如下,首先選定目標DNA區域,在修飾了的玻璃片基上原位合成一系列與目標區域互補的探針。通常,基因芯片是雜交后,洗脫未雜交上的DNA片段,然后掃描成像獲取每個探針的雜交信號,而固相雜交捕獲則只有最后一步不同,即與探針雜交的DNA被洗脫下來,用于后序的測序工作。 液相雜交與固相雜交最大的差異在于雜交反應的環境不同。液相雜交是通過在溶液中,目標DNA片段和已帶有生物素標記探針直接雜交,然后通過生物素親和素的反應使目標DNA片段錨定在帶有親和素的微珠上。洗去非目標DNA,洗脫后,富集的DNA用于測序。液相雜交與固相雜交相比有兩大優勢:第一、雜交效率更高;第二、易于操作,時間短,便于自動化操作。使用這種方式的典型產品是安捷倫(Agilent)公司推出的SureSelect目標序列捕獲系統(圖1)。 圖1 安捷倫SureSelect 目標序列捕獲系統流程示意圖(引用自agilent網站)![]() 構建一個基于雜交原理的目標序列捕獲系統,有兩點需要考慮,即探針的長度和探針的合成成本。一般來說一個8堿基的探針就有了足夠的雜交特異性,而探針越長,雜交的特異性就越差。目前商業試劑盒的探針長度都在60nt到200nt之間,這其中的一個重要考慮是,雜交的特異性限定(或者說雜交的錯配容忍度)。我們需要研究的是目標DNA片段中發生的突變、插入/缺失等,如果探針特異性太高,在DNA捕獲時就會產生有利于參考序列(與探針完全互補的序列)的選擇,這在后期數據統計上就會產生明顯的偏差,而探針太長又會有太多的非特異雜交,非目標序列會急劇增加。 長探針合成的成本也是制約這種技術發展的關鍵因素之一,比如說設計1萬條100nt長帶有錨定物(生物素)的引物探針,傳統的引物合成需要非常高昂的成本。對于基因芯片廠商來說,這是非常容易的事情,這得益于他們的探針原位合成技術。原位合成探針的低成本和靈活性非常有利于特定區域的基因組捕獲,Agilent公司提供了客戶定制的系統,DNA捕獲區域從200kb到5.8Mb都可以。 2.2全外顯子組捕獲我們知道編碼蛋白的外顯子僅占人類基因組的1%左右,但是它非常重要。目前外顯子組捕獲技術已發展成熟。這些技術都是基于雜交的原理,包括基于陣列的固相雜交和液相雜交。目前安捷倫公司發展的全外顯子捕獲試劑盒(SureSelect)最高捕獲量為50Mb。羅氏公司(Roche NimbleGen)同時推出了基于固態雜交法(2.1M SeqCap array)和液相雜交法( SeqCap EZ)兩種技術。 當然,“人類全外顯子組”有很多種不同的定義,兩家公司提供外顯子組捕獲的商品化試劑盒,除了靶向到大約30M編碼蛋白的外顯子區域外,兩家公司也提供靶向選擇miRNA編碼區的試劑盒,并且可以加入自主選擇的捕獲區域(安捷倫公司)。這些產品捕獲的DNA序列雖然只是全基因組的部分區域,但在成本和時間花費上具有很大的優勢。 2.3 染色體區域捕獲人的基因組并不是從頭到尾一條DNA鏈的結構,實際上是由22對常染色體和1對性染色體構成,這使我們單獨分離某條染色體后測序成為了可能。由于每條染色體都有自己特定的形態和結構,所以可以通過專業的設備識別每條染色體,分離后染色體構建成DNA文庫后就可以用新一代的測序技術進行深度測序了。這一策略非常有效,已有中期染色體經顯微切割捕獲后測序的案例被報導。雖然這些方法都需要高度專業的儀器設備,但是對于某些獨特的生物學問題確實是非常有用的。 3. 目標序列捕獲技術的應用 3.1 在醫學研究中的應用目標序列捕獲實驗的主要用途之一是研究導致疾病發生的遺傳變異。對于單基因遺傳疾病,傳統的正向遺傳手段是通過家系連鎖分析。它要求有足夠的分子標記,當然自從SNP芯片出現后此問題得到極大的緩解。但是傳統方法還有一個缺點是要求研究的家系有足夠多的交換(至少三代),但是由于患病家系個體的壽命短或者子一代到一定年齡后才發病,導致大量家系只能收集到兩代人的樣本。而用外顯子組捕獲測序來研究這些案例就可以解決這個問題,因為它只需要核心家系就可以了。而且理論上全外顯子組捕獲實驗對于多基因疾病同樣有效。最近已經有多篇報導利用捕獲加測序的方法研究遺傳疾病,并取得了不錯的結果。 Ng 等利用基于微陣列的雜交技術對12個人的外顯子組進行了測序。其中4個個體是無親緣關系的弗里曼-謝爾登綜合癥患者,另外8個個體是正常對照,來源于國際人類單體型圖計劃(HapMap)。弗里曼-謝爾登綜合癥已知是由MYH3基因的變異引起的孟德爾顯性遺傳疾病,非常罕見。這一研究結果發表在2009年的Nature雜志,是第一篇人類外顯子組測序的論文。該文章的發表為單基因遺傳病研究提供了全新的方法,同時也建立了完整的測序數據分析流程:a.去掉同義突變;b.去掉公共數據庫正常人攜帶的SNP位點;c.通過軟件預測突變對所表達蛋白功能的影響;d.找出患者共同擁有的突變,最終定位到了候選致病基因MYH3。 Ng 等在Nature Genetics在線發表了第一篇利用外顯子捕獲測序技術尋找到未知病因的致病基因的文章。研究人員選擇了三個獨立的米勒綜合癥家系,對其中4名患者進行外顯子測序。通過與人類參考序列比較,4個患者的DHODH基因都產生了變異。通過進一步驗證,研究人員在其它3個家系的米勒綜合癥患者中發現DHODH基因上存在同樣突變。這篇文章為研究未知病因的單基因遺傳病建立了外顯子捕獲測序技術的解決方案。 在腫瘤疾病的研究方面,采用全外顯子捕獲測序技術也取得了重要的成果。葡萄膜惡性黑色素瘤(maligment melanoma of uvea)是一種較多見的惡性眼內腫瘤,Anne Bowcock等采用了外顯子組測序方法,結果發現在31個腫瘤樣本中有26個(占84%)樣本的BAP1基因存在著失活性突變。Simon等將此技術應用在胰腺神經內分泌瘤(PanNET)的突變檢測上,發現在68位被檢測的患者樣本中, MEN1基因突變有30例,DAXX突變有17例,ATRX突變12例。瑞金醫院陳竺院士/陳賽娟院士的研究小組利用外顯子組測序技術對急性髓系白血病M5型的患者血液樣品進行了篩查,發現112名患者中有23例存在DNMT3A突變,比例為20.5%。 全外顯子組捕獲測序還是傳統家系定位的有益補充,兩者結合將更快更有效鎖定致病位點。安徽醫科大學張學軍教授研究逆向性痤瘡(Inversa acne, AI)就是兩種研究方法結合的典型案例。該團隊剛開始采用全基因組掃描結合連鎖分析的方法將致病基因定位于1p21.1-1q25.3區域,由于該連鎖區域包含大約900個基因,范圍較大,后續很難進行進一步的精細定位。他們采用了外顯子測序技術解決了這一難題。通過外顯子捕獲測序結合連鎖定位的結果,證實NCSTN基因與逆向性痤瘡的發生相關。 全外顯子捕獲技術的出現,將極大的推動人們對基因和疾病關系的研究。根據統計,大概85%的單基因疾病突變位點位于外顯子區域,與全基因組重測序相比,相同成本下,覆蓋度更深、數據準確性更高,更加簡便、經濟、高效。它也可用于尋找復雜疾病如癌癥、糖尿病、肥胖癥的致病基因和易感基因等的研究。同時,外顯子的變化和其表達的蛋白直接相關,科學家們能夠結合現有資源非常直接的解釋研究結果。 3.2 其他研究應用目標序列捕獲技術在生物進化的研究中也起著重要的作用。例如,在研究古代尼安德特人的基因組中。由于尼安德特人已經滅絕已經有幾萬年,遺留下來的只有骨骼,DNA已經嚴重降解。這些DNA和新鮮樣本的DNA比,處理非常困難,同時還存在著非常嚴重的微生物基因組污染,因此這種樣品是不適合用鳥槍法測序的。研究人員運用目標序列捕獲技術對尼安德特人基因組中有關人類進化相關的基因進行富集,富集率高達190,000倍,這樣就獲得了尼安德特人序列中幾乎所有感興趣的位點。后來研究人員確定了88個在人類中已經被修復的替換,這些發現可以告訴我們人類和尼安德特人在分子水平有何不同。此項研究過程中建立的方法學可應用于考古學、古生物學乃至人體法醫學等領域中,比如恐龍基因組的研究等。 外顯子組捕獲也已經被用于研究近代的進化變異。研究人員應用全外顯子測序技術,對青藏高原世居藏族人群和低海拔人群進行比較,發現了藏族人群適應高原環境的關鍵基因EPAS1。通過對藏族人群中EPAS1基因的改變位點進行關聯分析,發現EPAS1基因中受選擇的基因型與藏族人群血紅蛋白的代謝有關,藏族人群EPAS1基因阻止了血紅蛋白濃度在高海拔區域過度升高,降低了各種高原性疾病發生的可能性。同時根據數據分析發現,漢族(北方)與藏族的基因非常相近,其最大的區別是EPAS1基因的不同,而這作為漢藏分離的證據可以測定出分離的年代(漢藏分離大概在2750年左右)。這篇文獻表明外顯子組捕獲測序技術在等位基因頻率的研究中是準確、有用的,尤其對于那些SNP芯片中未包含的罕見SNP的研究更為有用。通過外顯子組捕獲技術研究近代和古代的遺傳差異,我們能夠更加全面的了解我們的進化歷史。 目標序列捕獲測序技術也可以用來研究基因組的拷貝數變化??截悢底兓沁z傳疾病的另一個重要原因。目前拷貝數變化的研究工具主要是基因芯片,如arrayCGH芯片或者SNP芯片等。這些方法通過雜交信號強度來區分拷貝數,屬于“模擬”信號,其分辨率取決于芯片上探針的密度。Conrad等利用目標序列捕獲測序這一高分辨率技術研究了特定拷貝數變異區域,檢測到了真正的“斷點”,并推測有些斷點可能于修復機制有關。作者指出這種方法用于研究簡單區域的CNV是非常有用的,但是對于那些有很多重復的復雜的基因組運用此技術,無論是捕獲探針的設計還是測序的分析都具有挑戰性。 隨著技術的發展,目前捕獲技術不僅限于基因組DNA,已經有研究利用捕獲測序技術研究RNA序列。Levin等利用此技術富集感興趣基因的RNA,通過對這些基因的有效的富集,研究人員不需要增加測序總量就可以檢測低豐度基因,同時他們還檢測到了基因融合。利用RNA捕獲測序技術可研究許多問題,如低豐度轉錄本的定量,基因的可變剪切,基因融合以及等位基因的表達。安捷倫公司于今年初推出了SureSelect RNA捕獲試劑盒,相信通過該試劑盒結合新一代測序技術將極大的推動轉錄組的研究。 4. 展望目標序列捕獲測序是目前基因組學研究中的一個熱點技術,主要原因是全基因組測序需要耗費大量的成本和時間。所以有選擇性(目標序列捕獲)的深度測序是目前基因組研究的明智選擇,當然不斷改進的測序技術和不斷改進的生物信息分析將會大幅度的降低成本和時間。當人們只對部分基因組進行測序時,在相同成本下,研究者可以研究到更多的樣本數量和測到更深的深度。我們知道,樣本數量是發現致病基因的關鍵指標,尤其是較常見的疾病,樣本量越多,定位到疾病相關基因的可能性越大。特別對于一些稀有的變異或者部分體細胞的基因突變,測序深度決定了靶向測序是一種有效的工具。 當全基因組測序的試劑成本真的降到1000美元時,處理隨之而來的海量生物信息將是巨大的問題,分析的費用也會遠遠高于1000美元。如果同時解釋個體的所有遺傳信息(DNA序列,突變,CNV,甲基化,轉錄本等),研究人員能否從獲取的數百萬位點中挑選出重要的突變位點?重復的序列如何屏蔽?各組學間數據如何交叉分析?結果如何解釋?這些都需要新理論和新算法的出現,然而對于疾病的遺傳研究時不我待。因此,靶向測序作為全基因組測序的補充技術是非常有用的,它大大簡化了分析的目標。 分子診斷市場無比廣大,但是診斷市場對成本的要求更為苛刻,至少全基因組測序在很長的一段時間內無法進入分子診斷市場,這就是目標序列捕獲測序的機會。例如DMD基因,長度2500kb,由79個外顯子和78個內含子構成,其突變是引起杜氏進行性肌營養不良病的原因,非常適合采用靶向測序。還有一些遺傳病在表型上非常相似,但可能是目前已知基因變異的一種,這樣我們也可以把這些變異區域并在一起,設計目標序列探針并捕獲測序,這比傳統的PCR后毛細管測序通量高,速度快,深度深。 目標序列捕獲技術已被證明是一個強大、有效的技術,并在新一代高通量測序中發揮獨特之處,已經產生了許多令人興奮的新發現,應用領域也越來越廣泛。 |