實現快速無監督解析冷凍電鏡三維結構的軟件—cryoSPARC(冷凍電鏡獲得三維結構的原理)

撰文:王有望 李承珉

作者為中科院生物物理所朱平組在讀研究生。

一門偉大的科學技術想要造福全人類,需要通過很多科學家的努力來提升性能,減少成本,同時降低門檻,最終能讓一個非專業訓練的人能用較少的資源獲得高性價比的成果。作為《自然·方法》(Nature Methods)盤點的2015年最受關注的技術,冷凍電鏡(cryo-EM)三維重構技術也不例外。冷凍電鏡方法早在1968年就開始發展,但是由于技術方法的瓶頸,一直只能做一些較低分辨率的結構解析工作。近年來,冷凍電鏡技術飛速發展,不斷突破,在分辨率上已經開始可以和晶體學相媲美。而且,由于其不需要結晶,對樣品的均一性要求也相對較低,樣品用量少,可重復性較高,加上快速冷凍能使生物分子盡量保持其天然結構狀態,冷凍電鏡三維重構技術已經成為結構生物學領域一顆亮眼的明星。

冷凍電鏡三維重構技術革命性的突破主要來自兩個方面:一是直接電子探測器的發明,二是高分辨圖像處理算法的改進。前者從硬件上讓電鏡的圖片質量和信噪比有了質的提升,將冷凍電鏡帶入了一個以電影的形式快速記錄電鏡圖像的新時代,后者則從軟件上將冷凍電鏡分辨率推入到了一個全新的高度,甚至讓高度柔性動態的樣品的高分辨解析變得可能。

在直接電子探測器的幫助下,對于比較好的樣品,一般自動收集1到2天的照片,就有可能獲得足夠解析到原子分辨率的優質數據。然而接下來,對數據的分析與處理,可能要花費一個專業人員數周以上的時間。對于一個包含數百萬個顆粒,擁有多個構像分子量較大的數據,即使在高性能計算集群上,也可能要花費超過50萬 CPU小時的時間。引入 GPU 加速技術是目前很多主流軟件的選擇,譬如Relion GPU版,在GPU的加速幫助下,已經大大縮短了分析計算的時間與成本。相對以前的軟件需要的較多的人工干預,Relion非常簡潔,對電鏡新人非常的友好。事實上,相對簡潔易用的Relion軟件及其采用的基于最大似然概率方法的三維分類技術正是冷凍電鏡革命性突破的重要推手之一。然而,即使是Relion的GPU版本,投入在分析計算的時間與資源,需要人工輸入以及調整的參數數量,以及對一個比較正確的初始模型的依賴,依然還有提升空間(圖1)。

實現快速無監督解析冷凍電鏡三維結構的軟件—cryoSPARC(冷凍電鏡獲得三維結構的原理)
圖 1:RELION-2.0的計算流程。對顆粒進行快速傅里葉變換,與模型的傅里葉變換的每個取向(包括三維空間的3個旋轉參數和平面內的2個平移參數)的切片進行比對,得出取向分布函數,根據分布函數加權重構出新的模型。

在2月6號在線發表的《自然·方法》上,來自多倫多大學約克大學的研究小組介紹了他們新開發的一款名叫cryoSPARC的軟件,用于快速無監督的冷凍電鏡結構解析(rapid unsupervised cryo-EM structure determination)。與Relion等目前主流電鏡軟件相比,cryoSPARC引入了兩個新的算法進行改良。第一個是隨機梯度下降法(stochastic gradientdescent,簡稱SGD),用于快速尋找低分辨率的三維模型,可以從電鏡數據上直接搭建初始模型。在冷凍電鏡三維重構中,利用不同方法獲得一個相對比較正確的初始模型并輸入到Relion等軟件來進行進一步三維分類和重構是一個較為常規的手段。而cryoSPARC則很好地集成了這個問題,不再需要人為去“告訴”以及干預它使用什么樣的初始模型。這樣也能比較好地避免人為給予的模型帶來的模型偏向(model bias)。事實上,開發者們對于這個算法帶來的優化非常自信,以至于他們將這套軟件命名為cryoSPARC ,即“cryo-EM single-particle ab initio reconstruction and classification”的縮寫,翻譯成中文就是冷凍電鏡單顆粒從頭重構和分類技術。第二個算法則是分支界限最大似然優化法(branch-and-bound maximum likelihood optimization),用于改進顆粒對齊方式,減少冗余計算,從而節約大量計算資源以及加速高分辨率的重構步驟。Relion在這一步使用的是傅里葉空間的全局搜索和局域搜索結合的方式,先進行全局的暴力搜索,找到顆粒的比較正確的空間參數后再進行局域搜索,直到收斂。這種方法比較耗費時間,一直是Relion的限速步驟之一。分支界限法的引入和加速,使得原本復雜費時的冷凍電鏡三維重構工作,現在有可能在相對簡單配置的臺式工作電腦上很快地完成。

這兩大算法,并非研究者們原創。SGD算法在深度學習領域,尤其是圖像識別與語音識別領域,應用十分廣泛。SGD是針對非凸優化問題比較常用的算法。冷凍電鏡單顆粒重構正是一個典型的非凸優化問題。它存在很多局域最優解,如果初始條件給的不好或者稍微出現偏差,便很容易陷入局域最優的狀態。這給高分辨結構解析帶來了很大挑戰。SGD算法或許能帶來一個新的思路。就如同一個登山的游客想從山頂快速到達山腳,比較有效的一種方法就是他每到一個點都環顧四周,總可以找到某個方向是梯度最大的,也就是坡度最陡。就這樣,他總能找到一條路可以最快到達山腳。這便是經典的梯度下降法。然而如果這個山山谷比較多(即非凸問題),他也很可能會因為這個方法陷入到某個山谷,而無法到達地面。隨機梯度下降則有可能會避免這個問題,他不會去測所有方向的梯度,而是每次隨機選擇某些方向,尋找梯度最小,到達新的位置后再隨機尋找新的方向,直至最后收斂。雖然迭代到最終收斂需要的次數會比傳統梯度下降法多,但是由于需要訓練的數據少,可以大幅下降計算耗時,而且多次重復隨機,可以有效避免局域最優問題。事實上對于非凸問題SGD算法也只能保證局域收斂,然而有意思的是,研究者們發現對于電鏡數據,這種算法會有非常好的表現。

分支界限算法算法是一種在解空間樹上搜索問題解的方法,使用廣度優先或最小耗費優先的方法搜索空間樹。假如你現在需要從一堆數中挑選最小的那一個。你可以對數據進行分組,例如A和B。如果你能夠統計出A組的下界大于B組的某個值,那么你就可以放心大膽的將A組數據全部丟棄,然后對B組數據采用同樣的方法。和二分法有些相似。冷凍電鏡三維重構中的三維精修過程中最消耗資源的步驟就是統計每個顆粒與三維模型的每個取向上的似然度,然后做出取向分布函數(也就是Expectation步驟)。顯然,如果對所有空間取向和所有傅里葉空間頻率進行搜索是一個很巨量的計算任務,而且有可能會因為顆粒信噪比較低的原因,顆粒信息量的分配會出現錯誤。分支界限法的關鍵是如何分組并得到一個下界,這個下界要易于計算并且能夠保證排除掉的一定不會存在最優解。研究人員給出的方法的假設是:如果一個顆粒在低分辨時就無法與低分辨模型很好的匹配,那么這個顆粒在高分辨時也是無法對齊的。所以第一輪全局搜索只統計低分辨信息,隨后的搜索都是在局域完成的。這樣,整個Expectation的步驟就可以很快完成,三維分類和三維精修就得到了加速。

為了測試這兩大算法能否真正有效,研究者們對已發表的數套數據進行了測試,包括嗜酸熱原體(Thermoplasmaacidophilum)的20S蛋白酶體,瘧原蟲(Plasmodium falciparum)的80S核糖體,以及amphipol-solubilized rat的TRPV1通道蛋白,以及嗜熱菌(T. thermophilus)的V/A-ATPase酶。測試工具僅僅是一臺配置了i7-5820K CPU處理器和一塊單獨英偉達特斯拉系列K40GPU顯卡的工作站。對于電鏡計算來說,這已經是非常簡陋的配置了。然而就是在這樣的配置下,研究者們花費幾十分鐘或數個小時,就可以完成整個重構過程。而即使是Relion GPU版,完成相同任務也可能需要數倍甚至十倍的時間。圖二展示了他們測試使用的數據,每一步驟的時間以及最終到達的分辨率。雖然他們很好的節約了計算時間與資源,但是在計算的準確性上,絲毫沒有降低,反而還能得到一些更好的結果。譬如對35645個TRPV1的顆粒數據耗時66分鐘最終重構結果為3.3埃,略高于已發表的3.4埃結果。有意思的是,對于嗜熱菌的V/A-ATPase的數據,使用cryoSPARC分類重構,最終得到三類狀態,分別為6.4埃,7.6埃以及7.9埃。而已發表的結果里,只得到了兩種狀態,分辨率分別6.4埃和9.5埃。看來這種自主建初始模型的行為,可能對于分類會有不錯的幫助(圖2)。

實現快速無監督解析冷凍電鏡三維結構的軟件—cryoSPARC(冷凍電鏡獲得三維結構的原理)圖2:使用SGD算法和分支界限法的計算流程與耗時(ref.1)

雖然從研究者們測試的數據來看,集合了隨機梯度下降法和分支界限法的cryoSPARC軟件有著性價比極高的處理能力,然而在制約冷凍電鏡三維重構的一些關鍵性問題上,譬如顆粒的取向優勢和低信噪比等問題,并沒有表現的比Relion更加優異。不過這掩蓋不了它的強大,特別是如果該軟件以后能在使用者自己的數據上有如同測試數據一樣優秀的表現的話。借鑒使用別的領域成熟而且優秀的算法是大勢所趨,尤其在人工智能深度學習快速發展的今天。相信在不遠的未來,隨著各領域的交叉融合,越來越多的不同領域的優秀人員加入到電鏡技術的開發與研究,電鏡這門偉大的科學技術將為人類帶來更大的福利。

參考文獻:

  1. Punjani A, Rubinstein JL, Fleet DJ & Brubaker MA. cryoSPARC: algorithms for rapid unsupervised cryo-EM structure determination.Nat Methods, 2017, doi:10.1038/nmeth.4169

  2. Nogales E &Scheres SH. Cryo-EM: A unique tool for the visualization of macromolecular complexity.Mol Cell, 2015. 58(4):677-89

  3. Kimanius D, Forsberg BO, Scheres SH,& Lindahl E. Accelerated cryo-EM structure determination with parallelisation using GPUs in RELION-2.Elife. 5: e18722. doi:10.7554/eLife.18722

  4. EDITORIAL, Method of the Year 2015,Nat Methods, 2016, 13(1). doi:10.1038/nmeth.3730

  5. Bottou L. Large-scale machine learning with stochastic gradient descent. InProc. COMPSTAT’2010 (eds. Lechevallier, Y. & Saporta, G.).177–186 (2010).

注:中國生物物理學會設有冷凍電鏡分會(全稱為“冷凍電子顯微學分會”, 原名為“生物超微結構顯微成像專業委員會”),主辦過多場冷凍電鏡方面的高端學術研討會,并打造了冷凍電鏡技術培訓的系列精品課程。

2017年生物物理學會將繼續舉辦冷凍電鏡研討會及技術培訓課程。有興趣者請關注生物物理學會官網或微信公號 (ID: BPSC1979)。

版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。

(0)
上一篇 2023年4月15日 上午9:47
下一篇 2023年4月15日 上午10:03

相關推薦

成人国产精品2021| 国产成人精品久久免费动漫| 91麻豆国产极品在线观看洋子| 国产美女19p爽一下| 97久久精品无码一区二区| 国产精品任我爽爆在线播放| 2021日韩麻豆| 国产成人免费一区二区三区| 蜜桃97爱成人| 国产一级在线观看| 精品国产免费一区二区三区香蕉| 又爽又黄又无遮挡网站| eeuss影院www在线观看免费| 国内精品国语自产拍在线观看55| 97国产在线观看| 国产激情视频在线| 蜜桃成熟之蜜桃仙子| 国产xxxxx| 男男gvh肉在线观看免费| 伊人蕉久中文字幕无码专区| 欧美日韩在线观看视频| 亚洲国产日韩欧美一区二区三区| 日韩精品一区二区亚洲av观看| 亚洲精品乱码久久久久久不卡| 欧美性猛交xxxx黑人| 亚洲成AV人片在线观看ww| 日韩精品中文字幕无码一区| 久久成人国产精品| 性满足久久久久久久久| yellow2019电影在线高清观看| 国产高清天干天天美女| **实干一级毛片aa免费| 国产噜噜噜视频在线观看| 精品国产麻豆免费人成网站| 免费人成在线观看网站| 狠狠色狠狠色综合系列| 午夜精品视频任你躁| 波多野结衣中文字幕一区二区三区| 亚洲欧美日韩人成在线播放| 日韩美女专区中文字幕| 久久久午夜精品福利内容|