深度學習遇上基因組,診斷疾病或迎來突破

鎂客 9年前 (2016-05-05)

深度學習在基因組醫學領域的應用已經邁出通往希望的第一步,這一應用可以對診斷、重癥護理、制藥和保險方面產生影響。

編者按:本文是O'Reilly 對 Brenda Frey 的專訪,他是 Deep Genomics 聯合創始人,多倫多大學教授,也是該大學機器學習團隊的聯合創始人,CIFAR 神經計算項目的高級學者,加拿大皇家科學院成員。

深度學習遇上基因組,診斷疾病或迎來突破

這篇訪談要點如下:

深度學習在基因組醫學領域的應用已經邁出通往希望的第一步,這一應用可以對診斷、重癥護理、制藥和保險方面產生影響。

「基因型—表現型」鴻溝——我們能將基因組學與疾病表現型聯系起來——正阻礙基因組學深入挖掘醫學領域的潛力。

深度學習可以彌合「基因型—表現型」鴻溝,通過吸收指數級增長的數據量,解釋將基因型與表現型關聯起來的復雜生物過程中的多層結構。

深度學習已經成功應用于人類天生擅長的領域,比如,圖像、文本以及語音理解。然而,人類意識卻不能理解基因組。為此,需要使用「超人智能」來解決這個問題。

這一領域的研究必須能夠解釋深層生物學機制;過度簡化或者「黑箱」研究方法,價值都將有限。

從你的背景開始談起吧?

1997年,我在 Hinton 的指導下完成了自己的博士學位。我們合著了一篇關于深度學習的論文(1995年發表在《科學》上),也是最早的深度學習研究論文之一。這篇文章可以說是近期許多無監督學習以及自動編碼器研究的先驅。當時,我關注的是計算機視覺,語音識別以及文本分析。也研究深度結構中的信息傳遞算法。1997年,David MacKay 和我合作了第一篇有關「環路信念傳播(loopy belief propagation)」或 「合積算法( sum-product algorithm )」的文章,這篇文章出現在了頂級機器學習會議 NIPS 上。

1999年,我成為 Waterloo 大學 的一名計算機科學教授。2001年,加入多倫多大學,與其他幾位教授一起,共同成立了機器學習小組。我們的團隊研究深度結構中的學習和推論,使用的是以變分方法、信息傳送以及馬爾可夫鏈蒙特卡爾理論(MCMCA)模擬為基礎的算法。多年來,我教授了十二門有關機器學習和貝葉斯網絡的課程,學生總計一千多人。

2005年,我成為 CIFAR 神經計算項目的高級學者,這是一個與業內帶頭人分享與合作的良機,比如,Yann LeCun,、Yoshua Bengio、Yair Weiss, 以及項目主管 Geoff Hinton 。

為什么從基因組學入手?

與個人經歷有關。2002 年,也就是履新多倫多大學教授幾年后,當時我得知我妻子懷著的胎兒在基因上可能存在問題。但是,我們的顧問也沒把這個問題解釋清楚:她只是暗示說,要么沒什么問題,要么可能會有嚴重問題。那次經歷,因為很多原因而變得極其困難,也給我職業生涯植入一條深深的信念:我主要研究如何識別 YouTube 視頻里的貓,但是,全面考慮一下,它似乎不那么重要。

我從中得到兩個啟示:首先,我想使用機器學習改善那些面臨類似基因問題人群的生活。第二,減少不確定性,價值巨大:給某個人一些信息,好或者壞,讓他們做出相應計劃。相反,人們很難處理不確定性。因此,我調整了研究目標。我們轉向關注使用機器學習理解基因組運作原理。

為什么你會認為機器學習再加上基因組生物學會很重要?

基因組生物學這個領域,正在生成大量數據。很快,你就能通過手機大小的設備給自己的基因組排序,整個過程也不長,就是走到街角商店的時間。然而,基因組只是一部分,還有海量描述細胞與組織的數據。我們,作為人類,無法很好領會所有這種數據,仍不十分了解生物學。機器學習有助于解決這個難題。

同時,機器學習界的其他人也承認這一需求。去年機器學習頂級會議上,Yann LeCun、Demis Hassabis、Neil Lawrence(謝菲爾德大學教授)以及 Kevin Murphy(谷歌)也認為,醫學領域會是下一個深度學習前沿。

為了成功,我們需要彌合「基因型—表現型的鴻溝」?;蚪M和表現型數據很豐富。不幸的是,有意義地聯接這些數據的最先進的研究,卻讓文獻檢索以及濕實驗室試驗的過程變得緩慢,昂貴而且不準確。為了完成這一閉環,我們需要可以確定間接表現型(亦即,分子表現型 molecular phenotypes)的系統,作為從基因型走向疾病表現型的墊腳石。為此,機器學習必不可少。

相關概念

基因型(Genotype)指的是一個生物體內的DNA所包含的基因,也就是說該生物的細胞內所包含的、它所特有的那組基因?;蛐蛯σ粋€生物的發展有極大的影響,但是它不是唯一的因素。

表型(Phenotype),又稱表現型,對于一個生物 而言,表示它某一特定的物理外觀或成分。一個人是否有耳珠、植物的高度、人 的血型 、蛾的顏色 等等,都是表型的例子。表型主要受生物的基因型和環境影響,表型可分為連續變異或不連續變異的。前者較易受環境因素影響,基因型上則會受多個等位基因 影響,如體重 、智力和身高 ;后者僅受幾個等位基因影響,而且很少會被環境改變,如血型、眼睛顏色 和卷舌的能力。

分子表型(molecular phenotype)。我們可以從不同層次的窗口觀察生命的表現,從原子水平、分子水平、細胞水平、個體水平、群體水平、生態水平等。通常,觀察的記錄可以叫做表型(phenotype)。近年來,從我們肉眼看得見或常規儀器可測的表型(比如身高、體重),到肉眼看不到、需要特殊儀器測定的表型,表型的內涵已經有了極大的發展。統計/數學下的表型機理 ,就是分子表型。

新一代年青的研究人員出現了,他們使用機器學習研究基因如何影響分子表現型,比如,斯坦福的 Anshul Kundaje 團隊。這里僅提及幾個未來的帶頭人:多倫多大學和哈佛大學的 Andrew Delong、Babak Alipanahi 以及 David Kelley ,他們研究蛋白質和 DNA 的相互作用;MIT 的 Jinkuk Kim 研究基因表達以及華盛頓大學的 Alex Rosenberg ,他正在研究試驗方法,檢測數以百萬的突變及其對剪接的影響。我也很激動地看到,這個領域創業公司正在興起,比如 Atomwise, Grail 及其他公司。

當你開始基因組領域的研究時,當時的研究現狀如何?

研究人員使用著各種簡單的「線性」機器學習方法,比如支持向量機和線性回歸,后者可以根據病人的基因表達模式預測癌癥。這些技術,從設計上看,比較「淺顯」。易言之,針對某個類別標簽,每個模型輸入都會得到一個非常簡單的「支持」或者「不支持」。那些方法并不能解釋生物學的復雜性。二十世紀九十年代和二十一世紀早期,隱馬爾科夫模型和相關分析序列的技術開始流行起來。Richard Durbin 和 David Haussler 帶領著這一領域的研究團隊。

與此同時,MIT 的 Chris Burge 團隊開發了一款馬爾科夫模型,可以檢測基因,推斷基因的開始以及不同部分(基因內區和外顯子)的界限。這些方法僅對低層次的「序列分析」有用,無法彌合基因型與表現型之間的鴻溝。一般說來,當時的研究狀態就是這些根本淺顯的方法驅動的,這些技術無法充分解釋深層次的生物學機制,比如基因組文本如何轉變為細胞、組織和器官。

開發足以解釋深層生物學的計算模型,意味著什么?

將基因型與表現型關聯起來的最受歡迎的方式之一,就是在所謂的全基因組關聯研究( a genome-wide association study , GWAS)中,尋找與疾病相關的變異。這種方法也比較淺顯,在某種意義上,讓從某個突變到基因表現型之間還有許多生物學步驟大打折扣。這種研究方法能夠識別出可能重要的 DNA 區域,但是,他們識別出的幾乎所有突變都不是偶然的。在絕大多數情況下,如果可以糾正突變,它就不會影響到表現型。

還有另一種非常不同的辦法,可以解釋間接的分子表現型。比如基因表達。在一個活體細胞中,當蛋白質以某種方式與基因的上游序列互動 ——比如,啟動子(promoter)。一個尊重生物學的計算模型就能吸收這個啟動基因表達的偶然性鏈條。2004年, Beer 和 Tavazoie 寫了一篇論文,我認為這篇文章很有啟發性。他們試圖根據啟動子序列,通過被當做源自啟動子序列的輸入特征的邏輯回路,預測每個酵母基因表達水平。最終,他們的方法沒有成功,但是一次很棒的嘗試。

我們團隊的研究方法就是受到這兩位研究人員的啟發,但是,有三方面的不同:我們檢測了哺乳動物細胞,我們使用了更先進的機器學習技術,關注剪接,而不是轉錄?;叵肫饋?,這一最后區別是一次偶然的轉變。轉錄要比剪接難模擬得多。剪接是一個生物學過程,基因的某些部分(基因內區)被去除,剩余的部分(外顯子,基因中有編碼蛋白質功能的部分)聯系在一起。有時,外顯子也被敲掉了,這能對表現型產生主要影響 ,包括神經功能障礙和癌癥。

為了用機器學習破解剪接規則,我們的團隊與優秀實驗生物學家 Benjamin Blencowe 領導的團隊合作。我們建立了一個框架,從基因序列中提取生物學特征,預處理噪音性質的實驗數據,訓練機器學習技術預測 DNA 的剪接模式。這項研究工作很成功,有些成果都發表在了《自然》和《科學》上。

基因組學與其他應用領域有什么不同?

我們發現,較之視覺、語音以及文本處理,基因組學面對的挑戰,與眾不同。許多視覺方面的挑戰依賴這樣一個假設:要被分類的目標占據輸入圖像的大部分面積。在基因組學方面,相關目標僅占據微小部分——比如,輸入的百萬分之一,因此,會產生問題。易言之,分類器按照信號總量起作用。其他任何事情都是噪音——有很多噪音。更糟糕的是,這是相對結構化的噪音,包含了其他、更大的與分類任務無關的目標。那就是基因組學給出的難題。

還有更加讓人擔心的復雜性,我們自己都不清楚基因組。當檢查一個典型圖像時,我們自然而然地識別出其中的物體,我們也知道想讓算法識別什么。這也被應用于文本分析和語音處理,這些領域中,我們都在處理真相問題。與此形成鮮明對比的是,人類本身并不善于解釋基因組。實際上,這方面表現的很糟糕。所有這些都是在說,我們必須向真實的超人人工智能求助,克服自身局限性。

能多介紹一點你在醫學領域的研究工作嗎?

我們開始訓練系統,讓它在不包括任何疾病數據的情況下,預測分子表現型。然而,一旦系統得到訓練,我們意識到,我們的系統實際上可以準確預測疾??;它明白細胞如何讀取DNA序列,如何將它轉變為關鍵分子。一旦有了關于這些情況如何正常運作的計算模型,那么,你就能通過它來偵測什么時候情況走偏了。

然后,我們將系統轉向用于大規模的疾病突變數據組。猜測DNA里存在某種特殊突變。我們輸入了突變的 DNA 序列及其對應的非突變部分,然后比對兩組輸出,也就是分子表現型。如果觀測到了一個大的變化,我們會將這個突變標簽為具有潛在致病性。結果表明,這種方法很管用。

但是,當然,這個辦法并非完美無缺。首先,變異可能改變分子表現型,但是不會致命。第二,突變可能不會影響我們正在模擬的分子表現型,但會以其他方式致病。第三,當然,我們的系統不是百分百正確。盡管存在這些不足,我們的方法能夠準確區分疾病與良性突變。去年我們在《科學》和《自然 生物技術》上發表了論文,證實這一研究方法比其他競爭方法的準確性要高得多。

你們公司(Deep Genomics)的目標是?

背景知識

2015年夏天,Brendan Frey 教授的實驗室創立 Deep Genomics 公司。他領導的實驗室能使用深度學習技術,篩選海量以前未知的基因突變,找出致病的基因突變。2015年11月,Deep Genomics 公司宣布完成370萬美元的種子輪融資,由位于灣區 True Ventures 領投,Bloomberg Beta 和其它投資方跟投。目前,這家公司已經與醫院,生物科技創業公司以及制藥公司展開合作,使用基因疾病患者的基因數據測試公司系統。Human Longevity 也于2015年8月成為 Deep Genomics 的客戶,公司還與 SynapDx,多倫多應用基因組學中心建立了「合作伙伴」關系。

我們的工作需要各個領域的專業技術,包括深度學習、卷積神經網絡,隨機森林,GPU 計算,基因組學,轉錄組學,高通量實驗生物學以及分子診斷學。比如,我們有 Hui Xiong , 發明了一種貝葉斯深度學習算法,預測剪接作用;還有Daniele Merico ,他研發了完整基因組測序診斷系統,這個系統已被用于兒童醫院。我們也將繼續招募這些領域的人才。

一般說來,我們的技術能從許多方面影響醫學,包括:基因診斷,精煉藥物靶點,藥物研發,個性化施藥,改善健康保險制度甚至合成生物學。目前,我們關注的是診斷方面,因為它是我們技術的直接應用。我們的引擎提供了一個豐富的信息來源,能以更低的成本做出更加可靠的診斷決策。

這個領域里,許多新興技術會要求具有理解基因組內部工作原理的能力。比如,使用 Cas9 系統進行基因編輯。這個能讓我們給 DNA「寫信」的技術會是件大事。也就是說,知道如何書寫并不等于知道寫的內容。編輯 DNA 可能讓疾病更糟糕。試想一下,如果你能用一種計算「引擎」顯而易見地確定基因編輯后果。平心而論,那還很遙遠。然而,那就是我們最終想要做到的。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到