首屆中國智谷大會暨人工智能與產業創新高峰論壇在江蘇南京召開,本次大會以“感知時代 智造中國”為主題。中國科學院院士、中科院生物物理所研究員陳潤生應邀發表演講。
陳潤生院士因完成了中國第一個完全基因組的全部生物信息服務而知名,在演講中,他圍繞大數據在生物醫藥領域有著廣泛的應用前景,以及精準醫學等進行了闡述,并指出了中國目前發展過程中面臨的挑戰和機遇。
陳潤生院士對精準醫學主要有四個方面的看法,第一是精準醫學的本質是組學大數據跟臨床醫學的結合;第二,精準醫學能夠促使醫療的基本概念從當前的診斷治療轉變成健康保證;第三,精準醫學帶來的基因測序數據可以促進分子診斷和藥物設計靶點的相關產業;第四,伴隨著精準醫學概念而產生的新的醫療設施,以及新的如健康師一類的職業。
最后,陳潤生認為,目前精準醫學的挑戰在于如何利用基因測序門檻降低后帶來的大數據,以及挖掘數據背后的價值。
以下為陳潤生院士發言實錄:
陳潤生:尊敬的各位專家、各位領導、非常榮幸能參加這個會,我想今天我就大數據和精準醫學談一個看法,因為現在的大家知道,精準醫學非常熱了,雖然比起人工智能還是小弟弟,但是我們知道,從2015年國際上在討論精準醫學以來,在很多發達國家包括我們國家不僅僅是大家都很關心的一個領域,我們國家領導人也多次對于精準醫學的發展都有重要的指示,而且在資助上也有具體體現。
所以我今天主要談精準醫學的四個方面問題,大家知道,2005年1月20號美國總統奧巴馬在他發表的美國要開展精準醫學研究,從那以后,精準醫學就在全世界得到了普遍的重視,精準醫學時間還不就,但是熱度很高,所以四個方面我談自己的看法,一個是跟大家交流,也希望展開一些討論。
第一個問題,精準醫學的本質是什么,核心是什么?我看到國內有各種各樣的評論,關于討論精準醫學的內涵,各種觀點都有,我自己覺得,精準醫學的核心其實就是一點,非常明確,就是組學大數據跟醫學的結合,說得更具體一點,就是組學大數據跟臨床醫學的結合。
也就是說,把組學大數據用到臨床的醫學當中來,提高醫療診斷的準確度,提高治療的效果。那么這里,包括兩層含義,一個含義是組學大數據,另外一個含義是醫學。那么組學大數據又包括兩層含義,一個是組學,一個是大數據,我們知道,近年來,隨著臨床研究的發展,我們獲得了越來越以基因組為代表的分子水平的人類信息,這個是以前前所未有的。那么,隨著以基因組為代表的組學數據的發展,人們越來越多的積累了以遺傳密碼 為代表的不僅僅是基因的信息,也包括蛋白的信息,那么后來,人們發現,挖掘這些信息以后會得到很多的反映人類健康和疾病的信息。
所以有人提出,如果把這些信息應用到臨床當中來,一定會提高臨床的效果,這就是所謂精準醫學的本質含義。但是,只獲得這些遺傳密碼的信息是不夠的,大家知道,所有遺傳密碼的信息都是非常非常多的一個大數據,這個大數據大家是很容易測得的,包括我們現在知道在我們國內,每個人花一萬塊人民幣就可以得到你的遺傳密碼,但是你得到你的遺傳密碼你是一點都不懂,因為這只有四個字,所以要讀懂他,你就要發展大數據分析的理論方法和技術,所以,那么要把這些組學數據用大臨床當中來,必須是組學數據和大數據分析方法的結合。所以一部分是組學大數據,一部分是醫學,兩個結合起來,就構成了現在精準醫學的本質和核心,這是第一個問題,關于精準醫學的本質,他也是自上實際90年代由于組學數據用到臨床當中一不能的發展轉化成轉化醫學,個體化醫學,現在從2011年有出了精準醫學的名稱,但不管怎么說,都是他的本質是清楚的,就是組學大數據在臨床醫學當中的應用。
第二個問題,精準醫學能夠使醫學帶來哪些本質的變化,如果精準醫學只是把醫學提高一點點百分數的話,我想,那么精準醫學就不一定會引起更多領導人的注意,那么引起更多領導人的注意,就精準醫學的內涵,一定會有一些本質上的變化,那么這個本質上的變化是什么?我們也用一句話來說,精準醫學他的本質上所以引起各國領導人的重視,是精準醫學有可能改變醫療健康的基本概念,也就是說,促使醫療的基本概念從當前的診斷治療轉變成健康保證。我們知道,現在的醫療體系面對的是病人,那么他主要是對病人進行所謂的治療,但是,未來因為精準醫學的發展,由于組學大數據的介入,那么就會使得這個時候的健康不僅僅是對病人,而是對全民,對任何人在他沒有得病的時候我們測量他的組學數據,分析組學大數據,那么就可以對他未來健康發展的危險因素做出評估,根據評估進行適當干預,這樣的話有些疾病不發展,有些疾病減輕他的程度,提高他的生活質量,這樣就把整個醫療健康體系的關口前移,治胃病在沒有病之前就提出評估與保證,這樣一個根本性的概念的轉變,有人認為,有可能導致一些新興產業的出現,有人預估,跟所謂精準醫學相關的這這個概念轉變導致的新型,也許到2018年也許到2千億美元的轉變,我是不知道,這個數據是國際上的一些評估,當然如果是2千億美金的話就相當于2萬億人民幣,對GDP就有影響。這種有精準醫學帶來的本性概念的改變由此促使的產業的發展當然會引起各國領導人的注意,這是第二個方面,關于精整醫學他可能帶來的一些本質變化的估量。
很多國家不管精準醫學研究已成為新一輪國家科技競爭與引領國際戰略的制高點,美國在精準醫學的發展,大家知道美國要測量100萬自然人的遺傳密碼,歐盟也在積極推動所謂精準醫學的研究,包括英國、法國等等,日本也在進行精準醫學相關的投入和計劃。那么精準醫學我們如何仔細分析,他可能在哪些方面促使產業的變革和發展呢,我想至少在四個方面,第一個可以促使海量的生物樣本庫和數據庫的發展,大家知道,由于精準醫學的推動,那么需要測量百萬人量級的這些人的組學信息,首先涉及到這百萬人生物樣品的獲取,保管、提取和提供給這些人使用,這當然是一個很大的產業。同時,這些樣本測完了數據是百萬人數量級的一定要促進相應的大規模的數據庫的發展,有人估計,這個產業的規??赡苁前?億數量級。
第二個有了這些樣品,那么就要測以基因組為代表的這些組學數據,所以就要測基因組、蛋白組、轉入組,這些測序的數據,大家知道,現在已經進入到了所有的市民的事件當中了,那么大家多知道,測試自己的遺產密碼,這樣一個測序也人估計,僅僅到2018年,就可以到117億美金的規模。那么有了樣本庫,有了粗學數據的測量,那么下一步在這些海量數據挖掘的基礎上,就可以促進產生大量的新的分子診斷的指標,我們知道,就會增加很多跟疾病相關的信息,這些信息當中,有很多就可以作為新的疾病的標記。同時,也可以發現很多新的藥物設計的靶點,這就促進了第三個產業。所謂分子診斷和藥物設計靶點的相關產業。
第四個當然伴隨著精準醫學概念而產生的新的醫療設施,比如說要成立一些健康源,要一些健康師,這些方面是可以和現在醫院、醫生相關系的產業大概是千億數量,這些產業必然會帶來變革,國內已經有所體現,有成百上千個小的公司在逐漸地成立了。當然他們怎么來更好的發展,有待討論。
我們國家的精準醫學發展目標我不贅述了,跟國際是一致的,這第二個方面,精準醫學可以帶來哪些本質的變化,如何促進產業的發展,在那幾個產業發展可以帶動或引導。
第三個我要說一個問題是要實現精準醫學,要做哪些點?做到哪些點,才能做到精準?那么精準醫學我覺得至少要具備兩個條件,第一個,要具備組學大數據的基礎,我們知道,精準醫學就是把組大數據用到臨床當中來,所以第一個你要獲取組學大數據,那么也就是獲取基因組,蛋白組、轉入組、代謝組等等這些組學數據,這些數據本身是沒有用的,第二步就是組學數據的挖掘,挖掘的話就會用到大數據分析的理論方法,包括剛才張先生講的人工智能的方法,深度學習的方法等等,以知識為基礎的方法用來挖掘這些組學,以獲得在分子水平上跟疾病相關的知識,這是第一個基礎。
有了這些分子知識和組學知識的用到臨床疾病當中來,還要建立第二個基礎,就是搭建分子水平的以基因型為代表的信息核,建立這種橋梁之后才能有效把分子水平的信息轉化應用到疾病的診斷和治療當中來,那么這就是要建立所謂生物信息學、生物網絡,系統生物學等等的方面,有了這兩個基礎我們就可以更好地實現精準醫學,當然一個非常重要的就是精準醫學的發展,是應當和當前的臨床的影象學、臨床的生化檢驗、當前臨床的知識很好地融合下,并不是有些公司他測的序什么都決定了,實際上不是那樣,是應該更好地結合起來才能更好做到精準。精準醫學只是把新的數據應用在原有的數據上使得更好地提高。
第四個說的精準醫學現在在什么階段,發展到什么階段?大家知道,可能我們目前精準醫學成為大家的熱詞以后,大家認為我們現在什么都可以精準,醫學很容易精準了,我個人的觀點,精準醫學其實雖然是本質上可能帶來變革,可能引導新的產業的發展,也許產業規模是巨大的,但是現在才剛剛上路,才剛剛開始!為什么?是在精準醫學的概念下,我們目前依然存在著巨大的挑戰,我們依然存在著巨大的困難。因此,我下面會舉一兩個例子來說明精整醫學目前存在什么樣的困難?
為什么說精準醫學才剛剛上路呢?我們的創新的機遇在哪里,我們迎接挑戰在哪兒?我作組學當中只舉一個例子,在我們的臨床密碼當中,在我們的組學當中,目前,還存在著大量的暗信息,所謂我們的臨床密碼花一萬塊錢可以測得你可以拿到自己的遺傳密碼,但是目前我們能夠分析從規律上的只有一小部分,這就是基因組當中的所謂暗信息,這是一段人的遺傳密碼,我們在座的各位都有,我也有,那么像這樣的遺傳密碼,很多重要的地方是影響整個人的生產和法語了,我們一個人是3-10個九次方,如果你花一萬塊錢很容易測一床密碼,如果轉定成側,每3千個量的到一個頁,100頁壯丁層一冊,如果你把自己的臨床密碼壯丁成密碼,是一萬冊,每頁3千字符的東西就是你自己的遺傳密碼,我相信每個人很容易得到,你得到這個密碼你讀懂嗎,如果一萬冊書每一頁一厘米,我們自己的書就是一萬厘米,就是一白米,大家可以想像,你自己的遺傳密碼從地面上排到四十層樓房那么高,每一頁都是這樣的,你讀懂了,你就精準我相信沒有誰能精準,我現在要告訴大家的是集全世界科學家的智慧,包括生物醫學家的智慧,這本天書我們集體世世界目前在什么時候,我告訴大家,世界上能夠從規律上了解的部分只有這遺傳密碼的3%,這個概念我是多次在報告對大家傳遞這樣的信息,好象大家認為我現在測這個密碼都懂了,不最了,只懂3%,另外的97%實際上集目前全世界的智慧還不懂,大部分還不懂。
那么,我給大家舉一個最一般性的證明,如果大家去看,2010年,12月17號的這個,大家知道每12月份的insights都會評選當年自然科學領域的十大突破,2010年12月17號的這一期評論了十大科學突破,一個是當年的,一個是人類進入21世紀就進入本世紀以來,全十年,把這十年加在一塊,也就是說離我們最近的十年把所有的加在一塊,自然科學領域不僅僅是生物醫學,所有的自然科學領域十個最值得人們關心的事,第一個出現的就是這個,大家很容易找到這篇,因為這個insights非常容易找到,他說明什么,說明我們基因組當中,或者我們遺傳密碼當中的Dark matter,什么意思,就是說明迄今為止我們的遺傳密碼大部分依然是暗的,就是97%是暗的,也一點我想在下面給大家做一些展開性的說明。
首先從遺傳密碼來講,我們其實,我們的97%的遺傳密碼,從總體,從規律上來講,我們人類還不了解,那3%我們了解的是從中學大家就知道的,尊崇中心發展的蛋白質信息,那3%就是造蛋白質的遺傳密碼,我們知道他的歸類了,也知道他的信息,但另外的97%的遺傳密碼是跟制造蛋白組無關的,這些信息,迄今為止我們不知道他做什么用的,這就是遺傳密碼當中的所謂暗物質,也是遺傳密碼當中的非編碼序列,那么這個概念,大家可以想一想,當我們測遺傳密碼,而97%的密碼還不知道的情況下我們如何做到精準呢?所以離精準還差了很很大的距離。
我給大家戰時比較基因組的例子,這是和人類基因組一起測量的模式生物,大家看到最上面最作短是大腸感知,是大細胞的圓細胞生物,連個細胞核都沒有,大家可以看到,這整個代表他的遺傳密碼,85%都是紅色的,就是85%都是用來編碼蛋白的,都是知道歸類的部分,所以對一個非常低等的生物,如果你測完他的遺傳密碼,你在85-90%你就知道他是如何生活,基本造哪些蛋白就知道,但是生物高等一點,我們看上面中間的酵母,這個是單細胞的真核生物,生物高等一點,你看他用來編碼蛋白質,或者與之歸類的部分減少到70%了,而非編碼的部分增加到28%,我們看最右邊這一個,是仙童(音),是非常簡單的多細胞生物,雖然簡單,已經也了多細胞了,好多細胞的,不是單細胞的,這時候你看編碼蛋白質的部分減少到28%,非編碼的部分增加到71%,下面是果蠅,也就是昆蟲了,紅色的部分減少到17%,非編碼的部分增加到82%,而而97-98%都是非編碼序列,這樣一個所謂比較基因組的進化邏輯告訴我們, 我們可能過去設務從簡單到復雜,從地等到高等是蛋白來得多,不對的,實際上生物從簡單到復雜,從地等到高等,增加的是迄今為止我總體上還不知道規律的非編碼序列,這將是對我們來講做精準也好,做基礎生物來講你的巨大挑戰,就是我們現在鬧明白的,其實我們測量我們的遺傳密碼以后,發現我們大部分目前依然不知道生物學作用。
有人要起作用要有兩個作用,一段遺產密碼叫基因,還有一段重要條件產生生物,我們的信息要發放,用生物來講這個東西,這個遺產密碼要轉路,第二個進入21世紀科學家提出問題,說這些占人類基因組97%的遺產密碼,那是否右轉路產物呢,否有信息發放,換句話說,他是否在活動,在行使功能呢,這個結果我不詳細講了,這個結果是100%肯定的,找到這些非編碼序列和我們制造蛋白的那些基因一樣,每時每刻都在表達,每時每刻都在起作用,所以他們也是真正地完成生物學功能,那么這些東西我可以舉幾個例子說明,他跟腫瘤的關系,當然,雖然我們不全部了解它,但是已經有些支離破碎的例子說明他的生物學功能。比如說有一個來自97%的這樣一個產物,他叫PCGEM1,可以導致前列腺癌,不是由于蛋白引起的,更重要的是MALAT-1,他可以導致分校細胞肺癌,我們大家知道我們國家肺癌是增速中,我們現在臨床醫院當中,檢測腫瘤用的指標都是我講的3%,而治療的靶點你用的藥物也是對那3%,我現在告訴你,那97%,有很多例子證明,他也與腫瘤有關,但從來沒有納入到我們臨床之診斷和治療當中來,你想這個腫瘤能治得好嗎,腦子沒有概念,你沒有考慮他,當然沒有想到檢測和治療他,所以這個問題當然,比如說代謝疾病也是一樣,就是說,我們還有一個97%更嚴重情況有關的東西迄今沒有那么融入到我們診斷治療的視野當中,這就是精準醫學面臨著組學的所謂的暗信息的巨大挑戰。
當然也有好的,大家知道,H19這是來自非編碼序列的一個重要的東西,他可以保護我們如果我們有些細胞癌變了,可以通過類似細胞凋亡的途徑消滅他,這和我們熟知的P53是一樣的,所以我們知道那個97%是和我們疾病,和我們的健康息息相關。我們有多少這樣的編碼沒有發現呢,大家知道,那3%大家很容易知道,我們大概有25000個基因,這是基本防治,那些97%的我們現在能不能評估一下,他有多少原件呢,大家知道,對人我們還不知道,因為倫理上的原因,老鼠,他的遺傳研究所做過研究,把所有的原件都拿來,管你是編碼還是非編碼,一共發現的18萬1千個,這是在老鼠里面真正執行功能的原件的下限,實際上一定會比他大,在這里發現,產生意義上3%決定了兩萬個,換句話說我們還有16萬1千個來自那97%,這16萬1千個據我所知,目前我們全世界科學家解析了多少,大約1千個,換句話說,還有16萬個機會,你發現一個新的功能原件,你做出他的功能,無疑他就是發表在insight的很好的,現在告訴大家,這還有16萬個機會,有太多的機會有些非常重要的元件功能的發現。這些領域2016由這兩位就是在那97%研究當中,我曾經開過一個玩笑,說那3%大家算算從1900年研究那3%大約締造了50名諾爾將近獲得者,現在知道了還有97%,97比三,那個大約是1300左右,所以我們有一千多個機會在這個領域做出原創性的特殊的貢獻,而只有一個位置被占據,所以我們還有巨大的機會。那么這是他們賴以獲得諾貝爾獎的那個論文。
因此,我們從精準醫學來講,我們現在其實不能做的精準是因為有一個巨大的大數據,他的只是二指他的內涵并沒有被挖掘,但是另一方面,他可以給我們提供一個全新的機會,不管對技術研究還是產業發展都有巨大研究,所以對非編碼的研究無疑會對疾病的診斷治療提供全新的診斷方向,或者對藥物的設計研發提供新的平臺,對新的物種,新的性狀的培育提供一個新的基礎,對于組學的方向有很多,精準醫學其實才剛剛開始,時間的關系我還有兩三分鐘,我想大數據,大家都是大數據的專家,我想我只能非??斓恼f說題目,其實對大數據的分析,依然存在著有些核心的挑戰,第一個數據量大,大家知道,現在的測序儀一個普通的一次運行就可以到1T的數據,全世界有成千上萬個這樣的儀器,包括我的組里就有所謂的得到一個T的數據,所以這些數據量是非常大的。那么每個人有3×10個九次方,當時測序的話,測他的基因組,用了100萬美金,現在大家知道用一萬美金就可以同樣得到自己的遺傳密碼。
這個數據告訴大家,從數據質量來講,他的噪音很高,同時又大量缺失值的這樣一個數據源。第二個樣本很小,我們要解決腫瘤的問題,但是我們知道腫瘤的變量,自變量可能成前上萬,但是我們取樣本只有百數量級,因此我們為什么要測,比方要研究腫瘤或者是心腦血管病,他的自身變量千數量級,我們的百萬級,就像政府,測一百萬人總夠了,第二個,我們建立合適的數學模型,使得我們能夠相匹配,另外不僅僅是具體的基因,還牽涉到網絡,這些網絡大家知道,這些網絡本身是動態的,有些是不同原件的。大家知道不僅僅是組學數據,還也生物學數據,更需要我們不僅僅是科技界,企業界,我們知道我們國內數據共享存在基本一個重要的問題,如果一個數據共享問題不解決,我們就是在大數據時代做小數據的工作,發表小數據的企業,顯然不能適應國際競爭的態勢。
來源:新浪科技