首頁 > 新聞 > IT資訊 > 正文

天天觀熱點:DeeCamp2022?結營:蛋白質組學AI大數據模型奪冠

2022-08-31 21:35:55來源:TechWeb  

【TechWeb】8月31日消息,DeeCamp2022人工智能訓練營總冠軍答辯暨結營典禮今日在創新工場北京總部舉行。經過精彩答辯,挑戰大規模蛋白質組學信息發現賽題的ProteinMiner團隊摘得DeeCamp2022總冠軍的榮譽,另外五支隊伍獲得優勝獎。

DeeCamp人工智能訓練營是創新工場發起的一項面向全球大學生的公益項目,專注培養應用型AI人才,迄今已經舉辦六屆。

此次DeeCamp2022的主題是“用AI探索生命科學新邊界”,由創新工場和清華大學智能產業研究院(AIR)聯合主辦,來自全球各個地區頂尖高校的計算機、生命科學等專業的150位學員自發組成30支隊伍,經過兩個月的課程學習和項目實踐,最終共六支隊伍入圍最終答辯環節。


(相關資料圖)

創新工場董事長兼CEO李開復、清華?學智能產業研究院(AIR)院長張亞勤、沙特阿卜杜拉國王科技大學終身正教授兼中國人民大學高瓴人工智能學院訪問講座教授高欣、深圳灣實驗室系統與物理生物學所資深研究員周耀旗、清華大學智能產業研究院副院長劉洋、清華大學智能產業研究院(AIR)首席研究員聶再清、中國人民大學數學科學研究員龔新奇、創新工場執行董事兼前沿科技基金總經理任博冰擔任評委并出席了結營典禮。

創新工場董事長兼CEO、HICOOL商學院榮譽院長李開復表示,AI+科學交叉是創新工場預測未來5到10年間會引爆的創新增長新范式,AI+生命科學更是造福人類、影響深遠的黃金賽道。這也是6年來一貫倡導“學以致用”的DeeCamp首次聚焦AI+生命科學這一命題的深意所在。這次入圍總決賽的6支團隊都是由AI和生命科學相關專業的優秀同學組成,在頂尖科研、產業導師指導下,在蛋白質結構預測、全基因組表達預測等各種場景進行探索,挑戰了多個真實世界的難題。很高興決賽同學在這次大賽中脫穎而出,期待在不久的將來,成為中國“AI+生命科學”賽道的創新先鋒。我期許有志創業的DeeCamp同學,也可以把這次的項目實踐視為產業價值的初步探索,同時關注幫助高科技創業者的北京HICOOL創業大賽及HICOOL商學院的豐富資源。

DeeCamp2022聯合主辦方、清華大學智能產業研究院(AIR)院長張亞勤院士表示:“生命科學與生物醫藥領域正在步入數字化 3.0 時代,以人工智能和數據驅動的第四科學研究范式,將輔助人類探索并解決生命健康的問題,加速生命健康與生物醫藥領域向著更快速、更精準、更安全、更普惠的方向穩步發展。這既是AI for Science的重大機遇,同時也將造福全人類。我很高興做為本次DeeCamp導師和評委,過去兩個多月,我看到同學們在“AI+生命科學”的大命題下,積極探索AI與生命科學的交叉發展之路,也都取得了不錯的成果。最后,再次祝賀冠軍團隊,也希望同學們都學有所成,滿載而歸!”

再次參賽終奪冠,致力推動個性化免疫治療發展

在整個上午的精彩答辯后,創新工場董事長兼CEO李開復對六支入圍隊伍表示了肯定:“本次大賽中,同學們都有令人驚艷的表現,特別是在短短的一個月時間就圍繞創新的課題獲得出色的成果。創新工場非常關注生物計算的發展,已經圍繞‘AI+遺傳中心法則’方面孵化了多家公司,包括AI+基因編輯、AI+蛋白、AI+RNA等。本屆DeeCamp同學們的表現讓創新工場對這些前沿領域的創新突破充滿了期待,期待新世代AI+生命科學的人才投入,為未來生物計算帶來更多驚喜?!?/p>

清華?學智能產業研究院(AIR)院長張亞勤院士表示,很高興繼續和創新工場聯合主辦本屆DeeCamp。生命科學領域步入數字化3.0時代,DeeCamp2022聚焦AI+生命科學,不僅代表了當下整個科學界的研究趨勢,也代表了中國的科技和產業發展趨勢。AI與數據賦能的全新的科學范式,不僅會提高科學研究的效率,也將會造福整個人類社會。

隨后,張亞勤院士公布了DeeCamp2022總冠軍榮譽的歸屬。挑戰大規模蛋白質組學信息發現賽題的ProteinMiner團隊,成為本屆DeeCamp的年度冠軍團隊。

蛋白質是生命活動的真正承擔者。獲取蛋白質的序列和結構信息,對于疾病的研究、藥物的研發尤為重要。質譜作為一種生物表征儀器,在蛋白質測序領域有著支配性的地位。但面對大規模的未知序列蛋白,現有的質譜從頭測序技術仍面臨精度低的問題,而這是推動新抗原發現驅動的個性化免疫療法亟待解決的難題。

ProteinMiner立足于AI與大數據驅動的蛋白質的質譜測序技術,致力于提升大規模地發現未知的蛋白序列與結構信息的能力。ProteinMiner首次提出預訓練的AI譜圖語言大模型,提升質譜從頭測序的精度,加速免疫相關的新抗原/抗體的發現,以推動個性化免疫治療的進程。此外,ProteinMiner提出譜圖分類深度模型,實現快速的交聯質譜數據的鑒定,構建實驗數據支撐的組學規模的蛋白質空間距離信息數據庫。

ProteinMiner團隊的組建來源于大家多次合作的信任,隊長毛鵬志是中科院計算所計算蛋白質組學/信息檢索方向的博士生,隊員還包括香港中文大學(深圳)計算機視覺碩博生葉崇杰、中科院計算所生物信息學博士生齊曉寧、香港中文大學(深圳)數據科學與大數據技術專業本科生薛浩楠。

DeeCamp2022總冠軍

奪冠后,隊長毛鵬志表示,很感謝DeeCamp2022提供的資源和平臺,讓自己能夠找到志同道合的成員們,把自己的想法落地為實踐,有機會取得學術和應用場景的突破?!耙磺胁艅倓傞_始。這次奪冠是我們取得的小的里程碑,我們會繼續堅持做下去,希望能夠做出對學術界有影響,幫助產業界降本增效,帶來實際的效益的產品。這條路還有很遠,非常感謝和珍惜DeeCamp為我們提供了啟動資金?!?/p>

毛鵬志與團隊成員葉崇杰都是第二次參加DeeCamp,去年他們也曾在一個團隊并肩奮斗,雖然鎩羽而歸但反而激發再次參賽的斗志。葉崇杰說,“第二次參加DeeCamp,是出于對DeeCamp和組委會的信任,也是由于對伙伴的信賴。我和鵬志有共同的愿景,我也相信他的能力和責任心,能夠帶領我們取得成功。”

值得一提的是,隊伍里的薛浩楠同學,剛剛升入本科三年級的學習。被問到參與科研高手云集的DeeCamp2022的感受時,他表示,自己非常珍惜DeeCamp提供的機會,不僅能夠深度體驗技術落地與功能實現,還能夠一窺生物信息這個當下最前沿的技術領域。這些都是自己在課堂上難以一線接觸到業界前沿技術+產業實踐的機會,未來自己也有志繼續在工程領域繼續探索和成長。

另外五支入圍總決賽的隊伍獲得了優勝獎。

以鎂伽科技為產業導師的「InfGene團隊」結合神經網絡和樹模型的優勢,發現分形自編碼器(FAE)可以選取相比 L1000 Panel 更加精簡的代表性基因集作為特征,在XGBoost模型上達到比L1000 Panel更優的全基因組表達預測表現。該方法可進一步節約大規模測量成本,形成可專利的新Panel,并拓展應用至建立組織特異性Panel,推動精準醫療。

多肽藥物因獨特的理化性質在現今的醫藥市場占據較高的份額,而親和力是判斷其能否成藥的首要步驟?!窤nother random number團隊」發現在多肽中廣泛存在著非標準殘基,這些殘基在提高與蛋白的親和力、改善進入生物體內的各項性質起著至關重要的作用。為此,團隊采用了大規模的預訓練模型學習了蛋白與多肽的序列信息,并將多肽的結構信息作為特征引入模型訓練,以期開發一個能夠準確預測多肽與蛋白的親和力,為多肽藥物的親和力篩選及體內性質改造提供幫助。

藥物研發主要通過藥物來抑制目標蛋白(PoI)的活性來發揮作用。目前主流的做法是找到一種小分子藥物通過bind到蛋白活性區域上,從而讓蛋白無法發揮功能。但不是所有蛋白都有這種蛋白結合口袋,事實上人體內只有大約2%的蛋白可以成藥。而PROTAC技術可以通過利用身體內自有的蛋白降解過程,給PoI打上降解標記,從而直接把PoI直降解掉。這其中,預測PROTAC三元復合體的結構是PROTAC研究的關鍵一環。Alphinity團隊聚焦三元復合體的結構預測,利用pre-train的歐式等變圖神經網絡提出了該領域的第一個AI解決方案,將一次inference的時間從小時級降低到秒級,希望可以為PROTAC的研發帶來新的可能。

「Maifold團隊」利用AlphaFold2及AlphaFoldMultimer預測得到的蛋白結構,對已知會發生相分離的蛋白或蛋白復合體進行結構預測。再結合圖神經網絡對蛋白質結構進行表征,通過GCN的方法訓練分類模型,對蛋白單體或蛋白復合體的相分離能力進行預測。

「酶有你我怎么活啊」隊伍整理了BRENDA數據庫和文獻中的Km和Kcat數據,形成了初步的數據集。通過公開的數據集,團隊整理了酶與底物的負例數據,并將酶的序列和AlphaFold預測的結構進行了匹配,形成了包含酶結構數據的酶活性數據集。通過自然斷點法將酶活性的值進行了等級劃分,規定了酶的活性等級從而進行分類預測。基于transformer模型,綜合考慮酶序列、酶結構與化合物數據對酶活性進行預測,并評估了效果。

四組專項冠軍,直指生物醫療技術與社會痛點

最后,由沙特阿卜杜拉國王科技大學的高欣教授公布了DeeCamp2022四支專項冠軍隊伍的歸屬。

最佳創新獎的得主DeepStruction團隊設計了可用于藥物發現的端到端分子生成平臺Molecule Brewer,提供網頁端一站式、個性化服務。團隊基于多模態思想,構建了“結構+序列”的分子生成模型,集成并挖掘蛋白多構象結構信息,高效預測蛋白-分子親和性,可視化蛋白關鍵位點,助力靶點發現及蛋白改造。團隊原創的BrewerScore類藥性打分函數,相比QED有更低假陽性率,所搭建的21個藥物相關分子性質預測模型在TDC榜單均名列前茅,有效提高了藥物分子篩選效率?;谠撈脚_,團隊還創設了單蛋白孤兒病-靶點-潛在藥物分子數據庫,以AI之名,饗公益之心。

最佳技術獎的得主AlphaMed團隊系統地探索了主流的人工智能蛋白質設計方法,并提出了能夠取得更先進效果的新方法Adesign。他們的方法引入了角度信息,為神經網絡注入蛋白主鏈序列先驗信息,簡化了蛋白圖編碼器,并在解碼器端移除自回歸機制來提高模型的推理效率。Adesign模型在AlphaFold DB和真實數據集CATH 4.2上,分別取得了超過60%和51%的準確率;在推理速度上較此前的方法快至少40倍,達到了毫秒級高效蛋白質設計的效果。

作為藥物合成中的關鍵步驟,先導優化由于依賴專家憑經驗設計,并需要反復合成進行實驗驗證,也成為藥物合成中花費最高、時間最長的步驟之一。為解決這個問題,啊對對隊團隊打造了面向藥物化學工作者的智能先導化合物優化平臺DiffLead,利用人工智能指導化合物優化,縮短研發周期、降低成本。平臺創新性地提出了條件等變原子擴散算法,在擴散過程中充分考慮到先導化合物的等變性和蛋白質口袋的條件信息,并手動收集了首個真實先導優化數據集PDBLead用于訓練,提升了優化后化合物與蛋白質口袋的親和力。團隊也斬獲了DeeCamp2022最具產業價值獎。

目前,數千萬中國人正遭受罕見病的折磨,而單個罕見病市場小,信息分散,新藥開發極為困難。目前急需能高效整合疾病信息,啟發藥物研發的工具。為此,最具社會價值獎得主make一起贏隊伍,以臨床知識圖譜為基礎,聚焦罕見病,從藥物、疾病及多組學角度進行拓展,從而整合藥理學、遺傳學和病理學等相關生物數據及利用NLP的文獻信息,形成面向醫生、患者、藥企、研究院所四類用戶且具有生物解釋性的罕見病知識圖譜,并獲得具有啟發性的罕見病相關潛在信息。

聚焦AI+生命科學,探索前沿科技改變人類命運

人工智能+生命科學的交叉在2021進入爆發元年。在 Science 雜志發布的2021年度十大突破中,其中六項都來自生物學和醫學領域,人工智能蛋白結構預測技術AlphaFold 和RoseTTAFold 成功預測蛋白質結構更是被評為最大突破。

隨著高通量技術的發展,生物大數據出現膨脹式增長,AI算法在生命科學中得到了廣泛的應用。例如隨機森林(Random Forest)算法可以用于對性狀相關基因組水平突變位點的預測;卷積神經網絡(Convolutional Neural Network, CNN)被廣泛應用于蛋白質基團間距計算及醫療影像識別技術等。AI與生命科學協同進化,不斷延伸出新的科學邊界,AI與計算生物學、合成生物學、藥物研發結合而催生的新交叉領域,正在以前所未有的進度被開墾著。

DeeCamp在2017年由創新工場發起,從最初小規模的實驗性訓練營,到今天每年培訓幾百名來自高校的AI+人才,旨在為學生提供技術學習、工程實踐、產品轉化和商業思考的完整過程,推進產學研深度結合。

2022年,第六屆DeeCamp首次聚焦AI+生命科學領域,以“用AI探索生命科學新邊界”為主題,號召全球 AI 和生命科學領域的菁英們,迎接最激動人心的挑戰,探究改變人類命運的可能性,助力生命科學領域中國AI應用型人才培養。

舉辦至今,DeeCamp已累計收到2萬余名在校大學生報名,錄取并培養了1500余名學員,是目前規模最大、周期最長、最具特色的AI公益訓練營。

關鍵詞: DeeCamp

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀