打開

首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
觀點
互動
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陜
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網站
人工智能
人民網客戶端
網站無障礙
舉報
登錄

退出

人民網>>教育

科學大模型:“上線”之路還有多遠

2025年01月09日08:19 | 來源：科技日報

小字號

原標題：科學大模型:“上線”之路還有多遠

只需輸入一段文字，電腦便會將其轉化成栩栩如生的畫面；只需問一句“哪里的飯好吃”，導航軟件就能帶你吃遍當地風味……大模型通常具有高度的通用性和廣泛的適用性，已經在自然語言處理、圖像識別和語音識別等眾多領域大放異彩。

然而，這僅是人工智能大模型應用的“冰山一角”。尤其是在科研領域，其無限潛能還有待深入挖掘。

2024年12月7日，地球科學領域垂直大模型——“元古大模型”在中國地質大學（武漢）發布，可對古生物化石進行復原。去年9月，在北京發布的全球首個多模態地理科學大模型“坤元”因具備處理地理科學相關問題的專業能力，被稱為“智能地理學家”。

“科學大模型或許可以引發科研范式和方法上的革命。” 北京智源人工智能研究院（以下簡稱“智源研究院”）院長王仲遠告訴記者，科學大模型作為一種新興工具，目前尚未在高校、科研院所以及企業進行大范圍應用，除了技術層面的原因，其推廣還面臨諸多挑戰。

賦能科學研究

大模型參與科研活動的基本原理是什么？用一個詞來回答，就是“模擬”。正如語言大模型可以模擬語言文本信息一樣，科學大模型旨在模擬復雜的科學現象。

中國空氣動力學研究與發展中心研究員錢煒祺介紹，廣義的大模型，是指具有大量參數和復雜結構的深度學習模型。參考目前業界主流觀點，可將大模型分為大語言模型、視覺大模型和科學大模型。

其中，科學大模型主要處理和分析數值、科學領域數據，對其理解物理規律和知識生成的能力。“相比語言和視覺信息，科學數據通常具有超高維度、非線性、強空間差異性等特點，為此大模型需要理解的物理現象極其復雜。相較于大語言模型和計算機視覺大模型，科學大模型發展的成熟度相對較低。”錢煒祺說。

盡管研發難度高、挑戰大，科學大模型目前已經取得了許多突破，并且已用于科研實踐，在藥物研發、材料科學、分子模擬、天氣預報、流場預測等領域發揮作用。

2024年12月1日，福布斯中國與全球商業研究院聯合發布“2024中國新時代顛覆力創始人評選”名單。北京分子之心科技有限公司（以下簡稱“分子之心”）創始人兼首席科學家許錦波入圍。

“現在，人工智能已經改變了分子生物學的研究范式。過去研究者要基于氨基酸序列來研究蛋白質功能，現在可以直接基于人工智能預測出的結構進行功能研究。”許錦波說，“我們還在運用蛋白質生成大模型進行精準的蛋白質優化與設計，這顛覆了過去生物醫藥、生物制造等產業領域的蛋白質發現與改造方式。”

用模型解開萬物之奧秘，正是大模型輔助科研的最大優勢。在其近年來的應用方向當中，生物計算領域成果頗豐。

智源研究院于2024年6月推出的“全家桶”中，就包括生物計算大模型。該模型搭建了全球首個數字孿生心臟電功能超實時仿真系統，包含了19種細胞生理狀態變量和70多個公式，能夠實現復雜的心臟電生理與病理的仿真。

除了生物計算，科學大模型也在其他領域得到應用。百度深度學習技術平臺部架構師胡曉光告訴記者，當前大模型與智能體已經在科學計算領域得到應用。例如，中國科學院自動化研究所依托百度的“飛槳”和“文心”大模型，研制出材料學科科研智能體。一些前沿實驗室正在采用大語言模型，進行材料屬性預測和結構生成。

華為輪值董事長胡厚崑認為，人工智能將數學計算和科學模型的方法結合，可以高效處理海量數據，解決原來傳統科學研究范式無法解決的問題，幫助科研工作者突破科研瓶頸。

“科學大模型擁有非常大的潛力。”王仲遠說，“目前人工智能大模型作為新興工具整體上還處于起步階段，但一些大模型已經在包括科研在內的許多領域發揮了作用。”

面臨諸多挑戰

在王仲遠看來，過去10余年間，人工智能技術的幾次重大突破，并非單純算法層面的研究突破，其本質是一個數據、算力、算法、評測等多團隊高度協同的算法類系統性工程的落地。

在人工智能領域，特別是在科學大模型的研發上，要想取得突破性的創新，需要龐大且復雜的團隊作戰與協同，大量集中的資源投入以及技術路線的研究探索與試錯，單憑一所高校或者一家企業很難做到。

“例如，作為一個研發周期長、成本高的行業，生物制藥比較依賴已有的研發模式。如果引入新工具，需要慎重考慮其對成本、風險以及對收益分配的影響。”王仲遠說，再如教育領域，特別是在與未成年人相關的應用場景，應用新技術需要社會各方的審慎思考，這涉及許多細微復雜的問題。

西安電子科技大學電子工程學院教授、情感機器（北京）科技有限公司首席科學家吳家驥注意到，在高校的科研環境中，科學大模型的應用也面臨諸多挑戰。

“那些簡單的、可用公式表達的科學問題，基本都被解決了。目前科學問題公式的復雜程度，已經超越了人類理解能力的極限。”吳家驥表示，科學大模型的工作極具交叉性，從提出好公式到設計出好的訓練系統，從傳統科研實驗流程到數據驅動的AI實驗范式，從找到好答案到提出好問題，這些都對傳統認知提出挑戰。

高端人才匱乏

“高校和企業，各有各的難處。例如，高校受資源和機制所限，企業則背負著營收壓力，導致它們在大模型應用和研發方面，有時會‘伸不開手腳’。”王仲遠說，除了制度和資源，科學大模型在科研環境中落地最需要的基礎條件是人才。

2022年，許錦波在北京創立分子之心，很快聚集了一批頂尖復合型人才。這些成員兼具AI蛋白質研究和產業實踐的經驗，其中核心研發團隊博士占比90%以上。

“但從整個科學大模型領域來看，復合型人才非常稀缺。”許錦波告訴記者，以蛋白質生成大模型為例，除了必備的算法、算力、數據等基礎條件外，應用此類大模型還需要具備兩大專業能力。一是融合計算機、生物、物理等多學科，熟識人工智能、分子動力學、量子計算等多種方法，且能在實踐中并行考慮序列與結構、主鏈與側鏈、進化與組學的跨領域融合能力；二是走出實驗室，下沉至真實產業環境，在需求、驗證、落地上貼近產業需求的能力。

北京社會科學院副研究員王鵬此前接受采訪時表示，人工智能技術發展日新月異，要求從業人員具備不斷更新知識體系和技能儲備，這對人才培養提出了更高要求。

人才短缺不僅限制了人工智能技術的創新和發展速度，也影響了相關企業在市場中的競爭力，但這也為有志于投身人工智能領域的人才提供了廣闊的發展空間和良好的職業前景。

亟待多方發力

如錢煒祺所說，科學大模型在幾類大模型當中研發門檻最高，如何持續提升科學大模型的質量，并推動其應用落地？

錢煒祺以空氣動力學領域大模型為例，該領域目前已有成果大多借鑒了計算機領域通用技術，未來還需探索發展適用本領域的模型架構。

空氣動力學數據具有樣本少、規模大、模態多、獲取成本高等特點。要想做好相關的大模型，就必須基于領域特點進行技術攻關。例如，可圍繞空氣動力學相關基礎理論和人工智能領域發展遷移學習、小樣本學習和多模態學習等模型算法，解決數據不足、學科貼合度不高的問題。

錢煒祺提醒，大語言模型、計算機視覺和科學大模型并不是像“煙囪”一樣各自獨立發展的。它們相互之間已實現關聯、調用、融合，可以共同解決特定場景、特定領域問題。因此，科學大模型的研發和推廣并不局限于自身，人們應該關注大模型技術的整體發展。

錢煒祺預測，隨著數據不斷豐富、算力提升、算法改進，空氣動力學領域大模型將改變信息分發和獲取模式，革新數據和知識生產模式，實現全自動交互完成任務目標，成為科研工作的“加速器”。

許錦波說，除了技術本身，大模型的發展也和人才和制度息息相關。

許錦波認為，培養兼具科研和產業能力的創新者，關鍵在于緊密貼合產業實際需求，全力促成跨領域協同創新。同時，一支匯聚多學科知識背景、兼具產業實操本領與科研攻堅實力的復合型人才團隊，是持續創新的源泉。

“我們在做的事情既需要‘從0到1’研究和解決科學問題，也需要將技術落地于產業實踐。我們需要懂計算、懂人工智能、懂生物科學的復合型人才。”許錦波表示。

面對人才瓶頸，胡曉光認為，打造開放的科研生態，降低大模型應用門檻是關鍵。

百度發起的“飛槳AI for Science”共創計劃，通過提供算力支持、資源與服務，共同推進AI技術在科學計算領域的創新與發展。截至2024年末，“飛槳”產業級深度學習開源開放平臺已在服務43萬企事業單位，創建模型超100萬個。

胡曉光介紹，“飛槳”通過由參與單位和個人共同建設模型庫和場景范例、提供免費算力、為優秀科研方案和重點項目提供框架、模型資金支持、開發套件以及推出全方位課程資源技術合作支持等方式，和科研人員一起開展科研工作、研制前沿模型、建設場景范例、取得科研成果。“科學大模型的開發、落地和推廣，需要大量的跨領域科研人才，并且實現人工智能與傳統科學計算工具鏈的協同。這需要我們搭建穩定、優質的科研生態，把資源和機會凝聚起來，共同打破目前遇到的瓶頸。”胡曉光說。

一本精品中文字幕在线,看久久黄色一级片,人人做天天爱夜夜爽毛片,亚洲欧美日本一区二区三区

人民日報報系

旗下網站

創新服務平臺

科學大模型:“上線”之路還有多遠

客戶端下載

熱門排行