5月25日,主題為“數據要素賦能新質生產力”的第七屆數字中國建設峰會數字福建分論壇在福州舉辦?!靶枪庵袊竟こ獭笨傊笓]、中國工程院院士鄧中翰應邀出席,發表了“大模型時代的數據要素與應用”的主題演講,他分享了“數據要素與應用的必要性,建設我國數據要素與人工智能大模型的著力點,數據合規開放共享的政策指導和措施,以及大模型時代下的數據安全保護問題等一系列具有重要指導性和建設性的觀點。
一,數據要素與應用的必要性
大模型技術發展日新月異,探索空間從二維變成了三維,從文字生成衍生到視頻生成,海量數據成為大模型訓練的剛性需求,優質的海量數據成為大模型公司爭搶的資源。中國的數據優勢在于依托龐大的人口數量、完善的網絡和信息基礎設施和全球最大的生產體系,構建了全世界最大規模、最豐富、最多樣性數據。
二,建設我國數據要素與人工智能大模型的著力點
近年來,國家相關部門發布“數據要素X”三年行動計劃,提出12個重點領域,其中,科技創新部分:“支持開展人工智能大模型開發和訓練”,從政策上為數據要素與人工智能大模型應用提供了政策指引。
鄧中翰院士指出:海量數據是基礎優勢,要實現從數據到數據要素的轉變。
1,要將原始未經加工或分析的信息處理、整合成具有經濟價值的、可被機器讀取并可供社會化再利用的數據資源。
2,對由組織合法擁有或控制的數據資源進行主動管理,形成能夠被廣泛應用的具備經濟意義的數據資產。
3,數據要素作為新型的生產要素,是參與到社會生產經營活動中,為所有者或使用者帶來經濟效益的數據資產。
在應用領域,鄧中翰院士認為,專業大模型對于算力和數據要求低于通用大模型,市場化能力更強,建議國內企業后續可投入到專業大模型研發中,賦能各行業發展。
三,數據開放的政策指導和措施
針對公共數據開放性有限,企業間數據流動性差等問題,相關部門在“數據要素×”三年行動計劃中指出:“要加大公共數據資源供給,在重點領域、相關區域組織開展公共數據合規開放共享運營,探索部省協同的公共數據合規開放共享機制。引導企業開放數據,鼓勵市場力量挖掘商業數據價值,支持社會數據融合創新應用。”
鄧中翰院士對公共數據的合規開放共享問題分享了自己的觀點:要實現公共數據合規共享運營機制還是很多具體的問題和困難。首先是收費模式的探索。公共數據的資金來源是財政,理論上應該有條件免費使用公共數據。但要讓數據成為“能夠被識別和廣泛應用的具備經濟意義的數據資產”,還有很多的額外投入和具體工作,解決不好就會影響各部門合規開放共享數據的積極性。所以需要建立起面向企業和產業發展的公共數據有償使用機制,福建省是數字中國的先行省份,建議在這方面多做探索。
四,大模型時代下的數據安全保護問題
針對數據安全保護問題,鄧中翰院士提出,首先,應落實數據分類分級保護制度,在確定涉及隱私和敏感信息范圍的基礎上,對包括視頻等在內的數據進行脫敏,以避免敏感信息在大模型訓練過程中被泄露。
其次,應深化對同態加密等技術的研究,使之能與大模型訓練結合。在視頻智能分析領域,已應用于人臉識別技術方案,可在不泄露人臉信息的情況下進行比對;后續可考慮怎樣在大模型上應用。
再次,應探索可信執行環境在大模型訓練領域的應用。可信執行環境提供隔離計算空間,可以確保數據在處理過程中的安全性和隱私性。對于企業間的訓練數據共享非常重要。
最后,鄧中翰院士表示:我們正在探索一條有中國特色的數據要素應用與安全平衡發展的道路,為數據要素在人工智能大模型時代充分發揮其效能保駕護航。
關于數字福建分論壇
作為數字中國建設峰會的重要組成部分,數字福建分論壇由福建省人民政府主辦,福建省數據管理局、數字中國研究院(福建)和福建省大數據集團有限公司承辦,邀請相關領域兩院院士、知名學者、政府部門領導及企業專家共同參與,為新時代數字福建和數字中國發展建言獻策。