> 業界 >

證監會姚前談大模型生態建設:標準制定和數據治理雙管齊下,構建大模型訓練數據要素市場

時間:2023-07-10 16:14:32       來源:21世紀經濟報道

21世紀經濟報道記者雷晨 北京報道

7月10日,中國證監會科技監管局局長姚前在《中國金融》發表署名文章,文章分析了大模型的進化與升級路徑,并通過探討大模型和中小模型可能的交互方式,闡述大模型的數據生態和模型生態建設。


(相關資料圖)

對于業界而言,上述文章為保障產業安全健康發展、規避數據和技術風險以及構建可持續發展的大模型生態提供了相關思路。

談及大模型的升級與進化路徑,姚前表示,從長期視角來看,大模型的進化衍生出眾多分支。最近一段時間,大模型迭代不僅速度加快,而且參與者也越來越多,基本上涵蓋了所有的大型科技公司,生態的多樣性和復雜性已初步顯現。

他認為,目前大模型升級迭代過程中的底層算法框架并沒有本質的變化,算力投入以及訓練數據的豐富仍然是其快速進化的關鍵,只不過最新的GPT4呈現出一些新的特征。一是算法方面更適配具體的下游任務。二是具備更規范的訓練數據治理能力且支持多模態。三是構建更強大的算力集群,以滿足更多的訓練數據集和更大的輸入參數。

基于以上背景,姚前提出,需要建立一個各類模型健康交互和協同進化的生態,以保證大模型相關人工智能產業可以在各個應用領域成功落地。

他表示,GPT類大模型功能強大,在未來會成為許多行業如互聯網、金融、醫療等領域的重要基礎設施之一。但在具體應用落地的過程中,GPT類大模型還會面臨一系列挑戰。一是如何確保訓練數據的數量與質量。二是如何降低大模型的運行和維護成本。

而由于大模型的性能依賴于訓練數據的質量,且模型在不同落地場景下所需的底層技術規格也不盡相同。因此,姚前認為,構建大模型持續發展、健康交互的良好產業生態,必須推進大模型訓練數據與底層技術的標準化,加快模型的迭代與落地。

一方面,大模型自身的訓練數據集以及定義的數據服務接口(API),將會成為行業的事實標準,而接入大模型的各種應用都必須遵循該標準。目前,模型“預訓練+微調”已經成為行業統一的標準流程和范式。在此基礎上,結合具體的應用場景和專業數據,可以進一步定制和優化各領域各行業的小模型。從某種程度上來說,大模型訓練數據和數據服務接口標準,將會成為下一代國際標準的核心之一。

另一方面,處理大模型訓練數據的底層技術所需的工具鏈也必須產品化和標準化。大模型在標準化技術服務的有力支撐下,可輸出硬件適配、模型蒸餾和壓縮、模型分布式訓練和加速、向量數據庫、圖數據庫、模型互聯互通等技術方案,提供自然語言處理、計算機視覺、跨模態、知識圖譜等各類能力,讓更多的企業、開發者可以低門檻地將大模型應用于自身業務并構建行業垂直模型,從而促進人工智能在各領域廣泛落地。

值得注意的是,大模型的開發和應用雖然會對產業和經濟發展帶來巨大紅利,但如果不加以合理管控,也會給國家和產業安全帶來風險。一是數據泄露風險。大模型的訓練、落地,都需要以海量的數據支撐,其中包含行業或個人敏感信息的數據。如果沒有合理的數據脫敏和數據托管機制,則可能造成數據泄露,給行業和個人造成損失。二是模型安全風險。比如,插件可能被植入有害內容,成為不法分子欺詐和“投毒”的工具,危及社會和產業安全。

基于此,姚前提出了以下三方面的建議:

一是以大模型訓練數據為抓手,標準制定和數據治理雙管齊下。通過制定模型應用規范,統一接口標準,促進行業規范化發展。可考慮對模型的合成數據進行托管,以加強監督,保障數據內容合規、權益清晰、流通順暢。同時完善法律法規,優化政策制度,以多種途徑與方式形成監管合力,嚴防惡意篡改模型和滲入有害數據等行為。

二是構建大模型訓練數據要素市場。厘清訓練數據采集處理、合成數據服務、大小模型互聯互通、應用API之間的產業鏈。加快數據要素市場建設,為訓練數據提供市場化定價,以利權益分配與激勵。

三是構建大小模型共生發展、相互促進的良好生態。總體來看,目前國內外主流大模型在算法層面尚不存在代際差,但是在算力和數據方面存有差距。建議在通用領域大力支持國內頭部科技企業研發自主可控的國產大模型,同時鼓勵各垂直領域在大模型基礎上,利用開源工具構建規范可控的自主工具鏈,既探索“大而強”的通用模型,又研發“小而美”的垂直行業模型,從而構建基礎大模型和專業小模型交互共生、迭代進化的良好生態。

標簽:

首頁
頻道
底部
頂部