首頁 > 新聞 > IT資訊 > 正文

焦點消息!北京擬整合現有開源中文預訓練數據集和高質量互聯網中文數據

2023-05-16 12:51:21來源:北京商報網  


(資料圖片)

北京商報訊(記者 楊月涵)5月16日,據北京市科委官網,北京出臺《北京市促進通用人工智能創新發展的若干措施(2023-2025年)(征求意見稿)》,針對目前大模型訓練高質量中文語料占比過少,不利于中文語境表達及產業應用的問題,征求意見稿提到,整合現有開源中文預訓練數據集和高質量互聯網中文數據并進行合規清洗。同時持續擴展高質量多模態數據來源,建設合規安全的中文、圖文對、音頻、視頻等大模型預訓練語料庫,通過北京國際大數據交易所社會數據專區進行定向有條件開放。

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀