色视频综合无码一区二区三区,久久精品中文无码资源站,在线看无码的免费网站

\|新一代信息技術	信息基礎設施建設	互聯網+	大數據	人工智能	高端信息技術核心產業

\|高端制造	機器人	智能制造	新材料

\|生物產業	生物醫藥	生物農業	生物技術

\|綠色低碳	清潔能源汽車	環保產業	高效節能產業	生態修復	資源循環利用

\|數字創意	數創裝備	內容創新	設計創新

您的位置：首頁 > 深度閱讀

瞭望 | 人工智能的“數據瓶頸”

2024-04-10 14:04

來源：新華網

字體： [ 大中小 ]

　　在阿西莫夫經典科幻小說《最后的問題》當中，兩個喝得醉醺醺的“程序猿”向人工智能詢問了這樣一個問題：“怎樣使宇宙的總熵大幅降低？”

　　“數據不足，無法作答。”人工智能未能在第一時間解答這個問題。盡管在小說的最后，這個仿若翻版ChatGPT的人工智能在時間的盡頭交出了答卷，但貫穿整個宇宙生命的過程中，它始終都在做一件事：收集數據。

　　數據，是人工智能賴以發展的核心資源。小說的情節固然戲劇化，但其內容卻與發展生成式人工智能的現實矛盾不謀而合。

中國科學院自動化研究所人形機器人攻關團隊研制的譜系化人形機器人（2024年1月31日攝）金立旺攝/本刊

　　當前，“百模大戰”如火如荼，頭部企業競相投身人工智能賽道，但有效數據不足，特別是高質量中文語料的短缺以及部分領域封閉式的數據生態給人工智能發展帶來了掣肘。如何解決“數據瓶頸”是未來一段時期我們即將面臨——或已經面臨的挑戰。

　　數據海洋的“圈地運動”

　　海濱港口、城市霓虹、幼犬互動……近日，由美國人工智能文生視頻大模型Sora生成的數個視頻迅速吸引了世界目光。與“文生圖”不同，Sora發布的視頻長達60秒，具有豐富的運動變化，其中物品相互之間的作用關系、物理規律的刻畫都達到了近乎以假亂真的地步。從物體互動到光影斑駁，屏幕上像素點的變換令人擊節嘆賞。

　　像Sora這樣的生成式人工智能并不是“無中生有”。不同于以往為人們所熟悉的判別式人工智能，生成式人工智能本質上是一種建立在大模型和預訓練基礎上的運用海量數據所生成的“模擬器”。

　　海國圖智研究院院長、暨南大學教授陳定定認為，快速涌現人工智能成果高度依賴于大量、多樣化的數據。華大集團首席執行官尹燁說，發展人工智能，拼的不僅是“象牙塔尖”的算法更新，更是來源于開放性市場龐大的數據積累。

　　基于龐大數據和超高算力的“暴力美學”，是當前生成式人工智能的核心打法，也是以OpenAI為代表的一眾企業的發展關鍵。簡單來說，在同等條件下，喂的數據越多，人工智能就越強。

　　有數據顯示，從GPT到GPT2再到GPT3，OpenAI將模型參數從1.17億提升到15億，然后爆炸式地提升到1750億，以至于GPT3比以前同類型的語言模型參數量增加了十倍以上。

　　作為數字之海的基本構成要素，海量、優質的數據爭奪已經成為國家和企業間的無聲戰場。OpenAI旗下產品的使用條款就明確提及，企業將保留交互數據的使用權。基于數字技術形成的通用數據、優質數據壟斷，可能將成為這場數字拓荒當中，后發者無法逾越的天塹。在一定程度上可以說，掌握數據，就掌握了包括人工智能等眾多未來產業的主導權。

　　AI“肥料”不足

　　如果說數據是人工智能成長的“肥料”，那么人類或許將很快面臨“無肥可施”的境地。

　　清華大學公共管理學院教授梁正在接受采訪時提到，全球范圍內，數據存量的增長速度遠遠低于數據集規模的增長速度。據人工智能研究機構epoch的研究預測，語言數據可能在2030～2040年耗盡，其中能訓練出更優性能的高質量語言數據甚至可能在2026年耗盡。

　　優質中文語料的大面積缺失，讓AI學會說好中文成為一件難事。業內人士介紹，全球目前最有科學性和經過驗證的語料來自學術資料庫，包括期刊和文化、出版物，遺憾的是，在這些載體上發表文章的語言絕大部分都是英語。

　　一項研究顯示，1900～2015年，收錄于SCI的有3000多萬篇文章，其中，92.5%的文章是以英語發表的；SSCI出版的400多萬篇文章中，93%的文章是用英語發表。在ChatGPT的訓練數據中，中文語料比重不足千分之一，英文語料占比超過92.6%。

　　業內人士表示，目前我國仍有大量專業領域的信息數據處于相對封閉的狀態，只能在機構內部的數據庫和圖書館查看，數據缺失使大模型存在一定的領域盲區，開發潛力不足。

　　例如，在醫療數據方面，由于歷史和習慣等復雜原因，醫療機構之間存在嚴重的“數據孤島”問題。《全民健康信息化調查報告》的數據顯示，2021年，我國的三級醫院平均只有不到20%的醫療機構采用了醫療大數據應用，二級醫院更低，不足5%。

　　清華大學蘇世民書院院長、人工智能國際治理研究院院長薛瀾在近期的公開演講中談到，中國數據質量比較低也是一個問題。中國的數據量很大，但沒有真正產業化，相對標準化的數據服務商還比較少，因為大數據服務不賺錢，公共數據企業沒有意愿去清洗，定制化服務又一般收費比較高。因此，數據市場如何構建也是需要解決的問題。

　　數實融合解“數據瓶頸”

　　對于生成式人工智能來說，其核心技術特性是概率計算+標注訓練。依賴大量的高質量標注數據，它才能夠有效地學習并做出正確的預測和決策。

　　在2024年全國兩會上，有代表委員建議建立數據合規的監管機制和評估辦法，加強數據安全和知識產權的保護措施，加快高質量中文數據集的開發與利用。

　　面對可能出現的“數據荒”，梁正認為，除了此前數字化建設中已有的結構化數據資源，還有大量以語音、視頻、工藝參數、操作記錄等形式構成的非結構化產業數據尚可開發。此外，由計算機模擬或算法生成的帶有注釋的合成數據也可用于大模型訓練之中，進一步提高數據質量和數量、降低數據采集和處理的成本。

　　不少業內人士推測，Sora可能已經通過使用了基于數據驅動的Unreal Engine5（虛幻引擎5）大量生成了合成數據作為訓練集。

　　3月23日，國內首個千億參數多模態金融大模型“財躍F1金融大模型”在2024全球開發者先鋒大會（GDC）上首發。隨著國內大模型在垂直領域加速落地，各類精細化的產業數據，又將成為新一輪的“金礦”。

　　“挑戰在于產業數據生態的構建”，深圳開鴻數字產業發展有限公司首席執行官王成錄等專家認為，“必須克服各人自掃門前雪的單兵作戰思維。”

　　“海量工業數據由于缺乏采集而逸散。”一位從事制造行業多年的企業家表示，我國產業數據采集存在現實軟肋，加強產業數據自有化，推動行業間形成數據平臺，是走向垂類人工智能的必經之路。

關注微信公眾號：

動態新聞聲音 CSEI聯盟聯系我們

熱點新聞

熱點推薦