91精品日韩人妻无码久久不卡,国产高清无码视频,狠狠躁夜夜躁无码中文字幕

\|新一代信息技術	信息基礎設施建設	互聯網+	大數據	人工智能	高端信息技術核心產業

\|高端制造	機器人	智能制造	新材料

\|生物產業	生物醫藥	生物農業	生物技術

\|綠色低碳	清潔能源汽車	環保產業	高效節能產業	生態修復	資源循環利用

\|數字創意	數創裝備	內容創新	設計創新

您的位置：首頁 > 其它 > 獨家內容

谷歌對壘OpenAI，誰更勝一籌？

2024-05-17 13:05

　　中國戰略新興產業融媒體記者艾麗格瑪

　　GPT-4o是邁向更自然的人機交互的重大進步，新功能帶來了嶄新的多模態交互能力，通過新的端到端模型實現了體驗上的新突破，有望在各類終端實現用戶體驗的最大化，利好智能終端Agent、機器人等方向。

　　當地時間5月14日，谷歌在2024 Google I/O大會上展示了其在AI技術上的一系列突破。就在一天前，OpenAI發布的GPT-4o已經引發了一波熱議，而發布時間僅差一天的兩個技術產品被視為是這兩家科技企業在AI領域真刀明槍的激烈對壘。

　　谷歌和OpenAI的發布會，不約而同地強調了AI與現實世界的真正交互——例如用攝像頭感知環境、識別內容和互動。不過，在產品功能重點方面，兩家公司各有千秋。

　　那么，最新的AI大模型到底能做到什么程度？它們能帶來生產力的質變，還是僅僅停留在概念性的炒作？

　　各有側重的階段性更新

　　當地時間5月13日，OpenAI通過直播展示了產品更新。

　　這次，OpenAI并未推出搜索引擎，也未推出GPT-4.5或GPT-5，而是發布了GPT-4系列新模型GPT-4o以及AI聊天機器人ChatGPT的桌面版本。這可以看作是對GPT-4的一次階段性更新，而根據OpenAI官方網站介紹，GPT-4o中的“o”代表Omni，也就是“全能”的意思。

　　據介紹，GPT-4o文本、推理、編碼能力達到GPT-4 Turbo水平，速度是上一代AI大模型GPT-4 Turbo的兩倍，但成本僅為GPT-4 Turbo的一半，視頻、音頻功能得到改善。OpenAI公司CEO山姆·奧爾特曼在博客中表示，ChatGPT免費用戶也能用上新發布的GPT-4o。此外，OpenAI還與蘋果走到一起，推出了適用于macOS的桌面級應用。

　　OpenAI技術負責人Mira Murati在直播中表示：“這是我們第一次在易用性方面真正邁出的一大步。”

　　OpenAI將GPT-4o定位為GPT-4性能級別的模型。據介紹，GPT-4o在傳統基準測試中，文本、推理、編碼能力達到GPT-4 Turbo的水平。該模型接收文本、音頻和圖像輸入時，平均320毫秒響應音頻輸入，與人類對話中的響應時間相似，英文文本和代碼能力與GPT-4 Turbo相當，在非英文文本上有改善，提高了ChatGPT針對50種不同語言的質量和速度，并通過OpenAI的API提供給開發人員，使其即時就可以開始使用新模型構建應用程序。

　　與之形成對比的是，谷歌終于將自己在搜索領域的強項融入了AI產品：比如“Ask with video”，利用Gemini的多模態能力與Google Lens相結合，可以實現視頻搜索——錄制一段視頻，就能知道用戶使用唱片機，甚至維修照相機；Google Photos中還推出了新的AI功能“Ask Photos”，可以通過簡單的提問在大量照片中找出“孩子多年來學習游泳的歷程”。

　　谷歌版 AI 搜索的輸出結果不再是網址的羅列，而是一個全新的整合頁面——它更像一份針對用戶提問而形成的報告，不僅包括對問題本身的回答，也包括對用戶可能忽略問題的猜測和補充。

　　在大會上，谷歌搜索部門負責人Liz Reid表示，“生成式AI搜索將為你做的比你想象更多。不管你腦子里在想什么，或者你需要做什么，只要問，谷歌就會為你搜索。”她解釋說，AI概述在收到一個一般查詢后會提供一系列潛在答案，并鏈接到更深入的內容。它還能通過在搜索中使用“多重推理”在幾秒鐘內回答更復雜的問題和子問題。

　　谷歌同樣展示了現實交互功能，其一款名為Project Astra的多模式AI助手，可以觀看并理解通過設備攝像頭看到的內容，記住用戶的東西在哪里，幫用戶在現實世界搜索物品，或是完成其他任務。

　　但是，相比于OpenAI簡單直接的視頻說明，谷歌在現場演示的AI工具卻遭遇“翻車”。

　　開場時，一位從舞臺上的茶杯中鉆出的DJ，在臺上使用谷歌內部開發的一款AI DJ小工具 MusicFX DJ，在舞臺上現場用隨機生成的關鍵詞，來創造出一首曲目——很可惜，創造出的曲調有點糟糕。

　　不過，相比于2023年在演示Gemini后的“群嘲”，今年谷歌DeepMind推出的Project Astra使用視頻顯得更加可信：操作者以智能手機為媒介，讓大模型實時收集環境中的各種信息，并在圍繞著辦公室轉了一圈后突然提問：“你記得眼鏡在哪里嗎？”AI從環境信息中捕捉到了眼鏡的位置，并給出了正確的方位提示。

　　多模態成為重點

　　在直播中，OpenAI演示了一段員工與GPT-4o對話的視頻，模型反應速度與人類相近，GPT-4o可利用手機攝像頭描述其“看到”的東西。另一段展示視頻里，GPT-4o被裝在兩個手機上，其中一個代表人類與電信公司打電話溝通設備更換事項，另一個GPT-4o扮演電信公司客服人員。OpenAI還展示了GPT-4o搭載在手機上的實時翻譯能力。

　　GPT-4o的發布，標志著OpenAI在多模態AI領域的重大突破。這款新模型不僅能夠實時對音頻、視覺和文本進行推理，還能夠生成文本、音頻和圖像的任意組合輸出，大大提升了與人類的交互體驗。GPT-4o的響應速度極快，音頻輸入的平均響應時間僅為320毫秒，與人類對話中的自然反應時間相當。此外，GPT-4o在多語言處理、視覺和音頻理解方面的能力也有顯著提升，創下了多項新的行業紀錄。

　　根據OpenAI介紹，GPT-4o與GPT-3.5、GPT-4的語音對談機制不同。GPT-3.5和GPT-4會先將音頻轉換為文本，再接收文本生成文本，最后將文本轉換為音頻，經歷這三個過程，音頻中的情感表達等信息會被折損，而GPT-4o是跨文本、視覺和音頻的端到端模型，是OpenAI第一個綜合了這些維度的模型，可更好進行對談。

　　而如前所述，谷歌本次發布的AI Overview，也在多模態的問題上做足了文章。

　　那么，“多模態”到底是什么？

　　多模式深度學習，是一個機器學習的子領域，旨在訓練人工智能模型來處理和發現不同類型數據——也就是模式之間的關系，通常是圖像、視頻、音頻和文本。通過結合不同的模態，深度學習模型可以更普遍地理解其環境，因為某些線索僅存在于某些模態中。

　　例如一個能夠識別人類面部情緒的任務，它不僅需要AI看一張人臉（視覺模態），還需要關注人聲音（音頻模態）的音調和音高，這些內容編碼了大量關于他們情緒狀態的信息，這些信息可能無法通過他們的面部表情看到，即使他們經常是同步的。

　　在多模態深度學習中，最典型的模態是視覺（圖像、視頻）、文本和聽覺（語音、聲音、音樂）。其他不太典型的模式包括3D視覺數據、深度傳感器數據和LiDAR 數據，這是在自動駕駛汽車中經常用到的典型數據。

　　此外，在臨床實踐中，成像方式包括計算機斷層掃描（CT）掃描和X射線圖像，而非圖像方式包括腦電圖（EEG）數據。傳感器數據，如熱數據或來自眼動追蹤設備的數據也可以包含在列表中。

　　多模態神經網絡通常是多個單模態神經網絡的組合。例如，視聽模型可能由兩個單峰網絡組成，一個用于視覺數據，一個用于音頻數據。這些單峰神經網絡通常分別處理它們的輸入。這個過程稱為編碼。在進行單峰編碼之后，必須將從每個模型中提取的信息融合在一起。已經提出了多種融合技術，范圍從簡單的連接到注意機制。多模態數據融合過程是最重要的成功因素之一。融合發生后，最終的“決策”網絡接受融合后的編碼信息，并接受最終任務的訓練。

　　可以看出，要想讓停留在“畫畫寫字唱歌”程度的AI們真正與現實世界產生交互并影響生產過程，多模態研發是必經之路。

　　國產AI表現如何？

　　2023年，研發了Vidu的生數科技CEO唐家渝在接受媒體采訪時表示，全球范圍內來看，多模態大模型的研究仍處于起步階段，技術成熟度還不高。這一點不同于火熱的語言模型，國外已經領先了一個時代。因此，相比于在語言模型上“卷”，唐家渝認為多模態更是國內團隊搶占大模型賽道的一個重要機會。

　　目前國內很多企業都在相繼布局視頻大模型，主要分為三類：第一類是傳統大廠，如字節跳動在視頻領域布局已久，此前發布了高清文生視頻模型MagicVideo-V2，此外像阿里云、騰訊、百度、訊飛等，除了在通用技術上繼續向多模態大模型發力之外，也在面向行業開發一些應用于垂直領域的大模型。第二類是專門做視覺分析的廠商，比如海康威視等，已經開始投入到視頻大模型的研發中。第三類包括一些專注內容開發、創意營銷的廠商，比如昆侖萬維、萬興科技等也研發了自己的視頻大模型。

　　但易觀分析研究合伙人陳晨表示，與Sora相比，目前Vidu的時長、畫面元素的豐富度、細節表現方面仍然有差距。不過，Vidu是一個階段性的產物，模型能力的突破只是時間問題。至少Sora到現在還沒有開放，原因可能是對實際任務的處理能力仍需要融合，以及資源、商業模式等多方面的問題。從這個角度上看，比起大語言模型，國內做視覺模型的起步是比較早的，技術和經驗都有較深的積累，需要的是發揮國內產業鏈協同方面的優勢，能夠將多模態的能力落到B端和C端豐富的應用場景當中去。

　　對于國內AI企業寄希望于通過多模態實現彎道超車的問題，陳晨對媒體表示，視頻大模型在技術上的突破必定加速了AGI的進程，但AGI的關鍵還在于是否能自發地處理無限多任務，以及是否具備與人類一致的認知架構。此外，最近針對Sora也出現了不同的聲音，有一部分專家并不認為Sora是真正可以通往AGI的道路。不過現在相對獨立的技術路線在未來未必不會出現融合的情況，創造出真正智能且靈活可控的AGI模型。

　　近期，包括阿里的開源模型通義千問Qwen在內的幾個國產開源大模型激戰正酣，呼聲和反響甚至比在國內還高。Stability AI研究主管Tanishq Mathew Abraham在5月6日發文提醒道：“許多最具競爭力的開源大模型，包括Owen、Yi、InternLM、Deepseek、BGE、CogVLM 等正是來自中國。關于中國在人工智能領域落后的說法完全不屬實。相反，他們正在為生態系統和社區做出重大貢獻。”

　　5月9日，阿里云發布Qwen2.5。相較上一版本，2.5版模型的理解能力、邏輯推理、指令遵循、代碼能力分別提升9%、16%、19%、10%。團隊還開源了Qwen1.5系列首個千億參數級別模型Qwen1.5-110B，能處理 32K tokens 上下文長度，支持英、中、法、西、德等多種語言。Liquid AI高級機器學習科學家Maxime Labonne看了表示：“Qwen1.5-110B在 MMLU 上的得分竟然高于‘性能野獸’ Llama 370B的instruct版本。微調后它將有可能成為最強開源SOTA模型，至少能和Llama 3媲美。”

　　在各種尺寸的靈活選擇下，通義千問其它參數的模型性能也好評如潮。Qwen-1.5 72B曾在LMSYS Org推出的基準測試平臺Chatbot Arena上奪冠，Qwen-72B也多次進入“盲測”對戰排行榜全球前十。

　　5月6日，私募巨頭幻方量化旗下的AI公司深度求索發布全新第二代MoE大模型DeepSeek-V2，模型論文雙開源。其性能在AlignBench排行榜中位列前三，超過GPT-4且接近GPT-4-Turbo。MT-Bench屬于頂尖級別，與LLaMA3-70B比肩，遠勝Mixtral 8x22B。支持 128K 的上下文窗口，專精于數學、代碼和推理任務。Hugging Face技術主管Philipp Schmid在X發文，列出DeepSeek V2各項技能點向社區隆重推薦——上線僅四天，Hugging Face上的下載量已達3522次，在GitHub也瞬間收獲1200顆星星。

　　除了以上提到的DeepSeek、Qwen，還有MiniCPM、上海人工智能實驗室和商湯聯合研發的InternLM、零一萬物的Yi系列、智譜AI的多模態大模型CogVLM等等在開發者社區里備受歡迎中國的開源模型。

　　還有人提出，自己屬實被過去一年中Arxiv上AI論文里中文署名作者的龐大數量震驚到了。

　　OpenAI早期投資人Vinod Khosla曾在X發文稱，“美國的開源模型都會被中國抄去”。但這番言論馬上被Meta的AI教父Yann LeCun反駁：“AI不是武器。無論我們是否把技術開源，中國都不會落后。他們會掌控自己的人工智能，開發自己的本土技術堆棧。”

　　國盛證券研報認為，GPT-4o是邁向更自然的人機交互的重大進步，新功能帶來了嶄新的多模態交互能力，通過新的端到端模型實現了體驗上的新突破，有望在各類終端實現用戶體驗的最大化，利好智能終端Agent、機器人等方向。

　　正如谷歌 DeepMind負責人Demis Hassabis表示，多模態的通用AI代理，“可以在日常生活中真正提供幫助”。科技巨頭們正摩拳擦掌，野心勃勃地沖向AI引導的新世界，雖然距離用AI深入改造萬千行業的目標仍有一段距離，但其帶來的可能性仍然在不斷拓展。（綜合編輯）

關注微信公眾號：

動態新聞聲音 CSEI聯盟聯系我們

熱點新聞

熱點推薦