|新一代信息技術(shù) 信息基礎(chǔ)設(shè)施建設(shè) 互聯(lián)網(wǎng)+ 大數(shù)據(jù) 人工智能 高端信息技術(shù)核心產(chǎn)業(yè)
      |高端制造 機(jī)器人 智能制造 新材料
      |生物產(chǎn)業(yè) 生物醫(yī)藥 生物農(nóng)業(yè) 生物技術(shù)
      |綠色低碳 清潔能源汽車 環(huán)保產(chǎn)業(yè) 高效節(jié)能產(chǎn)業(yè) 生態(tài)修復(fù) 資源循環(huán)利用
      |數(shù)字創(chuàng)意 數(shù)創(chuàng)裝備 內(nèi)容創(chuàng)新 設(shè)計創(chuàng)新
      |產(chǎn)業(yè)資訊
      |地方亮點及地方發(fā)改委動態(tài)
      |獨家內(nèi)容
      |雜志訂閱
      ?? 投稿
      您的位置:首頁 > 其它 > 獨家內(nèi)容
      谷歌對壘OpenAI,誰更勝一籌?
      2024-05-17 13:05
        中國戰(zhàn)略新興產(chǎn)業(yè)融媒體記者 艾麗格瑪
        GPT-4o是邁向更自然的人機(jī)交互的重大進(jìn)步,新功能帶來了嶄新的多模態(tài)交互能力,通過新的端到端模型實現(xiàn)了體驗上的新突破,有望在各類終端實現(xiàn)用戶體驗的最大化,利好智能終端Agent、機(jī)器人等方向。
        當(dāng)?shù)貢r間5月14日,谷歌在2024 Google I/O大會上展示了其在AI技術(shù)上的一系列突破。就在一天前,OpenAI發(fā)布的GPT-4o已經(jīng)引發(fā)了一波熱議,而發(fā)布時間僅差一天的兩個技術(shù)產(chǎn)品被視為是這兩家科技企業(yè)在AI領(lǐng)域真刀明槍的激烈對壘。
        谷歌和OpenAI的發(fā)布會,不約而同地強(qiáng)調(diào)了AI與現(xiàn)實世界的真正交互——例如用攝像頭感知環(huán)境、識別內(nèi)容和互動。不過,在產(chǎn)品功能重點方面,兩家公司各有千秋。
        那么,最新的AI大模型到底能做到什么程度?它們能帶來生產(chǎn)力的質(zhì)變,還是僅僅停留在概念性的炒作?
        01
        各有側(cè)重的階段性更新
        當(dāng)?shù)貢r間5月13日,OpenAI通過直播展示了產(chǎn)品更新。
        這次,OpenAI并未推出搜索引擎,也未推出GPT-4.5或GPT-5,而是發(fā)布了GPT-4系列新模型GPT-4o以及AI聊天機(jī)器人ChatGPT的桌面版本。這可以看作是對GPT-4的一次階段性更新,而根據(jù)OpenAI官方網(wǎng)站介紹,GPT-4o中的“o”代表Omni,也就是“全能”的意思。
        據(jù)介紹,GPT-4o文本、推理、編碼能力達(dá)到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為GPT-4 Turbo的一半,視頻、音頻功能得到改善。OpenAI公司CEO山姆·奧爾特曼在博客中表示,ChatGPT免費用戶也能用上新發(fā)布的GPT-4o。此外,OpenAI還與蘋果走到一起,推出了適用于macOS的桌面級應(yīng)用。
        OpenAI技術(shù)負(fù)責(zé)人Mira Murati在直播中表示:“這是我們第一次在易用性方面真正邁出的一大步。”
        OpenAI將GPT-4o定位為GPT-4性能級別的模型。據(jù)介紹,GPT-4o在傳統(tǒng)基準(zhǔn)測試中,文本、推理、編碼能力達(dá)到GPT-4 Turbo的水平。該模型接收文本、音頻和圖像輸入時,平均320毫秒響應(yīng)音頻輸入,與人類對話中的響應(yīng)時間相似,英文文本和代碼能力與GPT-4 Turbo相當(dāng),在非英文文本上有改善,提高了ChatGPT針對50種不同語言的質(zhì)量和速度,并通過OpenAI的API提供給開發(fā)人員,使其即時就可以開始使用新模型構(gòu)建應(yīng)用程序。
        與之形成對比的是,谷歌終于將自己在搜索領(lǐng)域的強(qiáng)項融入了AI產(chǎn)品:比如“Ask with video”,利用Gemini的多模態(tài)能力與Google Lens相結(jié)合,可以實現(xiàn)視頻搜索——錄制一段視頻,就能知道用戶使用唱片機(jī),甚至維修照相機(jī);Google Photos中還推出了新的AI功能“Ask Photos”,可以通過簡單的提問在大量照片中找出“孩子多年來學(xué)習(xí)游泳的歷程”。
        谷歌版 AI 搜索的輸出結(jié)果不再是網(wǎng)址的羅列,而是一個全新的整合頁面——它更像一份針對用戶提問而形成的報告,不僅包括對問題本身的回答,也包括對用戶可能忽略問題的猜測和補(bǔ)充。
        在大會上,谷歌搜索部門負(fù)責(zé)人Liz Reid表示,“生成式AI搜索將為你做的比你想象更多。不管你腦子里在想什么,或者你需要做什么,只要問,谷歌就會為你搜索。”她解釋說,AI概述在收到一個一般查詢后會提供一系列潛在答案,并鏈接到更深入的內(nèi)容。它還能通過在搜索中使用“多重推理”在幾秒鐘內(nèi)回答更復(fù)雜的問題和子問題。
        谷歌同樣展示了現(xiàn)實交互功能,其一款名為Project Astra的多模式AI助手,可以觀看并理解通過設(shè)備攝像頭看到的內(nèi)容,記住用戶的東西在哪里,幫用戶在現(xiàn)實世界搜索物品,或是完成其他任務(wù)。
        但是,相比于OpenAI簡單直接的視頻說明,谷歌在現(xiàn)場演示的AI工具卻遭遇“翻車”。
        開場時,一位從舞臺上的茶杯中鉆出的DJ,在臺上使用谷歌內(nèi)部開發(fā)的一款A(yù)I DJ小工具 MusicFX DJ,在舞臺上現(xiàn)場用隨機(jī)生成的關(guān)鍵詞,來創(chuàng)造出一首曲目——很可惜,創(chuàng)造出的曲調(diào)有點糟糕。
        不過,相比于2023年在演示Gemini后的“群嘲”,今年谷歌DeepMind推出的Project Astra使用視頻顯得更加可信:操作者以智能手機(jī)為媒介,讓大模型實時收集環(huán)境中的各種信息,并在圍繞著辦公室轉(zhuǎn)了一圈后突然提問:“你記得眼鏡在哪里嗎?”AI從環(huán)境信息中捕捉到了眼鏡的位置,并給出了正確的方位提示。
        02
        多模態(tài)成為重點
        在直播中,OpenAI演示了一段員工與GPT-4o對話的視頻,模型反應(yīng)速度與人類相近,GPT-4o可利用手機(jī)攝像頭描述其“看到”的東西。另一段展示視頻里,GPT-4o被裝在兩個手機(jī)上,其中一個代表人類與電信公司打電話溝通設(shè)備更換事項,另一個GPT-4o扮演電信公司客服人員。OpenAI還展示了GPT-4o搭載在手機(jī)上的實時翻譯能力。
        GPT-4o的發(fā)布,標(biāo)志著OpenAI在多模態(tài)AI領(lǐng)域的重大突破。這款新模型不僅能夠?qū)崟r對音頻、視覺和文本進(jìn)行推理,還能夠生成文本、音頻和圖像的任意組合輸出,大大提升了與人類的交互體驗。GPT-4o的響應(yīng)速度極快,音頻輸入的平均響應(yīng)時間僅為320毫秒,與人類對話中的自然反應(yīng)時間相當(dāng)。此外,GPT-4o在多語言處理、視覺和音頻理解方面的能力也有顯著提升,創(chuàng)下了多項新的行業(yè)紀(jì)錄。
        根據(jù)OpenAI介紹,GPT-4o與GPT-3.5、GPT-4的語音對談機(jī)制不同。GPT-3.5和GPT-4會先將音頻轉(zhuǎn)換為文本,再接收文本生成文本,最后將文本轉(zhuǎn)換為音頻,經(jīng)歷這三個過程,音頻中的情感表達(dá)等信息會被折損,而GPT-4o是跨文本、視覺和音頻的端到端模型,是OpenAI第一個綜合了這些維度的模型,可更好進(jìn)行對談。
        而如前所述,谷歌本次發(fā)布的AI Overview,也在多模態(tài)的問題上做足了文章。
        那么,“多模態(tài)”到底是什么?
        多模式深度學(xué)習(xí),是一個機(jī)器學(xué)習(xí)的子領(lǐng)域,旨在訓(xùn)練人工智能模型來處理和發(fā)現(xiàn)不同類型數(shù)據(jù)——也就是模式之間的關(guān)系,通常是圖像、視頻、音頻和文本。通過結(jié)合不同的模態(tài),深度學(xué)習(xí)模型可以更普遍地理解其環(huán)境,因為某些線索僅存在于某些模態(tài)中。
        例如一個能夠識別人類面部情緒的任務(wù),它不僅需要AI看一張人臉(視覺模態(tài)),還需要關(guān)注人聲音(音頻模態(tài))的音調(diào)和音高,這些內(nèi)容編碼了大量關(guān)于他們情緒狀態(tài)的信息,這些信息可能無法通過他們的面部表情看到,即使他們經(jīng)常是同步的。
        在多模態(tài)深度學(xué)習(xí)中,最典型的模態(tài)是視覺(圖像、視頻)、文本和聽覺(語音、聲音、音樂)。其他不太典型的模式包括3D視覺數(shù)據(jù)、深度傳感器數(shù)據(jù)和LiDAR 數(shù)據(jù),這是在自動駕駛汽車中經(jīng)常用到的典型數(shù)據(jù)。
        此外,在臨床實踐中,成像方式包括計算機(jī)斷層掃描(CT)掃描和X射線圖像,而非圖像方式包括腦電圖(EEG)數(shù)據(jù)。傳感器數(shù)據(jù),如熱數(shù)據(jù)或來自眼動追蹤設(shè)備的數(shù)據(jù)也可以包含在列表中。
        多模態(tài)神經(jīng)網(wǎng)絡(luò)通常是多個單模態(tài)神經(jīng)網(wǎng)絡(luò)的組合。例如,視聽模型可能由兩個單峰網(wǎng)絡(luò)組成,一個用于視覺數(shù)據(jù),一個用于音頻數(shù)據(jù)。這些單峰神經(jīng)網(wǎng)絡(luò)通常分別處理它們的輸入。這個過程稱為編碼。在進(jìn)行單峰編碼之后,必須將從每個模型中提取的信息融合在一起。已經(jīng)提出了多種融合技術(shù),范圍從簡單的連接到注意機(jī)制。多模態(tài)數(shù)據(jù)融合過程是最重要的成功因素之一。融合發(fā)生后,最終的“決策”網(wǎng)絡(luò)接受融合后的編碼信息,并接受最終任務(wù)的訓(xùn)練。
        可以看出,要想讓停留在“畫畫寫字唱歌”程度的AI們真正與現(xiàn)實世界產(chǎn)生交互并影響生產(chǎn)過程,多模態(tài)研發(fā)是必經(jīng)之路。
        03
        國產(chǎn)AI表現(xiàn)如何?
        2023年,研發(fā)了Vidu的生數(shù)科技CEO唐家渝在接受媒體采訪時表示,全球范圍內(nèi)來看,多模態(tài)大模型的研究仍處于起步階段,技術(shù)成熟度還不高。這一點不同于火熱的語言模型,國外已經(jīng)領(lǐng)先了一個時代。因此,相比于在語言模型上“卷”,唐家渝認(rèn)為多模態(tài)更是國內(nèi)團(tuán)隊搶占大模型賽道的一個重要機(jī)會。
        目前國內(nèi)很多企業(yè)都在相繼布局視頻大模型,主要分為三類:第一類是傳統(tǒng)大廠,如字節(jié)跳動在視頻領(lǐng)域布局已久,此前發(fā)布了高清文生視頻模型MagicVideo-V2,此外像阿里云、騰訊、百度、訊飛等,除了在通用技術(shù)上繼續(xù)向多模態(tài)大模型發(fā)力之外,也在面向行業(yè)開發(fā)一些應(yīng)用于垂直領(lǐng)域的大模型。第二類是專門做視覺分析的廠商,比如海康威視等,已經(jīng)開始投入到視頻大模型的研發(fā)中。第三類包括一些專注內(nèi)容開發(fā)、創(chuàng)意營銷的廠商,比如昆侖萬維、萬興科技等也研發(fā)了自己的視頻大模型。
        但易觀分析研究合伙人陳晨表示,與Sora相比,目前Vidu的時長、畫面元素的豐富度、細(xì)節(jié)表現(xiàn)方面仍然有差距。不過,Vidu是一個階段性的產(chǎn)物,模型能力的突破只是時間問題。至少Sora到現(xiàn)在還沒有開放,原因可能是對實際任務(wù)的處理能力仍需要融合,以及資源、商業(yè)模式等多方面的問題。從這個角度上看,比起大語言模型,國內(nèi)做視覺模型的起步是比較早的,技術(shù)和經(jīng)驗都有較深的積累,需要的是發(fā)揮國內(nèi)產(chǎn)業(yè)鏈協(xié)同方面的優(yōu)勢,能夠?qū)⒍嗄B(tài)的能力落到B端和C端豐富的應(yīng)用場景當(dāng)中去。
        對于國內(nèi)AI企業(yè)寄希望于通過多模態(tài)實現(xiàn)彎道超車的問題,陳晨對媒體表示,視頻大模型在技術(shù)上的突破必定加速了AGI的進(jìn)程,但AGI的關(guān)鍵還在于是否能自發(fā)地處理無限多任務(wù),以及是否具備與人類一致的認(rèn)知架構(gòu)。此外,最近針對Sora也出現(xiàn)了不同的聲音,有一部分專家并不認(rèn)為Sora是真正可以通往AGI的道路。不過現(xiàn)在相對獨立的技術(shù)路線在未來未必不會出現(xiàn)融合的情況,創(chuàng)造出真正智能且靈活可控的AGI模型。
        近期,包括阿里的開源模型通義千問Qwen在內(nèi)的幾個國產(chǎn)開源大模型激戰(zhàn)正酣,呼聲和反響甚至比在國內(nèi)還高。Stability AI研究主管Tanishq Mathew Abraham在5月6日發(fā)文提醒道:“許多最具競爭力的開源大模型,包括Owen、Yi、InternLM、Deepseek、BGE、CogVLM 等正是來自中國。關(guān)于中國在人工智能領(lǐng)域落后的說法完全不屬實。相反,他們正在為生態(tài)系統(tǒng)和社區(qū)做出重大貢獻(xiàn)。”
        5月9日,阿里云發(fā)布Qwen2.5。相較上一版本,2.5版模型的理解能力、邏輯推理、指令遵循、代碼能力分別提升9%、16%、19%、10%。團(tuán)隊還開源了Qwen1.5系列首個千億參數(shù)級別模型Qwen1.5-110B,能處理 32K tokens 上下文長度,支持英、中、法、西、德等多種語言。Liquid AI高級機(jī)器學(xué)習(xí)科學(xué)家Maxime Labonne看了表示:“Qwen1.5-110B在 MMLU 上的得分竟然高于‘性能野獸’ Llama 370B的instruct版本。微調(diào)后它將有可能成為最強(qiáng)開源SOTA模型,至少能和Llama 3媲美。”
        在各種尺寸的靈活選擇下,通義千問其它參數(shù)的模型性能也好評如潮。Qwen-1.5 72B曾在LMSYS Org推出的基準(zhǔn)測試平臺Chatbot Arena上奪冠,Qwen-72B也多次進(jìn)入“盲測”對戰(zhàn)排行榜全球前十。
        5月6日,私募巨頭幻方量化旗下的AI公司深度求索發(fā)布全新第二代MoE大模型DeepSeek-V2,模型論文雙開源。其性能在AlignBench排行榜中位列前三,超過GPT-4且接近GPT-4-Turbo。MT-Bench屬于頂尖級別,與LLaMA3-70B比肩,遠(yuǎn)勝Mixtral 8x22B。支持 128K 的上下文窗口,專精于數(shù)學(xué)、代碼和推理任務(wù)。Hugging Face技術(shù)主管Philipp Schmid在X發(fā)文,列出DeepSeek V2各項技能點向社區(qū)隆重推薦——上線僅四天,Hugging Face上的下載量已達(dá)3522次,在GitHub也瞬間收獲1200顆星星。
        除了以上提到的DeepSeek、Qwen,還有MiniCPM、上海人工智能實驗室和商湯聯(lián)合研發(fā)的InternLM、零一萬物的Yi系列、智譜AI的多模態(tài)大模型CogVLM等等在開發(fā)者社區(qū)里備受歡迎中國的開源模型。
        還有人提出,自己屬實被過去一年中Arxiv上AI論文里中文署名作者的龐大數(shù)量震驚到了。
        OpenAI早期投資人Vinod Khosla曾在X發(fā)文稱,“美國的開源模型都會被中國抄去”。但這番言論馬上被Meta的AI教父Yann LeCun反駁:“AI不是武器。無論我們是否把技術(shù)開源,中國都不會落后。他們會掌控自己的人工智能,開發(fā)自己的本土技術(shù)堆棧。”
        國盛證券研報認(rèn)為,GPT-4o是邁向更自然的人機(jī)交互的重大進(jìn)步,新功能帶來了嶄新的多模態(tài)交互能力,通過新的端到端模型實現(xiàn)了體驗上的新突破,有望在各類終端實現(xiàn)用戶體驗的最大化,利好智能終端Agent、機(jī)器人等方向。
        正如谷歌 DeepMind負(fù)責(zé)人Demis Hassabis表示,多模態(tài)的通用AI代理,“可以在日常生活中真正提供幫助”。科技巨頭們正摩拳擦掌,野心勃勃地沖向AI引導(dǎo)的新世界,雖然距離用AI深入改造萬千行業(yè)的目標(biāo)仍有一段距離,但其帶來的可能性仍然在不斷拓展。(綜合編輯)
      關(guān)注微信公眾號:

      官方賬號直達(dá) | 關(guān)于我們 | 聯(lián)系我們 | 招聘 | 廣告刊例 | 版權(quán)聲明

      地址(Address):北京市西城區(qū)廣內(nèi)大街315號信息大廈B座8-13層(8-13 Floor, IT Center B Block, No.315 GuangNei Street, Xicheng District, Beijing, China)

      郵編:100053 傳真:010-63691514 Post Code:100053 Fax:010-63691514

      Copyright 中國戰(zhàn)略新興產(chǎn)業(yè)網(wǎng) 京ICP備09051002號-3 技術(shù)支持:wicep

      最好看最新高清中文视频| 18禁超污无遮挡无码免费网站| 蜜桃视频无码区在线观看| 中文字幕在线观看一区二区| 国产精品va无码一区二区| 无码无套少妇毛多18PXXXX| 久久久精品人妻无码专区不卡| 日韩精品无码久久一区二区三| 久久久无码一区二区三区| 午夜无码A级毛片免费视频| 最近中文字幕无免费| 精品国产一区二区三区无码| 国产乱子伦精品无码码专区| 亚洲精品一级无码鲁丝片| 成人无码视频97免费| 亚洲韩国—中文字幕| 亚洲AV中文无码乱人伦| 无码无遮挡又大又爽又黄的视频| 亚洲 另类 无码 在线| 被夫の上司に犯中文字幕| 无码国产成人午夜电影在线观看| 亚欧无码精品无码有性视频| 少妇无码一区二区二三区| 亚洲VA中文字幕无码一二三区| 久久亚洲AV成人无码软件| 国产AV无码专区亚洲AWWW| 国产精品99久久久精品无码| 免费无码一区二区三区| 天堂√中文最新版在线| 国产羞羞的视频在线观看 国产一级无码视频在线| 国产福利电影一区二区三区久久老子无码午夜伦不| 亚洲国产综合无码一区| 久久久久成人精品无码中文字幕| 中文字幕免费高清视频| 国产成人无码精品一区在线观看| 亚洲乱亚洲乱少妇无码| 亚洲中文字幕无码一久久区| 亚洲AV无码一区二区一二区| 中文字幕免费在线观看| 精品无码一区二区三区电影| 中文字幕无码精品亚洲资源网久久|