GPT-4o 現貨變期貨，是什么在拖 OpenAI 的后腿

Her，正從電影，走向現實。

今年 5 月，OpenAI 發布最新 AI 多模態大模型 GPT-4o。相比此前的 GPT-4 Turbo，GPT-4o 速度快了兩倍，成本低了一半，實時的 AI 語音互動的平均時延，相比此前版本的 2.8 秒 (GPT-3.5) 到 5.4 秒 (GPT-4)，更是達到了 320 毫秒——與人類日常對話響應速度幾乎一致。

不僅是效率的提升，對話中的情感分析也成為了此次產品更新的特色之一。在與主持人的對話中，AI 可以聽出他說話時的「緊張」，并且針對性的提出了深呼吸的建議。

OpenAI，正成為大模型時代硅基的「造物主」。

然而，發布會很震撼，現實卻很骨感。產品落地上，這場大模型技術革命的發起方 OpenAI，正逐漸變得像一家「期貨」公司。

主打全能、低時延的 GPT-4o 發布后，實時音視頻功能的上線迄今仍在跳票；視頻多模態產品 Sora 發布，同樣遲遲不見開放。

但這不只是 OpenAI 一家企業的問題——ChatGPT 發布后，國內國產版 ChatGPT 多如過江之鯽，但是真正對標 GPT-4o 的，目前卻只有一個商湯的日日新 5.5，進度也同樣停留在月內公測。

為什么發布會上，實時多模態大模型距離變革世界只有一步之遙；在真正走向產品化落地的過程中，卻總是「現貨」變「期權」？

一種新的聲音正在浮出水面：在多模態的世界里，或許（算法）暴力無奇跡。

01 實時語音，一條必經的AI 商業化路線

技術的成熟，正助推一個嶄新的藍海產業逐漸成型。

硅谷知名風投機構 a16z 數據顯示，全球用戶量 Top50 AI 應用中，9 款是陪伴型產品。AI 產品榜數據則顯示，今年 5 月 AI 伴侶的訪問量高達 4.32 億，同比增長 13.87%。

高需求、高增速、高市場空間，AI 陪伴，帶來的是商業模式與人機交互的雙重變革。

商業的成熟，也在反向倒逼技術的不斷進步。僅以今年上半年為節點，實時 AI 語音技術在短短六個月，就已經發生了三次迭代。

第一波技術浪潮的代表性產品是 Pi。

今年 3 月，初創企業 Inflection AI 更新了面向個人用戶的情感聊天機器人 Pi。

Pi 的產品界面非常簡潔，文本+對話框是核心交互界面，但也增加了語音讀取，電話等 AI 語音功能的設計。

實現這種語音交互，Pi 依靠的是傳統的 STT（語音識別，Speech-to-Text）-LLM（大模型語義分析）- TTS（文本到語音，Text To Speech）三步走的語音技術。其特點是技術成熟，但反應慢，缺乏對語氣等關鍵信息的理解，無法做到真正的實時語音對話。

與之同期的另一款特色產品是 Call Annie。相比 Pi，Call Annie 有完整的視頻通話體驗設計，除了接掛電話的設計之外，聽話功能還可以最小化之后切入其他 App，并支持四十多種對話角色設定。

然而它們都有著共同的技術問題——高時延與情感色彩缺乏。時延上，即是行業內最先進的 OpenAI，也會出現 2.8 秒（GPT-3.5）到 5.4 秒（GPT-4）的延遲。情感上，則會出現在交互中丟失如音調、音高、語速等信息，更無法做到輸出笑聲、唱歌聲等高級語音表達

在此之后，新一波技術的代表則是一款名叫 EVI 的產品。

這款產品在今年 4 月由 Hume AI 推出，并為 Hume AI 帶來了 5000 萬美元（約 3.62 億人民幣）的 B 輪融資。

產品設計上，Hume AI 在底層算法環節推出了 Playground 功能，用戶可以自己選擇配置選擇大模型，除了官方默認，還可以選擇像 Claude、GPT-4 Turbo 等。但不同之處是語音帶上了情感，因此在表達上，也有了節奏、語調的變化。

實現這一功能，主要依靠在傳統的 STT-LLM- TTS 三步走環節中，加入新的 SST（semantic space theory，語義空間理論）算法。SST 能通過廣泛的數據收集和先進的統計模型，精準繪制人類情感的全譜圖，揭示人類情感狀態之間的連續性，使得 EVI 具備很多擬人化的特色功能。

情感進步的代價，則是時延的進一步犧牲，與 EVI 對話，用戶需要等待的時間，相較 Pi 與 Call Annie 進一步增加。

到了 5 月中旬 GPT-4o 發布，融合多模態技術成為這一時期的技術方向標。

與過去的三步式語音交互產品相比，GPT-4o 是一款跨文本、視覺和音頻端到端訓練的新模型，這意味著所有輸入和輸出都由同一個神經網絡處理。

時延問題也因此被極大改善。OpenAI 官宣，GPT-4o 的實時語音交互，可以做到最快 232 毫秒、平均 320 毫秒的響應音頻輸入。情感上，用戶與 AI 的交互也變得越來越有智能屬性，語速變化、情感理解得到實現。

產品層面，人類與 AI 談戀愛、AI 替代盲人看世界也因此成為可能。

前不久推出語音電話功能、2024 年硅谷引人矚目的新星——Character.ai，就成為了這次技術浪潮中的最大受益者。

在 Character.ai，用戶有機會在超逼真的角色扮演中與動漫人物、電視名人和歷史人物的摹本發短信。新奇的設定帶來了產品用戶數量的暴增，根據 Similarweb 的數據，Character.ai 每秒可以處理 20000 個 AI 推理請求，5 月的訪問量高達 2.77 億。

Character.ai 和 perplexity.ai 的流量對比｜圖片來源：Similarweb

與之同期，微軟、谷歌等紛紛官宣旗下的大模型將推出實時語音通話功能。

然而滴水不漏的產品設計，在現實執行中，卻總是呈現出三峽泄洪的落地效果——第三波浪潮之中，發布會上幾近「her」式的陪伴產品，在實際落地中，全部變成了「計劃」推出、即將推出、內測中。

一個毫無疑問的結論是，實時音視頻有可能成為人機互動終極形態，除了AI陪伴場景外，游戲智能 NPC、AI 口語老師、實時翻譯等場景都有望迎來爆發，但在此之前，如何解決「發布會」到產品落地的最后一公里，是當下行業最棘手的難題。

02 AI 實時語音，大力無奇跡

AI實時語音「大力無奇跡」，一個悲觀的說法正在硅谷悄悄蔓延。

阻力則來自技術、監管以及商業的方方面面。

技術上的反對派精神領袖，是「卷積網絡之父」楊立昆（Yann LeCun）。

在他看來：大模型技術，相比過去的各種 AI 算法，最大的特點是「大力出奇跡」。通過大數據投喂，以及動輒上億參數體量與高性能的計算集群硬件支持，算法由此可以用于處理更復雜的問題，以及更高的可擴展性。然而，我們當前對于大模型過于樂觀，尤其是多模態大模型可能就是世界模型的觀點，更是無稽之談。

比如，人有五感，才組成我們對于世界的真實認知，基于大量互聯網文本訓練的 LLM，缺乏對物理世界的觀察與互動，也缺乏足夠多的常識。因此生成視頻或者語音的過程中，總是會出現看似天衣無縫的內容，運動軌跡，或者聲音情感中，卻缺乏真實感。此外，硬性的物理限制也是問題，面對與日俱增的模型大小以及交互維度，目前的大模型缺乏足夠的帶寬處理如此信息。

監管層面，AI實時語音，也就是端到端的語音大模型，面臨的是技術與倫理的博弈。

過去，傳統的 AI 語音產業 STT-LLM- TTS 的三步走，首先是技術不成熟所導致，進化到端到端的語音大模型需要在模型架構、訓練方法和多模態交互等方面實現額外的技術突破。同時，也是由于語音本身的監管難度高于文字，導致 AI 語音極易被用至電話詐騙、色情以及垃圾營銷等場景。為了便于審核，中間的文字環節，也在一定程度上變得必要。

而在商業層面，端到端的音視頻大模型訓練，在訓練階段，需要大量 YouTube 以及播客的數據，成本是過去文字訓練模型的幾十倍甚至更高，一次訓練成本千萬美金起步。

而這種成本，對于此時的普通 AI 企業來說，天上掉錢都已經沒用，還得一起掉下英偉達高端 AI 算卡、千兆存儲還有取之不盡的無風險音視頻版權。

當然，無論是楊立昆的技術判斷，還是可能的監管難題，亦或是商業化的成本困境，這些對 Open AI 來說，都算不上最核心的問題。

真正讓 GPT-4o 類實時AI語音交互類產品現貨變期貨的根本原因，出在工程落地層面。

03 插著網線演示的 GPT-4o，還差一個好用的 RTC 助攻

一個業內心照不宣的秘密是，GPT-4o 類AI實時語音產品，在工程層面，只成功了一半。

GPT-4o 的發布會上，宣稱低延時的同時，有眼尖的用戶發現，演示視頻中的手機，還插著網線。這也就意味著：GPT-4o 官宣的平均 320ms 時延，很可能是固定設備、固定網絡、固定場景的 demo，在理想狀態下才能達成的實驗室指標。

OpenAI 的 GPT-4o 發布會現場明顯可見手機插線｜圖片來源：OpenAI

問題出在哪里？

從技術層面拆解，要實現 AI 實時語音通話，算法層面的三步合為一步，只是其中核心環節之一，另一個核心環節 RTC 通信層面，也面臨一系列技術挑戰。所謂 RTC，可以簡單地理解為在實時的網絡環境下進行音視頻的傳輸和交互, 是一種支持實時語音、實時視頻等互動的技術。

聲網音頻技術負責人陳若非告訴極客公園，在實際落地的應用場景中，用戶通常無法一直處于固定設備、固定網絡和固定物理環境下。在我們日常進行視頻通話場景中，一方的網絡不佳后，就會出現說話卡頓、延遲變高的現象，這種情況同樣會出現在 AI 實時語音通話中，所以低延時的傳輸、優異的網絡優化對 RTC 傳輸至關重要。

此外，多設備適配、音頻信號的處理等也是 AI 實時語音落地中不容忽視的技術環節。

如何解決這些問題？

答案就藏在 OpenAI 最新的招聘需求中，OpenAI 特地提到，要招聘工程人才，幫助他們把最先進的模型部署到 RTC 環境中。

具體的方案選擇上，GPT-4o 使用的 RTC 技術，是一種基于 WebRTC 的開源方案，可以在技術層面解決一定的時延，以及不同網絡環境帶來的丟包、通信內容安全，以及跨平臺的兼容問題。

然而開源的 B 面，則是產品化的薄弱。

舉個簡單的例子，多設備適配問題，RTC 的使用場景大多以手機為代表，但不同型號手機的通信、聲音采集能力千差萬別：目前蘋果手機已經可以做到大約幾十毫秒的穩定延時，但是生態較為復雜的 Android 生態，不僅機型多、高端與低端產品的性能差距也頗為明顯，部分低端型號設備，在采集與通信層面，時延就能高達幾百毫秒。

再比如，AI 實時語音應用場景中，人的語音信號可能會混雜了背景噪聲，需要進行復雜的信號處理，移除噪聲和回聲，確保干凈、高質量的語音輸入，讓 AI 更能聽懂人說的話。

多設備的兼容性、先進的音頻降噪的能力也正是開源 WebRTC 所欠缺的。

行業經驗，是開源產品在應用中的卡脖子難題。也是因此，相比開源方案，大模型廠商與專業的 RTC 方案商一起打磨共同優化，一定程度上更能代表未來的行業趨勢。

在 RTC 領域，聲網是最具代表性的廠商，曾因為對 Clubhouse 提供音頻技術而廣為人知，根據聲網官網的消息顯示，全球超 60% 泛娛樂 App 選擇聲網的 RTC 服務，除了國內知名的小米、B 站、陌陌、小紅書等 App 外，中東及北非地區最大的語音社交與娛樂平臺 Yalla、東南亞「社交直播平臺之王」Kumu、HTC VIVE 、The Meet Group、Bunch 等遍布全球的知名企業均采用了聲網的 RTC 技術。

行業經驗的積累，全球化客戶的打磨，更是技術領先的佐證。據陳若非介紹，聲網自研的 SD-RTN™ 實時傳輸網絡覆蓋了全球 200 多個國家與地區，音視頻的全球端到端延遲平均達到 200ms。針對網絡環境的波動，聲網的智能路由技術與抗弱網算法，可以保障通話的穩定性與流暢性。針對終端設備的差異性，聲網更是積累了全球上億 App 預裝以及對復雜環境適配積累的 know-how。

技術領先之外，行業經驗更是無形的壁壘。

事實上，這也是為什么這些年來，RTC 行業商業格局較為穩定的原因：做好 RTC，依靠的，從來不是大模型式的「大力出奇跡」。

日積月累的深耕細作，才是語音延遲極致優化和實時語音交互能普遍商用的唯一途徑。

而從這一角度來看，AI實時語音交互，是一場在想象力以及難度上都不應被低估的戰爭。

它的未來——算法、審核、RTC 一關一關都要過。要走完這漫長的道路，既要仰望技術的星空，更要腳踏工程化的實地。

01 實時語音，一條必經的AI 商業化路線

02 AI 實時語音，大力無奇跡

03 插著網線演示的 GPT-4o，還差一個好用的 RTC 助攻

最新文章

01 實時語音，一條必經的AI 商業化路線

02 AI 實時語音，大力無奇跡

03 插著網線演示的 GPT-4o，還差一個好用的 RTC 助攻