科技創業週報 #515:鍵盤的終結與「聆聽」的文藝復興:OpenAI 開啟「Audio-First」時代

| |

本期觀點|
回想一下,你覺得和機器「說話」感覺到愉快是哪件事?是什麼時候?對於絕大多數人來說,這個問題的答案,可能是「想不起來」。
過去十多年,當語音指令被塞進電腦與 AI 產品裡,我們和 Siri、Alexa 或 Google Assistant 的互動,多半仍像是在做一種挫折感很強的指令輸入:「嘿 Siri,設定鬧鐘」、「嘿 Google,今天天氣如何」。這種互動僵硬、固定,而且缺乏情緒。我們不是在溝通,我們只是在用嘴巴打字。
OpenAI 近年把語音互動推到產品體驗的前台,外界也常用「Audio-First(語音優先)」來形容這種互動取向。以 GPT-4o 為代表的即時語音能力,讓「進階語音模式(Advanced Voice Mode)」開始更接近電影《雲端情人(Her)》裡描繪的那種自然對話感。它不只是多了一個功能,而更像是把人機互動的重心,從「人類去適應機器的語言(文字與指令)」推往「機器更貼近人的本能(語音、節奏與情緒線索)」。
當 AI 開始能跟上你的語速,聽得出你的停頓與猶豫,甚至能在你插話時即刻調整,商業、工業設計與社會互動的規則,都可能被重新改寫。

繼續閱讀⋯⋯
OpenAI Prioritizes Audio Innovation Amidst Silicon Valley’s Shift Away from Screen Dependency
文章指出 OpenAI 正全力投入開發能進行自然對話的音頻 AI 模型,目標是在 2026 年推出無需螢幕的個人化裝置。這種轉變不僅是為了提升 ChatGPT 的對話能力,更是為了打造一種全新的、不具侵入性的運算互動模式,讓使用者能從數位疲勞中解放,重新定義人機互動的未來。
ElevenLabs Conversational AI 2.0 voice agents now live
這篇文章介紹語音生成技術領導者 ElevenLabs 所發佈的「Conversational AI 2.0」,其最新的對話代理技術,重點在於突破性的「自然輪替」模型。這使得 AI 代理在客服與互動娛樂場景中,能展現出如同真人般的流暢對話節奏,大幅降低了傳統語音機器人的僵硬感。
Google Gemini Live Gets Major Upgrade: ChatGPT’s Voice Mode Faces Its Strongest Challenge
本文詳細介紹了 Google 針對其「Gemini Live」語音模式推出的重大更新,目的在與 OpenAI 直接競爭。此外,Google 也特別優化了針對聽障人士的輔助功能,顯示其在音頻優先策略上,不僅追求技術突破,更強調個人化與包容性體驗。
What is Hume AI? A practical 2025 overview of empathic voice AI
文章介紹了專注於「情感運算」的新創公司 Hume AI 及其核心產品「同理心語音介面(EVI)」,並指出,這種技術能讓開發者構建出真正「懂人心」的應用程式,使人機互動不再只是冰冷的資訊交換,而是具備情感共鳴的雙向交流,是音頻優先體驗的關鍵進化。


.

Photo by Dima Solomin on Unsplash
本文依 CC 創用姓名標示 - 非商業性 - 相同方式分享 4.0 國際釋出
Previous

鍵盤的終結與「聆聽」的文藝復興:OpenAI 開啟「Audio-First」時代

發佈留言

Share via
Copy link
Powered by Social Snap