科技創業週報 #515：鍵盤的終結與「聆聽」的文藝復興：OpenAI 開啟「Audio-First」時代

本期觀點｜
回想一下，你覺得和機器「說話」感覺到愉快是哪件事？是什麼時候？對於絕大多數人來說，這個問題的答案，可能是「想不起來」。
過去十多年，當語音指令被塞進電腦與 AI 產品裡，我們和 Siri、Alexa 或 Google Assistant 的互動，多半仍像是在做一種挫折感很強的指令輸入：「嘿 Siri，設定鬧鐘」、「嘿 Google，今天天氣如何」。這種互動僵硬、固定，而且缺乏情緒。我們不是在溝通，我們只是在用嘴巴打字。
OpenAI 近年把語音互動推到產品體驗的前台，外界也常用「Audio-First（語音優先）」來形容這種互動取向。以 GPT-4o 為代表的即時語音能力，讓「進階語音模式（Advanced Voice Mode）」開始更接近電影《雲端情人（Her）》裡描繪的那種自然對話感。它不只是多了一個功能，而更像是把人機互動的重心，從「人類去適應機器的語言（文字與指令）」推往「機器更貼近人的本能（語音、節奏與情緒線索）」。
當 AI 開始能跟上你的語速，聽得出你的停頓與猶豫，甚至能在你插話時即刻調整，商業、工業設計與社會互動的規則，都可能被重新改寫。

繼續閱讀⋯⋯

OpenAI Prioritizes Audio Innovation Amidst Silicon Valley’s Shift Away from Screen Dependency
文章指出 OpenAI 正全力投入開發能進行自然對話的音頻 AI 模型，目標是在 2026 年推出無需螢幕的個人化裝置。這種轉變不僅是為了提升 ChatGPT 的對話能力，更是為了打造一種全新的、不具侵入性的運算互動模式，讓使用者能從數位疲勞中解放，重新定義人機互動的未來。

ElevenLabs Conversational AI 2.0 voice agents now live
這篇文章介紹語音生成技術領導者 ElevenLabs 所發佈的「Conversational AI 2.0」，其最新的對話代理技術，重點在於突破性的「自然輪替」模型。這使得 AI 代理在客服與互動娛樂場景中，能展現出如同真人般的流暢對話節奏，大幅降低了傳統語音機器人的僵硬感。

Google Gemini Live Gets Major Upgrade: ChatGPT’s Voice Mode Faces Its Strongest Challenge
本文詳細介紹了 Google 針對其「Gemini Live」語音模式推出的重大更新，目的在與 OpenAI 直接競爭。此外，Google 也特別優化了針對聽障人士的輔助功能，顯示其在音頻優先策略上，不僅追求技術突破，更強調個人化與包容性體驗。

What is Hume AI? A practical 2025 overview of empathic voice AI
文章介紹了專注於「情感運算」的新創公司 Hume AI 及其核心產品「同理心語音介面（EVI）」，並指出，這種技術能讓開發者構建出真正「懂人心」的應用程式，使人機互動不再只是冰冷的資訊交換，而是具備情感共鳴的雙向交流，是音頻優先體驗的關鍵進化。

Photo by Dima Solomin on Unsplash

本文依 CC 創用姓名標示 - 非商業性 - 相同方式分享 4.0 國際釋出

科技創業週報 #515：鍵盤的終結與「聆聽」的文藝復興：OpenAI 開啟「Audio-First」時代

Star Rocket 科技創業週報

每週三 為你精選的科技創新資訊補給

感謝您的訂閱

鍵盤的終結與「聆聽」的文藝復興：OpenAI 開啟「Audio-First」時代

從「炫技」到「隱形」：CES 2026 告訴我們，AI 已經是每天在呼吸的空氣，不再是個「話題」

每週三

為你精選的科技創新資訊補給