《实时语音模型进入 API：边听边推理、翻译与转写》

三款语音模型将实时对话、工具调用、翻译与低延迟转写能力带入 API，把语音从转文本升级为实时交互

🧠 agentic reading｜1️⃣ 精准输入

导语

OpenAI 同时推出三款实时音频模型，把语音从简单的呼叫-响应推向能“边听边推理、边翻译边转写、边对话边执行工具”的交互界面。GPT-Realtime-2 带来 GPT-5 级推理能力，GPT-Realtime-Translate 覆盖 70+ 输入语言的实时翻译，GPT-Realtime-Whisper 提供流式低延迟转写。

1. 语音正在成为产品界面的三种模式

开发者围绕语音 AI 构建了三种新兴模式。Voice-to-action：用户描述需求，系统推理并调用工具完成任务（如 Zillow 的房源搜索 + 预约看房）；Systems-to-voice：软件将上下文转化为实时语音指引（如旅行 App 主动播报航班延误与换乘路线）；Voice-to-voice：AI 帮助跨语言实时对话（如德国电信的多语言客服）。三种模式可叠加——Priceline 正在探索用语音管理整个旅程。

2. GPT-Realtime-2：推理与工具调用

这是首个具备 GPT-5 级推理能力的实时语音模型，核心改进包括：前置短语（“让我查一下”）让用户知道代理正在处理；并行工具调用且可语音播报进度；更强的恢复行为（出错时说“我在处理这个问题时遇到了困难”而非沉默失败）；上下文窗口从 32K 扩展到 128K，支持更长对话和复杂任务流；更好的专业术语保留、可控语气、可调推理强度（从 minimal 到 xhigh 五档）。在 Big Bench Audio 上比上一代高 15.2%，Audio MultiChallenge 上高 13.8%。Zillow 实测：经 prompt 优化后，最难对抗性基准的通话成功率从 69% 提升到 95%。

3. 实时翻译与实时转写

GPT-Realtime-Translate 支持 70+ 输入语言到 13 种输出语言的实时翻译，保持语义同时跟上说话节奏。BolnaAI 测试显示，在印地语、泰米尔语和泰卢固语上，词错误率比其他模型低 12.5%。 GPT-Realtime-Whisper 是流式语音转文字模型，为字幕、会议纪要、语音代理等场景提供低延迟转写。

结论

三款模型将实时音频从简单问答推向能够听、推理、翻译、转写并执行操作的语音界面。定价方面，Realtime-2 的音频输入 $32/1M token、输出 $64/1M token；Translate $0.034/分钟；Whisper $0.017/分钟。

思想框架

文章先用三种语音 AI 模式建立“语音作为产品界面”的框架，再逐一展开三款模型的能力与改进，穿插企业实测数据，最后以定价和可用性收束，整体是“需求场景→技术能力→市场验证”的递进结构。

Advancing voice intelligence with new models in the API

OpenAI Blog · 9 分钟

✍️ think & write｜2️⃣ 主动输出

用自己的话解释 Voice-to-action、Systems-to-voice、Voice-to-voice 三种语音 AI 模式的区别，并各举一个日报中未提到的应用场景。

GPT-Realtime-2 的上下文窗口从 32K 扩展到 128K，这对“代理式语音工作流”意味着什么？试用一个具体任务场景说明为什么更长的上下文窗口很重要。

我的笔记

✍️ 写下你的想法，自由记录即可。如果没有灵感，试着回答上方的费曼输出问题。

登录后可记笔记

登录后可保存笔记、高亮、划线和批注。