🧀芝士内参
每日精读 · 用中文阅读世界← 返回首页
← 返回关于往期...

阅读库

《实时语音模型进入 API:边听边推理、翻译与转写》

三款语音模型将实时对话、工具调用、翻译与低延迟转写能力带入 API,把语音从转文本升级为实时交互

🧠 agentic reading|1️⃣ 精准输入

导语

OpenAI 同时推出三款实时音频模型,把语音从简单的呼叫-响应推向能“边听边推理、边翻译边转写、边对话边执行工具”的交互界面。GPT-Realtime-2 带来 GPT-5 级推理能力,GPT-Realtime-Translate 覆盖 70+ 输入语言的实时翻译,GPT-Realtime-Whisper 提供流式低延迟转写。

1. 语音正在成为产品界面的三种模式

开发者围绕语音 AI 构建了三种新兴模式。Voice-to-action:用户描述需求,系统推理并调用工具完成任务(如 Zillow 的房源搜索 + 预约看房);Systems-to-voice:软件将上下文转化为实时语音指引(如旅行 App 主动播报航班延误与换乘路线);Voice-to-voice:AI 帮助跨语言实时对话(如德国电信的多语言客服)。三种模式可叠加——Priceline 正在探索用语音管理整个旅程。

2. GPT-Realtime-2:推理与工具调用

这是首个具备 GPT-5 级推理能力的实时语音模型,核心改进包括:前置短语(“让我查一下”)让用户知道代理正在处理;并行工具调用且可语音播报进度;更强的恢复行为(出错时说“我在处理这个问题时遇到了困难”而非沉默失败);上下文窗口从 32K 扩展到 128K,支持更长对话和复杂任务流;更好的专业术语保留、可控语气、可调推理强度(从 minimal 到 xhigh 五档)。在 Big Bench Audio 上比上一代高 15.2%,Audio MultiChallenge 上高 13.8%。Zillow 实测:经 prompt 优化后,最难对抗性基准的通话成功率从 69% 提升到 95%。

Beta Free

注册芝士内参,免费阅读全部文章

内测期全部免费开放,正式版 ¥9.9/月 · ¥99/年。

我的笔记

✍️ 写下你的想法,自由记录即可。如果没有灵感,试着回答上方的费曼输出问题。

登录后可记笔记

登录后可保存笔记、高亮、划线和批注。

© 2026 芝士内参 · Curated by 读书芝士

追寻知识源头,推动认知迭代