5月8日OpenAI上线三款语音模型,GPT - Realtime - 2推理能力大幅提升,你看好谁接力?
5月8日OpenAI在API中加入三款新一代语音模型包括GPT - Realtime - 2、Realtime - Translate和Realtime - Whisper。其中GPT - Realtime - 2推理能力显著提升。GPT - Realtime - 2会“想”的语音助手它是OpenAI首个具备GPT - 5级别推理能力的语音模型。引入前导语机制有并行工具调用与工具透明性能力上下文窗口从32K扩展至128K还增强了专业术语理解能力有可调节的推理强度。基准测试完胜前代模型在Big Bench Audio评估中GPT - Realtime - 2high推理级别准确率达96.6%较GPT - Realtime - 1.5提升15.2个百分点在Audio MultiChallenge评测中平均通过率跃升至48.5%相对提升13.8个百分点。实时翻译与转录各有专攻GPT - Realtime - Translate专注实时多语言翻译支持超70种输入语言GPT - Realtime - Whisper是流式语音转文本模型适用于低延迟转录场景。安全与定价保障与成本Realtime API部署多层护栏开发者可叠加自定义安全护栏。GPT - Realtime - 2按语音token计费Translate和Whisper按时长计费。未来展望谁来接力OpenAI首席执行官提到人们用语音与AI互动的趋势。如今其语音推理能力上新下一个接力的会是谁值得期待。编辑观点OpenAI此次发布三款语音模型提升了语音AI水平。其在推理、翻译和转录方面的升级将推动语音交互发展后续竞争或更激烈。