4月28日隐喻“鲸鱼开眼”,DeepSeek识图模式灰度上线,迈入图文交互时代!
4月28日DeepSeek多模态团队研究员推文隐喻“鲸鱼开眼”次日开启“识图模式”灰度内测5月初大范围开放。该模式有亮点也有短板标志其迈入图文交互时代。事件回顾4月28日DeepSeek多模态团队研究员陈小康在X平台推文“Now, we see you.”并配图“鲸鱼开眼”隐喻传开后推文被删。4月29日开启“识图模式”灰度内测5月初大范围开放入口仍标注“图片理解功能内测中”。模式特点与常见OCR工具不同DeepSeek强调深度图像理解能理解场景氛围等。在文物鉴定、截图转码等场景表现亮眼非思考模式响应快一张800×800像素图像仅消耗约90 tokens。技术推测多方实测推测识图模式背后是独立于DeepSeek - V4 Flash/Pro的视觉理解模型基于特定框架是挂载在V4主干上的视觉模块与V4是两条独立技术线。模式短板在数手指、反色图片等极限测试中暴露短板如计数题易答错、复杂行测图形题非思考模式错误率高、知识库滞后等且不支持图像生成等功能部分图片格式无法上传。未来展望识图模式灰度上线标志DeepSeek从纯文本迈入图文交互时代是向完整多模态过渡的阶段性产品后续官方预告的Vision版本或承载更原生、更完整多模态功能。编辑观点DeepSeek识图模式的推出是其迈向多模态的重要一步虽有不足但潜力巨大未来Vision版本值得期待。