
中标
这个界面用于打电话,头像像是小飞象,不仅支持语音通话,还支持视频聊天功能。
这段视频是我实际录制的,从中可看出对话较为流畅,文字识别与理解基本准确无误。
图像和视频内容识别精准,比如视频里的文字,英文识别能力尤其突出,还能准确理解中英文含义,表现相当不错。它描述画面的准确率非常高。当然,也存在一些明显问题,比如幻觉问题,长时间对话时,大模型可能会天马行空,部分数学题也可能会出现识别错误的情况。此外,该语音TTS功能存在明显不足,流式输出效果不佳,声音割裂感强,伴有奇怪停顿,情感表现力匮乏,听感体验较为生硬。如此出色的功能,该如何体验?首先,需将APP更新至最新版本,方能查看申请链接。若不便操作,可点击下方飞书链接,直接填写飞书文档即可完成申请。
从效果看,这其实是首个版本,后续更新迭代值得期待。智谱开了个好头,国产大模型实力已足以与国外顶尖水平一较高下,未来可期。多模态交互,包括图像、语音和视频,是大模型发展的重要方向。结合端侧智能,不久的将来我们会看到更多令人惊叹的产品问世。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号