
汽车
能识别汽车品牌与型号,像这辆比亚迪就被识别出来了,型号也没错。
然而,它将小米SU7认成了保时捷Taycan。

比亚迪
我期望智谱清言上线的视频通话功能,将来能成为中国的Be My Eyes,给视障人士带来福祉。智谱清言已上线视频通话功能,可对视障人士而言,此功能存在风险。大模型会有幻觉,人们口音也不同,要是语音指令识别出错,那给出的答案就会完全偏离,无法达到预期效果。而且,一个人长时间举着手机走路也很不方便。所以我才讲,这是我所见过视觉语言模型中第二佳的应用场景。那最佳的场景是哪一个?我觉得是智能眼镜。我近期购入了国外很热门的Rayban - Meta智能眼镜。在我看来,它的模型能力稍显不足(毕竟在眼镜上运行端侧模型,模型能力确实受限较大),不过它的应用场景非常棒。
眼镜右侧的小圆点实际上是个摄像头,你能够用它来拍照与录像。不过在我看来,最有趣的玩法是识别物体。眼镜配备了麦克风,镜腿上还有小喇叭,你喊一声Hey Meta就能唤醒AI,接着说describe what I see,模型就会自动识别你眼前的事物,再通过镜腿上的小喇叭告知你是什么。因为摄像头就在眼镜上,所以你看到的景象就是摄像头所拍摄到的。下面这张图是我和Meta眼镜的一段对话记录,图里的东西其实是网络赠送的中秋礼盒(嘻嘻,我有,羡慕吧),能看到图中的内容差不多都被识别出来了。
其实它所说的an item that appears to be clothing or fabric是把雨伞,只是我没将其叠起来,所以总体上也算是识别正确了。智谱当下要做的,就是赶快联系国内智能硬件方面顶尖的厂商,携手推出像Rayban - Meta眼镜那样的AI硬件。其实,这个提议不光智谱可以斟酌,其他智能硬件创业者也能考虑。讲真,要是能对Meta这款眼镜加以改造,把智谱的模型接入其中,就更符合我理想中完美智能眼镜的样子了。我都能想象到,在未来会有一款眼镜,成为视障者的眼睛。使用者不用喊唤醒指令,它就能实时探察前方道路,引导视障者沿正确路线行走,还可监测周边潜在危险,像乱窜的电瓶车、斑马线上不减速的车辆等。当然,现在还有不少问题待解决,像眼镜续航与重量的平衡、大模型的幻觉等。不过这么棒的设想,确实值得AI企业去努力实现。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号