视觉语言模型第一好的场景为何是智能眼镜?

1个回答

写回答

1160167326

2026-01-24 04:04

+ 关注

汽车
汽车

莫名兴奋,结果兴奋过头没睡好。这是我在视觉语言模型里见过第二棒的应用场景(第一棒的场景?稍后再讲)。于是连夜请朋友帮忙申请权限,今天白天终于能用了。先回答问题的后半部分。这是产品,和模型对比显然不合适,应该问其背后的模型能否与GPT - 4o抗衡。不过说实话,我难以得出结论。其背后的模型可能是GLM - 4 - plus,基准测试之类的就不想列举了,毕竟如今的大模型,如果基准测试没有闪光点、没有超越GPT - 4o的地方,都不敢发布。但总体体验是否能与GPT - 4o相提并论,那就不好说了。那我就直接放测试视频了。效果超出我的预期,测试时虽闹了些笑话,但可用性已经很强了。例如其可解读网页内容。

能识别汽车品牌与型号,像这辆比亚迪就被识别出来了,型号也没错。

然而,它将小米SU7认成了保时捷Taycan。

比亚迪
比亚迪

真把我逗笑了两分钟。但也怪不得它,谁让它叫保时米,哈哈哈。我在今年早些时候就见过类似产品了,那是OpenAI和Be My Eyes合作的一个演示样本,功能差不多,开着手机摄像头,AI就会告知你眼前的事物。很多人不太了解Be My Eyes这款产品,它是供视障人士使用的。以前靠众多视力正常的志愿者在线给视障人士指路、讲解所见之物,这给视障者带来了方便与温暖。但志愿者数量有限,无法顾及所有人。GPT4上线后,该产品接入了ChatGPT,这确实能为更多视障人士提供帮助,这是OpenAI主页上对其功能的演示。

我期望智谱清言上线的视频通话功能,将来能成为中国的Be My Eyes,给视障人士带来福祉。智谱清言已上线视频通话功能,可对视障人士而言,此功能存在风险。大模型会有幻觉,人们口音也不同,要是语音指令识别出错,那给出的答案就会完全偏离,无法达到预期效果。而且,一个人长时间举着手机走路也很不方便。所以我才讲,这是我所见过视觉语言模型中第二佳的应用场景。那最佳的场景是哪一个?我觉得是智能眼镜。我近期购入了国外很热门的Rayban - Meta智能眼镜。在我看来,它的模型能力稍显不足(毕竟在眼镜上运行端侧模型,模型能力确实受限较大),不过它的应用场景非常棒。

眼镜右侧的小圆点实际上是个摄像头,你能够用它来拍照与录像。不过在我看来,最有趣的玩法是识别物体。眼镜配备了麦克风,镜腿上还有小喇叭,你喊一声Hey Meta就能唤醒AI,接着说describe what I see,模型就会自动识别你眼前的事物,再通过镜腿上的小喇叭告知你是什么。因为摄像头就在眼镜上,所以你看到的景象就是摄像头所拍摄到的。下面这张图是我和Meta眼镜的一段对话记录,图里的东西其实是网络赠送的中秋礼盒(嘻嘻,我有,羡慕吧),能看到图中的内容差不多都被识别出来了。

其实它所说的an item that appears to be clothing or fabric是把雨伞,只是我没将其叠起来,所以总体上也算是识别正确了。智谱当下要做的,就是赶快联系国内智能硬件方面顶尖的厂商,携手推出像Rayban - Meta眼镜那样的AI硬件。其实,这个提议不光智谱可以斟酌,其他智能硬件创业者也能考虑。讲真,要是能对Meta这款眼镜加以改造,把智谱的模型接入其中,就更符合我理想中完美智能眼镜的样子了。我都能想象到,在未来会有一款眼镜,成为视障者的眼睛。使用者不用喊唤醒指令,它就能实时探察前方道路,引导视障者沿正确路线行走,还可监测周边潜在危险,像乱窜的电瓶车、斑马线上不减速的车辆等。当然,现在还有不少问题待解决,像眼镜续航与重量的平衡、大模型的幻觉等。不过这么棒的设想,确实值得AI企业去努力实现。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号