视觉语言模型第一好的场景为何是智能眼镜？

1个回答

1160167326

2026-01-24 04:04

汽车

莫名兴奋，结果兴奋过头没睡好。这是我在视觉语言模型里见过第二棒的应用场景（第一棒的场景？稍后再讲）。于是连夜请朋友帮忙申请权限，今天白天终于能用了。先回答问题的后半部分。这是产品，和模型对比显然不合适，应该问其背后的模型能否与GPT - 4o抗衡。不过说实话，我难以得出结论。其背后的模型可能是GLM - 4 - plus，基准测试之类的就不想列举了，毕竟如今的大模型，如果基准测试没有闪光点、没有超越GPT - 4o的地方，都不敢发布。但总体体验是否能与GPT - 4o相提并论，那就不好说了。那我就直接放测试视频了。效果超出我的预期，测试时虽闹了些笑话，但可用性已经很强了。例如其可解读网页内容。

能识别汽车品牌与型号，像这辆比亚迪就被识别出来了，型号也没错。

然而，它将小米SU7认成了保时捷Taycan。

比亚迪

真把我逗笑了两分钟。但也怪不得它，谁让它叫保时米，哈哈哈。我在今年早些时候就见过类似产品了，那是OpenAI和Be My Eyes合作的一个演示样本，功能差不多，开着手机摄像头，AI就会告知你眼前的事物。很多人不太了解Be My Eyes这款产品，它是供视障人士使用的。以前靠众多视力正常的志愿者在线给视障人士指路、讲解所见之物，这给视障者带来了方便与温暖。但志愿者数量有限，无法顾及所有人。GPT4上线后，该产品接入了ChatGPT，这确实能为更多视障人士提供帮助，这是OpenAI主页上对其功能的演示。

我期望智谱清言上线的视频通话功能，将来能成为中国的Be My Eyes，给视障人士带来福祉。智谱清言已上线视频通话功能，可对视障人士而言，此功能存在风险。大模型会有幻觉，人们口音也不同，要是语音指令识别出错，那给出的答案就会完全偏离，无法达到预期效果。而且，一个人长时间举着手机走路也很不方便。所以我才讲，这是我所见过视觉语言模型中第二佳的应用场景。那最佳的场景是哪一个？我觉得是智能眼镜。我近期购入了国外很热门的Rayban - Meta智能眼镜。在我看来，它的模型能力稍显不足（毕竟在眼镜上运行端侧模型，模型能力确实受限较大），不过它的应用场景非常棒。

眼镜右侧的小圆点实际上是个摄像头，你能够用它来拍照与录像。不过在我看来，最有趣的玩法是识别物体。眼镜配备了麦克风，镜腿上还有小喇叭，你喊一声Hey Meta就能唤醒AI，接着说describe what I see，模型就会自动识别你眼前的事物，再通过镜腿上的小喇叭告知你是什么。因为摄像头就在眼镜上，所以你看到的景象就是摄像头所拍摄到的。下面这张图是我和Meta眼镜的一段对话记录，图里的东西其实是网络赠送的中秋礼盒（嘻嘻，我有，羡慕吧），能看到图中的内容差不多都被识别出来了。

其实它所说的an item that appears to be clothing or fabric是把雨伞，只是我没将其叠起来，所以总体上也算是识别正确了。智谱当下要做的，就是赶快联系国内智能硬件方面顶尖的厂商，携手推出像Rayban - Meta眼镜那样的AI硬件。其实，这个提议不光智谱可以斟酌，其他智能硬件创业者也能考虑。讲真，要是能对Meta这款眼镜加以改造，把智谱的模型接入其中，就更符合我理想中完美智能眼镜的样子了。我都能想象到，在未来会有一款眼镜，成为视障者的眼睛。使用者不用喊唤醒指令，它就能实时探察前方道路，引导视障者沿正确路线行走，还可监测周边潜在危险，像乱窜的电瓶车、斑马线上不减速的车辆等。当然，现在还有不少问题待解决，像眼镜续航与重量的平衡、大模型的幻觉等。不过这么棒的设想，确实值得AI企业去努力实现。

举报有用（0）分享收藏

视觉语言模型第一好的场景为何是智能眼镜？

1个回答

1160167326

热门话题

相关问题