Kimi升级，图片识别多模态来了！

时间：2024-12-05 阅读：337

清华计算机系都这么卷么？

杨植麟的月之暗面——Kimi智能助手又偷摸更新了~

前段时间才推出Kimi的数学版思考模型“K0-Math”，现在又升级了Kimi的多模态能力，全面支持图片识别了！

什么是多模态？

多模态AI模型是指能够处理和融合多种类型数据（如图像、音频、文本等）的模型。这类模型能通过整合不同模态的数据来提供更丰富、更全面的认知能力。

这个功能其实市面上各大模型都已具备，只是Kimi比较晚。

没更新之前的Kimi是不支持直接识别图片的，只能通过OCR（光学字符识别）转换才能读懂图片内容。

老版本的Kimi↓

图片来源：百度智能云

而现在的Kimi，不仅能够很迅速的识别出图片上的文字。

并且还能理会图片的色彩，图形内容以及含义~

“理解一下图片内容，写一段文字给我，要求引经据典，押韵，要求契合图片风格，不能脱离图片主题”

Kimi的回答：

在这幅微距艺术的画卷中，小巧亭台立于绿叶丛。人物微观世界里行走，似入桃源，忘却尘世匆。

“一花一世界，一叶一追寻”，古语轻吟，意境深。微观之中见宏大，艺术之魂，匠心独运。

“山不在高，有仙则名”，亭虽小，却聚精气神。人物虽微，情意真，在这片叶上，演绎人生。

“采菊东篱下，悠然见南山”，微观世界，亦有桃源。在这片宁静的绿叶上，微距艺术，展现无限。

————

还别说，挺有哲学气的。

再来试试这一张，让老版本Kimi识别失败的篆文图片↓

这个回答，着实把我惊到了，连出处都安排得明明白白~

先不管对错否，咱们来对比下豆包的识别结果↓

“开业大吉”... 四个字就一个开字正确，对比起来确实有差距~

再来看看Claude3.5 sonnet，同样识别不出↓

再来看看GPT-4o的识别结果，经过我的反馈，识别正确↓

我只能说，模型之间的图片识别能力，亦有差距；在多模态功能（图片理解与推理能力）中来说。

Kimi的多模态实力很强！特别是面对中文数据的背景下更是遥遥领先~

Kimi真是，完美诠释了清华人的内卷精神。

不仅有着刚发布的K0-Math模型，在有了多模态能力的加持下，猛然间散发出一股斗宗强者的气魄。

而唯一不足的，就是Kimi的生成力（如图像生成，视频生成）。

但~

Kimi其实正在进行视频生成的灰度测试。。。

并且在不久就会迎来公测~即将补上它图像生成领域的缺口

这就是清华计算机系的实力吗？

月之暗面还有智谱AI，都与清华计算机系有着不可分割的渊源，这两大AI领域的独角兽，一直在给AI界带来一波又一波的“内卷”地震。

期待在未来，Kimi将带来的更多惊喜~

了解更多AI 资讯，可以加入我们的交流群一起沟通讨论~

群活码.jpg