Kimi升级,图片识别多模态来了!

时间:2024-12-05   阅读:169
清华计算机系都这么卷么?

杨植麟的月之暗面——Kimi智能助手又偷摸更新了~
前段时间才推出Kimi的数学版思考模型“K0-Math”,现在又升级了Kimi的多模态能力,全面支持图片识别了!
1.png
什么是多模态?
多模态AI模型是指能够处理和融合多种类型数据(如图像、音频、文本等)的模型。这类模型能通过整合不同模态的数据来提供更丰富、更全面的认知能力。
这个功能其实市面上各大模型都已具备,只是Kimi比较晚。
没更新之前的Kimi是不支持直接识别图片的,只能通过OCR(光学字符识别)转换才能读懂图片内容。

老版本的Kimi↓

2.png

3.jpg

图片来源:百度智能云
而现在的Kimi,不仅能够很迅速的识别出图片上的文字。
并且还能理会图片的色彩,图形内容以及含义~
理解一下图片内容,写一段文字给我,要求引经据典,押韵,要求契合图片风格,不能脱离图片主题”
4.jpg
Kimi的回答:

在这幅微距艺术的画卷中, 小巧亭台立于绿叶丛。人物微观世界里行走, 似入桃源,忘却尘世匆。

“一花一世界,一叶一追寻”, 古语轻吟,意境深。微观之中见宏大, 艺术之魂,匠心独运。

“山不在高,有仙则名”, 亭虽小,却聚精气神。人物虽微,情意真, 在这片叶上,演绎人生。

“采菊东篱下,悠然见南山”, 微观世界,亦有桃源。在这片宁静的绿叶上, 微距艺术,展现无限。
————
还别说,挺有哲学气的。
再来试试这一张,让老版本Kimi识别失败的篆文图片↓
6.png5.png
这个回答,着实把我惊到了,连出处都安排得明明白白~
先不管对错否,咱们来对比下豆包的识别结果↓
7.png
“开业大吉”... 四个字就一个开字正确,对比起来确实有差距~
再来看看Claude3.5 sonnet,同样识别不出↓
8.png

再来看看GPT-4o的识别结果,经过我的反馈,识别正确↓
9.png
我只能说,模型之间的图片识别能力,亦有差距;在多模态功能(图片理解与推理能力)中来说。
Kimi的多模态实力很强!特别是面对中文数据的背景下更是遥遥领先~
Kimi真是,完美诠释了清华人的内卷精神。
不仅有着刚发布的K0-Math模型,在有了多模态能力的加持下,猛然间散发出一股斗宗强者的气魄。

10.jpg

而唯一不足的,就是Kimi的生成力(如图像生成,视频生成)。
但~
Kimi其实正在进行视频生成的灰度测试。。。
并且在不久就会迎来公测~即将补上它图像生成领域的缺口
这就是清华计算机系的实力吗?
月之暗面还有智谱AI,都与清华计算机系有着不可分割的渊源,这两大AI领域的独角兽,一直在给AI界带来一波又一波的“内卷”地震。
期待在未来,Kimi将带来的更多惊喜~

了解更多AI资讯,可以加入我们的交流群一起沟通讨论~

群活码.jpg

来源:卓尔谟AI部落



上一篇:AI心理疗愈赛道竞争激烈,轻轻松松融资千万美元?

下一篇:Arcade视觉叙事平台完成 1400 万美元 A 轮融资