杨植麟的月之暗面——Kimi智能助手又偷摸更新了~前段时间才推出Kimi的数学版思考模型“K0-Math”,现在又升级了Kimi的多模态能力,全面支持图片识别了!多模态AI模型是指能够处理和融合多种类型数据(如图像、音频、文本等)的模型。这类模型能通过整合不同模态的数据来提供更丰富、更全面的认知能力。这个功能其实市面上各大模型都已具备,只是Kimi比较晚。没更新之前的Kimi是不支持直接识别图片的,只能通过OCR(光学字符识别)转换才能读懂图片内容。
老版本的Kimi↓
而现在的Kimi,不仅能够很迅速的识别出图片上的文字。
“理解一下图片内容,写一段文字给我,要求引经据典,押韵,要求契合图片风格,不能脱离图片主题”
在这幅微距艺术的画卷中, 小巧亭台立于绿叶丛。人物微观世界里行走, 似入桃源,忘却尘世匆。
“一花一世界,一叶一追寻”, 古语轻吟,意境深。微观之中见宏大, 艺术之魂,匠心独运。
“山不在高,有仙则名”, 亭虽小,却聚精气神。人物虽微,情意真, 在这片叶上,演绎人生。
“采菊东篱下,悠然见南山”, 微观世界,亦有桃源。在这片宁静的绿叶上, 微距艺术,展现无限。再来试试这一张,让老版本Kimi识别失败的篆文图片↓
这个回答,着实把我惊到了,连出处都安排得明明白白~“开业大吉”... 四个字就一个开字正确,对比起来确实有差距~
再来看看Claude3.5 sonnet,同样识别不出↓
再来看看GPT-4o的识别结果,经过我的反馈,识别正确↓
我只能说,模型之间的图片识别能力,亦有差距;在多模态功能(图片理解与推理能力)中来说。Kimi的多模态实力很强!特别是面对中文数据的背景下更是遥遥领先~不仅有着刚发布的K0-Math模型,在有了多模态能力的加持下,猛然间散发出一股斗宗强者的气魄。
而唯一不足的,就是Kimi的生成力(如图像生成,视频生成)。
并且在不久就会迎来公测~即将补上它图像生成领域的缺口月之暗面还有智谱AI,都与清华计算机系有着不可分割的渊源,这两大AI领域的独角兽,一直在给AI界带来一波又一波的“内卷”地震。
了解更多AI资讯,可以加入我们的交流群一起沟通讨论~
来源:卓尔谟AI部落