技术拐点之后,几百元的数字人比以前一百多万的效果更强。
文|袁滢靓
编辑|邓咏仪
来源|36氪Pro(ID:krkrpro)
封面来源|Open Photo
“智能涌现”获悉,智能数字人平台开发商“向量方程”,此前完成近千万元天使轮融资,由真成投资领投,北京极信管理咨询和上海天使会跟投。资金将用于丰富数字人产品技术的研发。“向量方程”成立于2024年3月14日,创始人&CEO沈仁奎为原得到/ 罗辑思维CTO,曾先后就职于腾讯和百度,联创团队具有百度、美团等互联网研发经验。产品“石榴数字人”为聚焦于亚洲人的一站式AI数字人视频创作平台,于今年6月开始商业化运作。短视频早已成为流量获客的王者,AI数字人更添一把火。海外AI视频生成公司Heygen,年化收入在14个月内从100万美元快速增长到3500万美元。国内预计到2025年,虚拟数字人的核心市场规模将达到480.6亿元人民币,腾讯、阿里、字节等也纷纷入局。沈仁奎向“智能涌现”透露,早在四年前他就萌生了做数字人的想法,只是一直在等到技术拐点的到来。“当看到一篇论文中提出的数字人新架构时,我意识到这就是自己一直在等待的、可商业化的技术。”他提到,“以往采集建模数据通常一天起步,现在3-5分钟就能迅速生成一个数字人。”数字人赛道正从上一代的3D引擎等技术栈向大模型靠拢,数字人的生产效率有很大提升——即便是低价位几百元做出来的数字人效果,也比以前一百多万的效果要强。在沈仁奎看来,因为技术负债少,公司“新”反而是优势。而在巨头的竞争中,新一代创业者的机会依旧存在。巨头的主要赛道是信息分发,而不是信息生产,并且他们即使入局也难以通吃标准化产品和服务。“石榴数字人”是典型的信息生产产品,能够将文本信息转为数字人视频,为内容创作提效。画面上,它的仿真程度高,能1:1重现真人视频的人物、场景、服装和动作。高质数据训练得到的优质底层模型,可以促进不同语种的嘴型对齐等任务,并大幅减少所需的数据量。与目前头部的视频生成厂商相比,“石榴数字人”录制视频所需时长较短,从以往的30分钟大幅缩短至了30秒。同时,“石榴数字人”更适应中文环境,在户外走动等动态场景中表现出优势,还可以实现多个数字人在同一画面中互动。声音上,TTS(Text To Speech,文本转语音)的机械音问题得到了解决,现在的发声更真实自然、抑扬顿挫。售价千元级的自研高阶版声音对标业内十万级别,可以个性化定制口音与发声习惯,更高质,也更适配场景。沈仁奎向“智能涌现”介绍,“石榴数字人”已实现全流程自动化定制数字人。一方面,用户在录制视频时无需注意对口型的细节,脸部扭动角度不超过30度即可。另一方面,系统能够处理中英文混排和复杂的数字场景,通过智能断句和上下文分析,实现自然流畅的输出。因为去除了人工干预成本,平台只按视频生成时长收费。对于高客单,“石榴数字人”还会提供AI助手,在微信对话窗口中实现抓字幕、改写和生成视频等交互功能。当前,国内许多产品聚焦于创作者生态,“石榴数字人”也推出了一键式视频创作服务,这是现阶段应用最广泛的场景。然而,沈仁奎认为,面向企业级市场的机会更大,且市场尚未饱和,是公司更关注的方向。在这条赛道上,“石榴数字人”为企业提供创新的视频解决方案,借助数字人和自动化技术,帮助企业快速生成大量视频内容,提升运营效率并加速效果优化。此外,“石榴数字人”计划拓展至互动视频领域,让数字人能够与观众进行实时互动,不再局限于静态展示。互动视频并不等同于直播,直播只是其中的一个应用场景之一。尽管数字人直播是未来的发展方向,沈仁奎表示当前仍在等待技术进一步成熟。“数字人直播的核心挑战不仅在于技术,更在于对行业需求的深刻理解,关键在于快速提炼出可操作的行业经验,并将其转化为用户友好的产品体验。”他补充道。目前,“石榴数字人”已成功实现商业化运营。未来,公司将持续优化产品功能,扩大市场布局,并吸引更多优秀人才,推动进一步发展。了解更多AI资讯,可以加入我们的交流群一起沟通讨论~