AI语音克隆Play AI完成新一轮2000万美元的种子轮融资

时间:2024-11-29   阅读:84

据 TechCrunch 报道,AI 语音 PlayAI 获得 Y Combinator 支持的公司完成了一轮由 500 Startups 和 Kindred Ventures 共同主导的 2000 万美元种子融资,使其总融资额达到 2100 万美元。Race Capital 和 500 Global 也参与了投资。

2016 年,Hammad Syed 和前 WhatsApp 工程师 Mahmoud Felfel 认为为 Medium 文章构建一个文本转语音的 Chrome 扩展会很不错。这个可以朗读任何 Medium 故事的扩展在 Product Hunt 上被推荐。一年后,它衍生出了一整个业务。

“我们看到帮助个人和组织为他们的应用程序创建真实音频内容的更大机会,”Syed 对 TechCrunch 说。“无需构建自己的模型,他们可以比以往更快地部署人类质量的语音体验。”

Syed 和 Felfel 的公司,PlayAI(前身为 PlayHT),自称为“人工智能的语音接口”。客户可以从多个预定义的声音中选择,或克隆一个声音,并使用 PlayAI 的 API 将文本转语音集成到他们的应用中。

切换按钮允许用户调整声音的语调、节奏和音色。

PlayAI 还提供了一个“游乐场”,用户可以上传文件以生成朗读版本,并提供一个仪表板,用于创建更精致的音频叙述和配音。最近,该公司进入了“AI 代理”领域,提供可以用于自动化任务的工具,例如在企业中接听客户电话。

1.png

PlayAI 的代理功能,围绕公司的文本转语音引擎构建自动化工具。

图片来源:PlayAI

PlayAI 的一个更有趣的实验是 PlayNote,它将 PDF、视频、照片、歌曲和其他文件转化为播客风格的节目、朗读摘要、一对一辩论,甚至儿童故事。像谷歌的NotebookLM一样,PlayNote 从上传的文件或 URL 生成脚本,并将其输入到一组 AI 模型中,这些模型共同制作出最终产品。

我试了一下,结果还不错。PlayNote 的“播客”设置在质量上与 NotebookLM 的相当,并且该工具能够处理照片和视频,创造出一些令人着迷的作品。考虑到我最近拍的一道鸡肉摩尔菜的照片,PlayNote 为此写了一段五分钟的播客脚本。确实,我们正生活在未来。

当然,这个工具和所有人工智能工具一样,偶尔会生成奇怪的伪影和幻觉。虽然 PlayNote 会尽力将文件适应您选择的格式,但不要指望,比如说,干燥的法律文件会成为最佳的素材来源。请参见:将Musk 诉 OpenAI 的诉讼框架化为睡前故事:

PlayNote 的播客格式得益于 PlayAI 最新的模型 PlayDialog,Syed 表示该模型可以利用对话的“上下文和历史”来生成反映对话流程的语音。“利用对话的历史上下文来控制韵律、情感和节奏,PlayDialog 提供自然的对话表达和恰当的语调,”他继续说道。

PlayAI 与 ElevenLabs 是近乎竞争对手,过去因其对安全的放任态度而受到批评。该公司的声音克隆工具要求用户勾选一个框,表明他们“拥有所有必要的权利或同意”来克隆声音——但并没有任何执行机制。我在从录音中创建卡马拉·哈里斯的声音克隆时没有遇到任何问题。

这令人担忧,因为存在诈骗和深度伪造的潜在风险。

2.png

PlayAI 的 PlayDialog 模型可以生成为期两天的“双向”对话,听起来相对自然。

图片来源:PlayAI

PlayAI 还声称它会自动检测和阻止“性、攻击性、种族歧视或威胁性内容”。但在我的测试中并非如此。我使用 Harris 克隆生成了我坦率地无法在这里嵌入的语音,且从未看到过警告信息。

与此同时,PlayNote 的社区门户充满了公众生成的内容,包含有明确标题的文件。

Syed 告诉我,PlayAI 会对未经同意的声音克隆报告作出回应,像这个,通过封锁责任用户并立即删除克隆声音。他还指出,PlayAI 的高保真声音克隆需要 20 分钟的声音样本,价格比大多数骗子愿意支付的要高(每年收费 49 美元或每月 99 美元)。

“PlayAI 有几个伦理保障措施,”赛义德说。“例如,我们已经实施了强有力的机制来识别声音是否是使用我们的技术合成的。如果有任何不当使用被报告,我们会迅速核实内容的来源,并采取果断措施来纠正情况并防止进一步的伦理违规。”

我当然希望情况是这样的——并且希望 PlayAI 能够远离以已故科技名人为特色的营销活动。如果 PlayAI 的内容审核不够严格,它可能会面临来自田纳西州的法律挑战,该州有法律禁止平台使用 AI 未经授权录制个人声音。

PlayAI 在训练其声音克隆 AI 的方法上也有些模糊。该公司不会透露其模型数据的来源,表面上是出于竞争原因。

“PlayAI 主要使用开放数据集,[以及许可数据]和内部构建的专有数据集,”Syed 说。“我们不使用产品中的用户数据或创作者数据来训练模型。我们的模型是在数百万小时的真实人类语音上训练的,提供多种语言和口音的男性和女性声音。”

大多数人工智能模型是在公共网络数据上训练的——其中一些可能是受版权保护或有严格许可的。许多人工智能供应商辩称,合理使用原则保护他们免受版权索赔。但这并没有阻止数据所有者对提起集体诉讼,指控供应商在未获许可的情况下使用他们的数据。

PlayAI 尚未被起诉。然而,其服务条款建议如果用户面临法律威胁,它不会为用户辩护。

像 PlayAI 这样的声音克隆平台面临来自演员的批评,他们担心声音工作最终会被人工智能生成的声音取代,并且演员对他们的数字替身如何被使用几乎没有控制权。

好莱坞演员工会 SAG-AFTRA 与一些初创公司达成了协议,包括在线人才市场 Narrativ 和 Replica Studios,称其为“公平”和“道德”的声音克隆安排。但即便这些合作也受到严格审查,包括来自 SAG-AFTRA 自身成员的审查。

在加利福尼亚州,法律要求依赖表演者数字复制品(例如克隆声音)的公司提供复制品预期用途的描述,并与表演者的法律顾问进行协商。法律还要求娱乐雇主在使用已故表演者的数字克隆之前获得其遗产的同意。

Syed 表示,PlayAI“保证”通过其平台生成的每个声音克隆都是创作者独有的。“这种独特性对于保护用户的创作权利至关重要,”他补充道。

日益增加的法律负担是 PlayAI 面临的一个逆风。另一个是竞争。Papercup、Deepdub、Acapela、Respeecher和Voice.ai,以及大型科技公司亚马逊、微软和谷歌,提供 AI 配音和语音克隆工具。上述的 ElevenLabs,作为最知名的语音克隆供应商之一,据说正在以超过 30 亿美元的估值筹集新资金。

PlayAI 并没有在寻找投资者方面遇到困难。本月,这家获得 Y Combinator 支持的公司完成了一轮由 500 Startups 和 Kindred Ventures 共同主导的 2000 万美元种子融资,使其总融资额达到 2100 万美元。Race Capital 和 500 Global 也参与了投资。

“新资本将用于投资我们的生成式人工智能语音模型和语音代理平台,并缩短企业构建人类质量语音体验的时间,”Syed 说,并补充道 PlayAI 计划扩大其 40 人的员工队伍。


了解更多AI资讯,可以加入我们的交流群一起沟通讨论~

群活码.jpg

文章来源: Z Potentials

上一篇:Black Forest Labs AI获a16z领投2亿美元融资

下一篇:炉米Lumi