aiOla 推出开源 AI 音频转录模型
对于希望利用人工智能模型来转录高管、员工和客户的人类语音音频的企业来说,它们可能会对人工智能程序监听和记录敏感信息的想法感到担忧。
然而,以色列音频人工智能初创公司aiOla推出了一种新模型,正是为了解决这一担忧。该模型名为Whisper-NER,基于OpenAI的行业标准开源模型Whisper构建。Whisper-NER本身也是完全开源的,现已在Hugging Face和Github上提供,供企业组织和个人获取、使用、适应、修改和部署。
它将自动语音识别(ASR)与命名实体识别(NER)相结合。这项创新的目的是通过在转录过程中自动识别并掩盖姓名、电话号码和地址等敏感信息来增强隐私保护。 用户还可以在Hugging Face上试用一个演示模型,该模型允许用户录制语音片段,并在生成的文字转录中掩盖他们键入的特定单词。在我简短的测试中,该模型成功掩盖了我说的话中的“VentureBeat”一词,这是一个专有名词和行业术语。 Whisper-NER解决了口语内容转录中的一个重大挑战:确保隐私并遵守数据保护法规。该模型处理音频文件的同时,直接在转录流程中应用NER来标记或掩盖特定类型的敏感信息。与传统的多步骤系统不同,后者在中间处理阶段会使数据暴露,而Whisper-NER消除了对单独的ASR和NER工具的需求,从而降低了数据泄露的风险。 “我们设计这个开源工具是为了推进人工智能领域的隐私保护,”aiOla研究副总裁Gill Hetz在最近与VentureBeat的视频通话采访中表示,“它帮助用户在无需额外软件步骤的情况下掩盖敏感数据。” 此前,aiOla因发布能够准确可靠地识别行业特定术语并进行转录的Whisper变体,以及一个更快、更高效的语音转文字和语音识别模型而备受瞩目。 面向社区与商业的全面开源解决方案 Whisper-NER作为全面开源的项目,遵循MIT许可证,赋予用户自由采用、定制及部署的权限,无论是非商业还是商业应用均不受限制。 该项目已在GitHub和Hugging Face平台上线,确保其尖端技术得以广泛传播。同时,我们提供了演示版本,助力用户深入了解其功能与适应性。 此开源举措与aiOla秉持的促进协作与创新理念不谋而合。 “人工智能的进步离不开人们的携手合作,”Hetz强调,“因此,我们选择将这一模型开源,以期激发社区的广泛采用与持续优化。” 语音处理与数据隐私的双重革新 Whisper-NER依托OpenAI的Whisper框架,通过融合合成语音与文本NER数据集进行独特训练。这一创新方法使模型能够同步完成转录与实体识别任务,显著提升准确性。 “我们打破了ASR转录与NLP实体提取的传统界限,实现了一体化处理,”Hetz解释道,“在文本提取的同时,模型即可识别出指定实体。” 这项集成技术已在开放获取的arXiv.org平台上发表的研究论文中详细阐述,它不仅简化了工作流程,更在数据安全方面取得了显著突破。 此外,Whisper-NER具备零样本学习能力,能够识别并掩盖训练过程中未明确包含的实体类型。其高度的灵活性使得该模型适用于合规监控、库存管理、质量保证等多种应用场景。 对于无需掩盖的场合,模型亦可配置为仅标记敏感实体,为各组织提供量身定制的解决方案。 “虽然医疗保健和法律等高度监管行业最能体现我们隐私保护技术的优势,但即便是对敏感数据要求不高的企业也能从中受益,”Hetz指出。 伦理AI与广泛适应性 Whisper-NER在推动伦理AI发展方面迈出了重要一步,它实现了安全、以隐私为核心的转录功能。其开源特性确保了开发者、研究人员及企业能够轻松集成该模型。通过降低数据泄露风险,它满足了医疗保健、法律服务及客户服务等领域对安全、智能解决方案的迫切需求。 “当前版本基于Whisper构建,以英语表现最佳,但同时也支持多种语言。我们鼓励开源社区的贡献者进一步拓展其语言覆盖范围和领域适应性,”Hetz补充道。aiOla诚邀全球开发者共同参与,共同推动模型的不断完善与拓展。 随着Whisper-NER的公开发布,aiOla再次彰显了其致力于打造负责任AI工具的决心,这些工具在保障用户隐私与安全的同时,也通过开放共享促进了协作与创新的蓬勃发展。
文章来源: AI音频时代