谷歌开发的NotebookLM AI爆火,一键生成自然逼真的播客
NotebookLM 是谷歌开发的一款实验性的 AI 云笔记应用。它基于用户上传的内容,结合 Google Gemini 和 RAG 技术,完成文本摘要、问答、创作等任务,是个性化的笔记助手。 让 NotebookLM 真正出圈的是近期加入的 Audio Overview 能力。用户提供的内容将一键转化为引人入胜的对话式播客。因为效果过于自然逼真,Andrej Karpathy 也给出盛赞称其点亮了 LLM 的新交互范式。 人类世界充满了听觉信息,Audio Overview 非常适合将高密度文字内容转化为适合听觉的材料。可以预见知识类信息的生产和消费将会发生重大变化,ai 还在持续革命人类的学习方式。
NotebookLM 是谷歌开发的一款实验性的 AI 驱动的云笔记本应用。它结合了 Gemini 1.5 Pro 的长文本理解和多模态能力,能够处理和分析用户上传的文档内容,包括 Google 文档、幻灯片、PDF、文本文件、网页链接等。
NotebookLM 会基于用户提供的资料,结合 LLM 和 RAG(检索增强生成)能力执行各种任务,例如生成摘要、提纲、常见问题解答、学习指南等内容。
与对话或者搜索形式的 AI 产品相比,NotebookLM 更注重信息的组织、检索和验证。更适合需要精确引用和深入研究特定资料的场景,如学习研究、法律分析、商业报告等。
(图源:NotebookLM )
至此,NotebookLM 作为一个技术大厂的实验型产品,只能称得上中规中矩。让 NotebookLM 一举出圈的,是近期新加入 Audio Overview(音频概览)。Audio Overview 直译为“音频概览”并不能完全反映它的能力,因为它比文本摘要更进一步,不仅提取了关键信息,还像真人对话一样将话题娓娓道来,两个对话人有时停顿,有时欢笑,深入浅出引人入胜。ZP 上传了网传NotebookLM技术来源的论文,仅几分钟就生成了关于这篇论文的评述,效果惊艳。
(图源:Z Potentials )
02 Karpathy 盛赞,点亮 LLM 的交互新范式
前 OpenAI 科学家 Andrej Karpathy 也对 NotebookLM 的 Audio overview 给出盛赞,认为 NotebookLM 像 ChatGPT 一样,点亮了用户与 LLM 交互的新方式。
(图源:Twitter@Karpathy)
Karpathy 认为大型语言模型的能力正在迅速提升,包括智能水平(IQ)、记忆能力(上下文长度)、多模态处理等方面。相比之下,将这些能力打包成实际产品的用户界面和用户体验(UIux)设计却相对滞后。
NotebookLM 将双人对话播客的形式,作为主要的用户界面,解决了使用大型语言模型时的两个主要'享受障碍”:一是用户常常不知道该说什么或问什么,在双人播客格式中,提问的任务也交给了 AI。二是,阅读需要付出努力,播客格式让用户可以轻松地倾听。
03 知识内容生产和消费方式彻底改变
Audio Overview 之所以听起来如此出色,业界人士推测关键线索可能在于 Google Research 的项目之一 SoundStorm。SoundStorm 项目可以根据脚本和两种不同声音的简短音频示例,生成引人入胜的完整对话音频,生成速度很快在 TPU-v4 上能在 0.5 秒内生成 30 秒的音频。此外,SoundStorm 的论文提到,它可以通过提示可靠地控制说话者特征
Audio overview 是否脱胎于 SoundStorm 尚未可知,用户侧的反响和创意用法确是实在发生了。
有用户用 NotebookLM 生成一本书的书评:
(图源:Twitter @adri_barreda)
有用户将 4 个小时的超长播客生成为 11 分钟的播客:
(图源:Twitter @shinybraindev)
还有人上传 200 页文件,生成了今日说法栏目:
(图源:Twitter @omooretweets)
人类世界充满了听觉信息,Audio Overview 非常适合将高密度文字内容转化为适合听觉的材料。可以预见知识类信息的生产和消费将会发生重大变化,AI 还在持续革命人类的学习方式。
来源:Z Potentials