首款国产AI搜索横空出世，革了传统搜索引擎的命！无限追问，告别广告

时间：2023-08-25 阅读：1524

新智元报道

编辑：编辑部

【新智元导读】大模型时代的搜索范式革命已经开启，AI技术将彻底改变搜索体验。第一家国产AI搜索引擎已经落地。

在大模型时代，我们需要什么样的搜索？

ChatGPT石破天惊地出现，让所有人都意识到：人类接受和处理信息的模式，是时候重构了。

此前，一位UC伯克利教授曾给出惊人预测，2030年的GPT，一天可以学习人类需要学2500年的知识。

虽然暂时还无法和硅基生命在这个赛道上一分高下，但毫无疑问，在知识爆炸、信息过载的时代，我们需要的信息，绝不仅仅是简单的搜索后随意堆叠在眼前的、未经咀嚼的「生食」。

我们需要的是「成品」，是更懂人心的搜索工具，更真实、更实用的信息，和更权威更可靠的信息来源。

如果这个工具足够善解人意，能够准确猜到我们的意图，通过切中的追问为我们提供源源不断的启发，就更完美了。

现在，以上这些都不再是幻想！

就在前天，昆仑万维正式推出了国内第一款融入大语言模型的搜索引擎——天工AI搜索，并同时开启内测申请（内测地址：tiangong.cn)。

作为参加内测的首批用户，经过两天的深度体验后，小编觉得：比传统搜索智能、比GPT-4实时，比其他AI搜索准确。

传统搜索的奇点时刻，真的来了！

搜索如何迈入AI时代

完胜了这么多对手，天工AI搜索究竟是怎么做到的？

小编体验后最强烈的感受就是——第一次，搜索变得人性化了。

智能检索，全面总结

在传统的搜索引擎中，我们会输入关键词，随之扑面而来的，就是茫茫的海量信息。

在这无穷的可能性中，我们需要浪费数不清的时间，像「寻宝」一样探索，最终还未必有结果。

而基于大模型能力的AI搜索，是一种生成式搜索，用户可通过自然语言清晰表达自己的意图，AI搜索提供的是经过组织和提炼后的答案，不是「信息」，而是「知识」。

大模型带来的整合、提炼、串联信息的能力，让AI搜索能更好地应对开放式问题。处理知识类和创意类搜索时，表现也完爆传统搜索引擎。

就天工AI搜索来说，它与传统的搜索引擎类似，会首先将搜索结果的信息源展示出来。

然后，再给出由AI大模型生成的总结。

最后再配上由AI生成的追问，形成的「链接——回答——追问」的结果呈现方式。

而且，基于对上下文语意的理解，天工AI搜索能够以AI总结+多轮对话的方式，不断帮助用户发掘自己真正的搜索意图，解决用户的实际问题和困难，并且实现对复杂问题的深入研究。

比如，假如我们现在需要减肥，但对此毫无了解，在传统的搜索引擎中输入「如何10天瘦十斤」，然后就要面对海量的链接。

天工AI搜索中，给出的不是孤立的链接，而是有机串连的结果。

这样的好处在于，避免了传统搜索中「一堆链接无序地砸到脸上」的情况，不必担心信息过载。我们理解信息的速度和全面性，都会大大提高。

因为天工AI搜索将链接放在上下文之中，有机地梳理、呈现出来，让用户一眼就能把握住要点。

基于上述回答，我们可以很自然地分别对运动和饮食两个核心方法，进行进一步的追问。

根据它提供的追问，我们接下来可以问：该怎么规划饮食。

回答非常靠谱，没有AI自己杜撰的「机器料理」，也很好地满足了只有「牛肉和鸡肉」这个条件。

最后，我们可以让它根据菜谱，总结一份超市购物清单。

短短10分钟，我们就得到一个完整的减肥方案，操作性极强。

让一个健身小白，在网上茫茫多的「信息」之中，成功获取到了能指导自己减肥的「知识」！

总结来看，传统搜索引擎给出的结果，是根据各家算法获得的链接和问题的相关性做出排名后，由高到低呈现出来。各个链接之间的逻辑永远都只是一个抽象的相关性排名、高的在前，低的在后。

而天工AI搜索，是传统搜索的智能化版本，它能够通过大语言模型将各个链接的内容，以及之间可能存在的逻辑联系总结概括出来，从而帮助用户更快更好地获得对自己有帮助的回答。

顺便，小编也向Bing Chat提出了同样的问题，然而它的回答就很敷衍。

只是罗列了几种食品的排列组合。完全无视了5天不重样的要求。

与此同时，天工AI搜索还通过大模型实现了对广告网页的识别和筛选，解决了传统搜索引擎中无处不在的广告问题。

如此一来，也就确保了用户能够获得纯净、高质量的搜索结果，完全不用担心自己在使用过程中会受到广告的误导。

接下来，让我们仔细剖解一下，天工AI搜索的几个独特「超能力」。

无限追问，环环相扣

这些能力中，最令小编印象深刻的，无疑就是「无限追问」。

在使用传统搜索时，如果我们想要继续深入了解某话题，不仅需要从头开始一轮新的搜索，而且在加入新的关键词的同时，还得思考需要保留哪些旧的关键词，才能让搜索引擎不跑题。

此外，为了便于回溯之前查询的答案，我们还不得不保留多个浏览器标签页，操作起来极其繁琐。

而天工AI搜索，却可以通过20多轮交互展开深度探索，推着我们向终极答案一步步逼近。

就拿天工大模型刚刚发布时，轻松搞定的那道自家算法工程师面试题为例。

在经过一番「上网学习」之后，天工AI搜索很快就给出了基于二分法的Python实现。

紧接着，天工AI搜索又根据问题本身以及自己用到的方法，给出了三个更进一步的追问。

显然，如果我们想更加深入地学习这道题的解法，直接点击问题一即可。

针对这个问题，天工AI搜索除了对之前所用的「二分法」进行了解析外，给出了「插值法」和「斐波那契法」这两种新的方法。

如果想进一步了解插值法的相关实现，直接告诉天工AI搜索就可以了，完全不用重复之前的问题。

在使用天工AI搜索的「追问」时，小编忽然感到，这个过程如此似曾相识。

古希腊哲学，就是一门纵深追问与精密逻辑的系统。穷尽万物、寻其根本，在追问中，人类探寻着宇宙本源。

看来，无论是形而上的学习一门新知识，还是具体到写一篇学术论文，天工AI搜索在辅助我们打开思路、展开推理的过程中，一定大有可为。

追根溯源，回答可靠

在不断追问中，天工AI搜索帮我们解惑，但又如何确认这个答案就是正确的呢？

传统搜索的一大痛点，就是不同来源的信息鱼龙混杂。另一面，大模型的生成机制，也无法避免「一本正经地胡说八道」现象。

这里，天工AI搜索的另一大特点，就是在所有回答下方，列出了信源索引，供我们验证信息。

由此，任何一个人可以考察回答的准确性，进而保障了答案可追溯、可考证、可信赖。

就比如，让天工AI搜索解答大型语言模型发展前景是什么？

天工AI搜索给出4种发展趋势，并在回答上方，列出了6条信息信源，覆盖了知乎等各种媒体来源。

如果无法确认第2个要点，可以根据标注的来源，翻阅全文去进一步了解。

又或者对第3点有疑问，查阅第6个链接。

此外，每轮搜索结果，都会保留在历史记录中，方便随时查找，甚至，还可以一键分享给他人。

量身定做，千人千面

大模型的赋能，使意图识别成为可能，「更懂人心」的天工AI搜索，会给我们更精准、更个性化的答案。

第一次，我们在搜索上得到了「量身定做」、「千人千面」式的体验。

小编分别开了两个问题，设定了不同的初始体重，请天工AI搜索帮我制定减肥健身计划。

天工AI搜索给出的回答和追问中，针对大体重人群，专门强调了运动减肥的安全性，提醒用户要避免运动伤病。

而在追问和回答当中，甚至专门提出了「低冲击有氧运动」的方式，防止减肥过程中给身体造成损害。

而在另一个问题当中，我们将体重设置在80公斤时，天工AI搜索给出的回答和追问中就不涉及避免运动伤痛，而是强调运动效果和运动习惯养成。

用户使用追问进一步提问后获得的回答以及追问和150公斤设定也下会有非常大的区别。

同样是提问健身减肥，只要用户能向天工AI搜索提供尽量多的细节，就会得到更加定制化的搜索结果和回复。

这种「量身定做」「千人千面」的定制化搜索体验，在支持多轮对话的搜索环境中，依赖的是天工AI搜索在追问系统中采用的意图识别，用户反馈接收，上下文感知等技术。

这样的体验与仅仅依赖关键词匹配的传统搜索，完全不属于一个时代！

实时信息，避免幻觉

除了搜索引擎外，相比于传统大语言模型，即便是接入了联网插件的那种，天工AI搜索的信息实时性依然更强，而且据此给出的回答也更加完备。

比如，最近室温超导讨论热度非常火，我们可以让几个搜索工具pk一下，跟进一下最近的论文情况。

天工AI搜索给出的链接，包括了arXiv上的论文，知乎讨论和新闻报道，从多个渠道汇集了事件的最新进展。

而且生成的回答中，不仅有关于每篇论文的内容介绍，还从更宏观的层面将超导事件认定为「存在差异和争议」。

更为亮点的是，它给出的论文中包括了最重要的中科院硫化亚铜论文，这篇论文是外界认定超导事件最新进展的最重要依据之一。

接下来，轮到GPT-4选手出场了。

它在联网插件的支持之下，也提供了3篇论文，每篇都做了摘要。

然而，这3篇论文都属于发表较早、支持「LK-99是室温超导体」的论文，没有客观反映出LK-99事件整体的最新进展。

显然，与GPT-4相比，天工AI搜索给出的结果更加全面，时效性也更强，更好地还原了事件的全貌。

如今的搜索，谁能把握时效上的优势，谁就能给用户最正确的信息。而GPT-4+联网插件在时效性上，和天工AI搜索还有一定差距。

另外，天工AI搜索利用链接对信息进行溯源，能极大地避免LLM的「幻觉」。

小编随便问了GPT-4一个中国历史故事。大概因为GPT-4的训练数据不包括《资治通鉴》，它果然开始胡诌了。

而能通过链接溯源的天工AI搜索，天生自带联网功能，彻底灭除「幻觉」可能。

而即便是之前产生幻觉的GPT-4，只要给它装上联网插件，它立马就能找到正确答案。

可见，AI+搜索的构架就是针对大模型出现「幻觉」的绝杀！

解密背后技术

那么，这背后究竟是怎样的技术，拓展了天工AI搜索的能力？

核心，还是大模型。

4月17日，昆仑万维首次发布了一款双千亿级大型语言模型——「天工」。

它在文案创作、知识问答、代码生成、逻辑推断、数学计算等领域，展现出非凡能力。经过多次技术迭代，「天工」在许多维度上已达到，甚至超越了业界标准。

技术上，「天工」部署在国内领先的GPU集群上，整合了千亿预训练基座模型，以及千亿RLHF模型，称得上是「大力出奇迹」的模型。

同时，模型还引入了蒙特卡洛搜索树算法，使得输出内容更加人性化。要知道，名噪一时的AlphaGo背后便结合这一算法。

值得一提的是，天工团队从数十万亿的数据中清洗、筛选出了3万亿个单词数据用于大模型的训练，让大模型拥有卓越的中文语境、词汇和语法处理能力。

正是有了「天工」大模型在技术上的突破，以及独特的优势，能够大大拓展天工AI搜索的能力边界。

- 大模型Query意图识别和理解

搜索之前，大模型对用户问题做Query改写后，能够深入挖掘用户真实意图，还能迅速捕捉到上下文关系。

比起传统搜索，能够提供更加精准的搜索结果，甚至大大简化操作。

对于Query改写，大模型通过将查询进行重组、调整或替换，使其更加准确、简洁、易于理解。

而对于意图识别，其主要任务是识别用户查询背后的意图或目的，以便更好地理解用户需求，并为其提供准确的回答或建议。

- 追问技术

天工AI搜索中，最有特点、人性化的设计便是「追问」能力。

其目的，就是为了准确捕获用户意图，提供最相关的搜索结果。

而这一技术的核心便是，对用户的查询进行理解，并在需要更多信息时向用户提出追问。

其实现原理过程如下：意图识别；信息完备性检测；问题生成；用户反馈接收；动态调整与学习；上下文感知。

此外，为了实现无限追问，还需要大量的数据进行训练，也需要不断地进行迭代和优化，以满足用户多变的需求。

- 信息智能摘要和基于检索的大模型技术应用

应对开放式问题回答的挑战，「天工」采用了Dense Passage Retrieval（DPR）技术。

DPR在处理「长篇文档」和「复杂问题」上具有天然的优势，并能给出优秀的检索结果。

为满足不同的应用场景，DPR提供了2种核心实现方式，各有千秋：

1. single-vector：把问题与文档均编码为单一的向量。

2. multi-vectors：对文档进行多向量编码，但将问题以单一向量表示。

第一种方法因其简洁的存储和检索能力备受推崇，但在某些场景下检索效果可能稍差。与之对比，multi-vectors虽需更大的存储空间，但其在检索准确性通常更为出色。

- 向量语义检索

在此，昆仑万维还构建了一套大规模实时向量检索系统，并在搜索的多个环节发挥作用，比如精准内容定位，增强内容多样性、以及智能上下文连贯性。

- 跨语言检索和信息整合

通过采用前沿的跨语言信息检索技术（CLIR），天工AI搜索还能深入英文知识库和学术文献进行检索，即便我们用中文提问。

比如，提问「什么是Transformer架构？」

天工AI搜索的参考内容中，便给出了2个国外文章的链接。

这背后，便是利用了「天工」大模型出色的跨语言理解能力，拓展了搜索知识边界，也能让我们第一时间了解全球资讯和研究成果。

那么，跨语言检索和信息整合具体如何实现，有以下几步：

查询翻译；检索与排序；文档翻译（如果需要的话）；信息整合；反馈与优化；深度学习与表征学习。

这一全套流程，需要整合多项AI能力，包括机器翻译、信息检索、数据融合和深度学习。另外，大量的双语数据、用户交互日志和高质量的文档数据，也是提升CLIR效率。

从上，我们看到了「天工」大模型和AI搜索之间的关系和演进。

用大模型，重塑搜索

如今，GPT-4等大语言模型的空前爆发，已经为各种应用加满buff，搜索也不例外。

AI搜索，是大模型+搜索技术结合的创新形式。

ChatGPT横空出世后，业界的一种声音认为，谷歌、必应等搜索巨头将会被颠覆。

作为用户获取信息的高频入口，搜索必将成为大模型落地的核心应用场景，并真正释放出大模型所蕴含的巨大生产力。

其实，从国外来看，一些科技公司已经用大模型赋能搜索，为用户提供更好的体验。

微软最先将GPT-4模型整合到New Bing中，让必应搜索能力大大升级，为所有人提供了一个智能化AI助力。

谷歌I/O大会上，劈柴宣布了颠覆性搜索生成体验（SGE），提供问题回答摘要，还有显示文章来源的卡片。

由PaLM 2驱动的全新AI搜索引擎，直接改变了谷歌搜索的底层逻辑。

除此之外，还有DuckDuckGo、You.com、Perplexity.ai全都将大模型融入了搜索。

反观国内，包括百度、360等大模型应用突破，也最先将大模型能力应用到搜索中。

作为一家全球领先的互联网公司，昆仑万维同样会付诸实践，让大模型能力更好地为搜索助力。

2020年，这家前瞻性的头部科技公司便开始布局AIGC和大模型领域。

至今三年的时间，昆仑万维发布了AIGC领域中全系列算法和模型昆仑天工、以及各种生成式AI工具，并开源了各种项目。

有了大模型的助力，天工AI搜索便有了塑造「搜索链接一切」的边界能力，将重塑搜索形态和体验。

天工AI搜索，作为国内第一款落地投入应用的AI搜索产品，是昆仑万维在AI领域持续深耕的一个重要里程碑。

未来已来，而天工AI搜索，将会成为每个人的生产力助手。

点击文末「阅读原文」即可申请加入「天工AI搜索」内测

本篇文章来源于微信公众号: 新智元