1/5
- 下载图片
- 复制图片
Q_Q
DeepSeek R1 联网搜索为何会大幅降智?晚上刷到一篇Paper,是一个大模型在中文下网页浏览能力的评测榜单,由港科大、北大、阿里等十家单位出品,基本上把主流的大模型+检索都测了一遍,
像OpenAI DeepResearch、Grok3 Research、Perplexity、Doubao DeepSearch、Kimi、DeepSeek等。
结果如图2所示,可以发现通用大模型的结果都不是很理想,都在10%左右或更低,
推理类大模型的效果要更好,基本上都是20%+,头部国外闭源模型还是强的。
带检索功能的大模型,多轮检索系统准确率更高,OpenAI DeepResearch 可以达到 42.9%,效果最好;紧随其后的是DouBao DeepSearch为 26.0%,Perplexity 为 22.6%,而单次检索系统,如Kimi 8.0%、Yuanbao 12.2%、DeepSeek 只有7.6%。
其实做好DeepSearch有两大核心要素,分别是大模型需要充分理解并规划用户问题 和 最终的检索内容的质量或者说检索源的质量要高。
你会发现一个有趣的问题,就是DeepSeek R1联网搜索(Deep Think)的测试成绩7.6%,反而远远低于R1纯语言模型(23.2%),这种性能下降一般是由于在缺乏有效对齐机制的情况下,模型可能会依赖可靠性较低的检索内容,反而覆盖了R1模型本身更准确的内部知识。
而理解和规划用户问题考验的是大模型本身能力,因为推理模型更擅长规划和分析,所以普遍上推理模型效果更好。但想要深度理解意图,往往需要多轮交互,每轮分析之后,检索所需内容,再分析内容是否满足,不满足继续检索,继续分析,直到结束。豆包深度思考的边想边搜就是典型的多轮搜索。
这种边想边规划,边检索边内容补充,是一个良性的循环,检索内容可以指导规划动态修改,规划内容可以发现不足进行充分的检索。
图3-图4就是BrowseComp-ZH榜单的数据样例及分布,主要中文DeepSearch测试的空缺,还有数据集构造过程大家自己看Paper吧!
Paper: BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
像OpenAI DeepResearch、Grok3 Research、Perplexity、Doubao DeepSearch、Kimi、DeepSeek等。
结果如图2所示,可以发现通用大模型的结果都不是很理想,都在10%左右或更低,
推理类大模型的效果要更好,基本上都是20%+,头部国外闭源模型还是强的。
带检索功能的大模型,多轮检索系统准确率更高,OpenAI DeepResearch 可以达到 42.9%,效果最好;紧随其后的是DouBao DeepSearch为 26.0%,Perplexity 为 22.6%,而单次检索系统,如Kimi 8.0%、Yuanbao 12.2%、DeepSeek 只有7.6%。
其实做好DeepSearch有两大核心要素,分别是大模型需要充分理解并规划用户问题 和 最终的检索内容的质量或者说检索源的质量要高。
你会发现一个有趣的问题,就是DeepSeek R1联网搜索(Deep Think)的测试成绩7.6%,反而远远低于R1纯语言模型(23.2%),这种性能下降一般是由于在缺乏有效对齐机制的情况下,模型可能会依赖可靠性较低的检索内容,反而覆盖了R1模型本身更准确的内部知识。
而理解和规划用户问题考验的是大模型本身能力,因为推理模型更擅长规划和分析,所以普遍上推理模型效果更好。但想要深度理解意图,往往需要多轮交互,每轮分析之后,检索所需内容,再分析内容是否满足,不满足继续检索,继续分析,直到结束。豆包深度思考的边想边搜就是典型的多轮搜索。
这种边想边规划,边检索边内容补充,是一个良性的循环,检索内容可以指导规划动态修改,规划内容可以发现不足进行充分的检索。
图3-图4就是BrowseComp-ZH榜单的数据样例及分布,主要中文DeepSearch测试的空缺,还有数据集构造过程大家自己看Paper吧!
Paper: BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
2025-05-03
浏览445
每日精选
登录后评论
点赞
评论
分享