基于 Web 的 RAG 用例的实际考虑

ayesha983 發表於 6 天前

Dataiku 公共图库中的示例项目通过基于YOU API或Brave Search API的三个基于 Web 的 RAG 管道示例说明了这些不同的设计选择。Dataiku用户可以轻松下载并重复使用它。

除了上面描述的主要设计选择之外，还应考虑其他几个重要方面。

事实和内容审核
与对内部文档进行严格控制的标准 RAG 相比，基于 Web 的 RAG 显然存在更大的错误和冒犯性内容风险。因此，我们应该考虑采取各种措施来降低这些风险。

降低错误和攻击性内容风险的措施
降低错误和攻击性内容风险的措施
隐私
基于 Web 的 RAG 管道可能丹麦电报数据会在答案中包含个人信息。然后，我们可能会无意中存储个人信息，从而违反隐私法规。为了避免这种情况，我们可以提示 LLM 不要回答有关个人的问题，也不要在其答案中包含个人信息。我们还可以使用个人身份信息 (PII) 检测器筛选答案，作为额外的预防措施。

网页抓取礼仪
如果基于 Web 的 RAG 管道需要进行网页抓取，就像使用 Web Research Retriever 一样，我们应该成为优秀的互联网公民，避免给网站带来过重负担。这包括遵守 robots.txt 说明、本地缓存抓取的内容、仅下载 HTML 页面而不下载相关资源（如图像）以及限制请求频率。此外，请注意网页抓取的法律限制，特别是如果您的用例可能会损害被抓取的网站或侵犯版权法规。

頁: [1]

Discuz! Board's Archiver

基于 Web 的 RAG 用例的实际考虑