基于 Web 的 RAG 用例的实际考虑
Dataiku 公共图库中的示例项目通过基于YOU API或Brave Search API的三个基于 Web 的 RAG 管道示例说明了这些不同的设计选择。Dataiku用户可以轻松下载并重复使用它。除了上面描述的主要设计选择之外,还应考虑其他几个重要方面。
事实和内容审核
与对内部文档进行严格控制的标准 RAG 相比,基于 Web 的 RAG 显然存在更大的错误和冒犯性内容风险。因此,我们应该考虑采取各种措施来降低这些风险。
降低错误和攻击性内容风险的措施
降低错误和攻击性内容风险的措施
隐私
基于 Web 的 RAG 管道可能 丹麦电报数据 会在答案中包含个人信息。然后,我们可能会无意中存储个人信息,从而违反隐私法规。为了避免这种情况,我们可以提示 LLM 不要回答有关个人的问题,也不要在其答案中包含个人信息。我们还可以使用个人身份信息 (PII) 检测器筛选答案,作为额外的预防措施。
网页抓取礼仪
如果基于 Web 的 RAG 管道需要进行网页抓取,就像使用 Web Research Retriever 一样,我们应该成为优秀的互联网公民,避免给网站带来过重负担。这包括遵守 robots.txt 说明、本地缓存抓取的内容、仅下载 HTML 页面而不下载相关资源(如图像)以及限制请求频率。此外,请注意网页抓取的法律限制,特别是如果您的用例可能会损害被抓取的网站或侵犯版权法规。
頁:
[1]