ayesha983 發表於 6 天前

基于 Web 的 RAG 用例的实际考虑

Dataiku 公共图库中的示例项目通过基于YOU API或Brave Search API的三个基于 Web 的 RAG 管道示例说明了这些不同的设计选择。Dataiku用户可以轻松下载并重复使用它。      

除了上面描述的主要设计选择之外,还应考虑其他几个重要方面。

事实和内容审核
与对内部文档进行严格控制的标准 RAG 相比,基于 Web 的 RAG 显然存在更大的错误和冒犯性内容风险。因此,我们应该考虑采取各种措施来降低这些风险。

降低错误和攻击性内容风险的措施
降低错误和攻击性内容风险的措施
隐私
基于 Web 的 RAG 管道可能 丹麦电报数据 会在答案中包含个人信息。然后,我们可能会无意中存储个人信息,从而违反隐私法规。为了避免这种情况,我们可以提示 LLM 不要回答有关个人的问题,也不要在其答案中包含个人信息。我们还可以使用个人身份信息 (PII) 检测器筛选答案,作为额外的预防措施。

网页抓取礼仪
如果基于 Web 的 RAG 管道需要进行网页抓取,就像使用 Web Research Retriever 一样,我们应该成为优秀的互联网公民,避免给网站带来过重负担。这包括遵守 robots.txt 说明、本地缓存抓取的内容、仅下载 HTML 页面而不下载相关资源(如图像)以及限制请求频率。此外,请注意网页抓取的法律限制,特别是如果您的用例可能会损害被抓取的网站或侵犯版权法规。


頁: [1]
查看完整版本: 基于 Web 的 RAG 用例的实际考虑

一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |