同样的逻辑也适用于企鹅

rakibhasanbd472 · 發表於 7 天前

因此，Google 无法编写特定的规则来判断这些垃圾页面，这就是为什么多年来，当我们看到一个显然（在我们心中）是垃圾但在 Google SERP 上排名很好的页面时，许多人都会抱怨。

谷歌面临的问题与西瓜种植的问题类似。那么他们为什么不从一开始就使用机器学习呢？

训练
Google 可能通过让人工质量罗马尼亚号码数据评估团队对网页进行垃圾评分来创建训练集。他们会让数百或数千名评估员审查数百或数千个网页，以生成一个包含相关垃圾评分（由多名评估员平均得出）的庞大网页列表。我不能 100% 确定这个过程的具体格式，但我们可以使用上述解释来大致了解。

现在，回想一下，要了解西瓜的成熟度，我们必须有很多西瓜，并且必须多次查看每个西瓜。这是一项艰巨的工作，需要花费时间，尤其是考虑到我们必须学习和更新我们对如何确定成熟度的理解（我们称之为“模型”）。完成这一步之后，我们需要在验证集（我们以前从未见过的西瓜）上试用我们的模型，以评估其是否有效。

在 Google 的案例中，这一过程发生在其整个网络索引中。当然，我不清楚他们在这里会使用什么方法，但很明显，在整个索引中应用上述“学习和测试”方法需要耗费大量资源。Caffeine 通过实时索引和对图表部分进行更快的计算实现了各种突破，这些突破最终使机器学习成为可能。你可以想象，以前如果重新计算值（无论是 PageRank 还是垃圾邮件指标）需要花费数小时（甚至数分钟），那么执行数千次应用机器学习所需的操作根本是不可能的。一旦 Caffeine 允许他们开始，Panda 和随后的 Penguin 的时间表就非常快，这表明一旦他们能够做到，他们就渴望将机器学习作为算法的一部分（原因也很明显）。

下一步是什么？
每次“推出”后续的 Panda 和 Penguin 更新时，都会计算、测试新的（可能经过改进的）模型，现在可以将其作为实时指数的信号应用。然后，今年早些时候，Panda 宣布将在 10 天左右的时间内不断更新和推出，因此这些迹象表明他们正在提高将机器学习应用于指数的速度和效率。

		自動登錄	找回密碼
密碼			立即註冊