谷歌的白皮书由前面提到的两项专利的几位作者撰写,解释了其工作原理,以及识别释义可能有所帮助的一些原因。其名称为“对难以找到的项目进行排序:在网络上获取释义” (pdf)。 Marius Pasca 和 Peter Dienes 在他们的白皮书中写道,他们的自动识别释义的方法非常有用,因为它可以使用任何文档,无论其质量如何,并且很容易识别哪些文档包含释义。他解释说,这种方法是独一无二的,因为。
它不需要特定的过程: 列出此方法与以前获取释义的方法之间的差异。 通过使用本质上远非完美且不可信的 Web 文档,而不是干净、值得信赖且格式良好的文档,消除对输入数据质量的猜测。 不需要关于哪些文档转 欧洲手机号码列表 换相似释义的明确线索。这是因为他们报道同一事件或讲述同一故事。 大量释义集合是通过详尽的成对协调从网络文档中的大量句子(例如句子片段)组装而成的。 在研究所涉及的过程时,帕斯卡和迪内斯进行了一项实验,他们显然提取了释义。