您现在的位置:首页 >> SEO优化 >> 关键词优化 >> 内容

搜索引擎复杂算法离不开相关性

时间:2013-6-14 14:25:14 点击:

  核心提示:今天的web搜索引擎有复杂的方法来衡量一个网页是否与给定的查询,根据几十年的研究在信息检索。来和我一起探索内在运作的一个搜索引擎的相关性引擎和解释为seo从业人士意味着什么。确定相关性当用户提交一个查...

今天的web搜索引擎有复杂的方法来衡量一个网页是否与给定的查询,根据几十年的研究在信息检索。来和我一起探索内在运作的一个搜索引擎的相关性引擎和解释为seo从业人士意味着什么。

确定相关性

当用户提交一个查询来搜索引擎,它必须做的第一件事是确定哪些页面的索引与查询,哪些不是。在这篇文章中,我将把这称为“相关性”的问题。更正式,我们可以状态如下:

给定一个搜索查询和文档,计算一个相关性分数,措施之间的相似性查询和文档。

“文档”在这种情况下也可指诸如标题标签,元描述,传入的锚文本,或者其他什么东西,我们认为可能有助于确定查询相关页面。实际上,一个搜索引擎计算数量的相关性分数使用不同的页面元素和重量他们所有到达最后一个分数。

相关问题已经非常好研究的研究社区。第一个文件倒流几十年,它仍然是一个活跃的研究领域。在这篇文章中,我把重点放在了最具影响力的方法都经受住了时间的考验。

相关性和排名

从概念上讲,我们可以单独的相关性测定从排名的相关文件,即使他们被实现为一个单一的步骤在一个搜索引擎。在这种心理框架,相关步骤第一使二进制(真/假)决定对于每个页面,然后排名一步文档返回订单用户。

我将介绍一些数据后在这篇文章中,生动地说明了这种分裂和它如何与不同的排名信号。

查询和文档模型

翻译查询和文档从原始字符串变成我们可以做计算和是第一个障碍在计算相似度得分。为此,我们利用“查询模型”和“文档模型。”“模型”在这里只是一个时髦的说法称字符串是代表其他一些方法,使计算可能的。

上图说明了这个过程的查询“费城费城人队”和维基百科页面关于费城人队。最后一步在计算相似性得分运行查询和文档表示通过一个打分函数。

查询模型

下图演示了一些不同类型的查询模型:

构建块的底部包括诸如标记化(分裂成字的字符串),字标准化(如堵住其中的常见词的结局是被删除),和拼写校正(如果查询包含一个拼错的词,搜索引擎返回结果纠正它,为纠正词)。

的基础上构建这些积木都是类似查询分类和意图。如果搜索引擎确定一个特定的查询时间敏感的它将返回消息的结果,或如果它认为查询意图是事务将显示购物的结果。

最后,位于金字塔顶端的是更多的抽象表示查询如实体提取或潜在主题陈述(LDA)。事实上,谷歌知道“费城费城人队”是一个大联盟棒球团队,因为它是棒球赛季返回昨晚的分数在顶部的搜索结果(除了知识图右边)。

文档模型

如查询模型,有几种不同类型的文档模型中常用的搜索。

tf idf是最古老、最广为人知的方法,代表了每个查询和文档作为一个向量,并使用一些变体的余弦相似度的打分函数。一个语言模型编码的一些信息统计的一种语言,包括知识如短语“搜索引擎优化”是更为常见的那么“搜索引擎步行。“语言模型是大量使用在机器翻译和语音识别等应用程序。他们也非常有用的在信息检索。另一个类的模型使用了概率排序原理,直接模型的概率给定查询和文档的相关性。其中,欧卡皮鹿BM25已被证明是特别有效的。

相关研究

现在,您可能想知道如果搜索引擎实际使用任何这些东西,如果有,哪些是最重要的。为了探究这个问题,我们设计了一个相关研究相似的我们已经跑过去(见这对一些背景的一般方法)。在本例中,我们收集了50强结果从谷歌美国大约14000字。这导致约600000页,然后我们爬和用于计算许多不同的相似性得分。

正如您可以看到的,该语言模型方法表现最好的,平均为0.10,斯皮尔曼相关符合结果发表在研究文学。

如果我们做一些引发双方的查询和文档第一和验算,相关性增加整个板:略

这表明,谷歌确实是做一些类型的词标准化或者抑制在他们相关的计算。

相关性和排名重新

比较这些相关性与页面权威(聚合在链路度量在我们Mozscape指数)在相同的数据集,我们看到一个实质性的区别:

这引出了一个问题:如果这些复杂的相似性得分是如此有用,为什么不高的相关性?答案就在于概念的相关性与分裂我前面讨论的排名。

说服我自己,我构建了一个实验如下图所示:

运行试验,450年我第一次从我们的数据集随机页面分层在前50名的结果(这样他们包括9 # 1,# 2排名的页面排名的页面九,等等)。然后我添加了450个随机页面顶部50页在每个搜索结果让一群500页为每个关键字。因为这些页面的50个搜索结果,450不是,10%是相关的关键字和90%不(这里假设是如果页面出现在谷歌搜索然后它是有关)。然后为每个关键字,我收集了页面权威和语言模型相似性得分和排序,每个(表中)。

最后,我计算精度在50,这是排名前50的百分比结果按PA /语言模型评分,实际上是在搜索结果。这直接衡量的程度或语言模型PA单独从无关的相关页面。500年以来10%的文档是在搜索结果中,我们可以得到一个10%的精确度,随机排序它们。这是我们的基线精度10%(底部灰色酒吧在图像)。

结果是惊人的。巴勒斯坦权力机构精度非常接近基线,说这是没有更好的然后一个随机数在确定相关性即使它做一个好工作在排名前50名一旦他们已知的相关。另一方面,语言模型精度接近100%。换句话说,语言模型几乎是完美的在决定的500页的搜索结果,但实际上却不工作的有关文件的排名。

外卖

这种类型的查询文档相似性得分是建立在研究文学和构成每个现代信息检索系统。因此,它是基本的搜索和免疫算法改变。

因为搜索引擎使用复杂的查询和文档模型,不需要单独为类似的关键词进行优化。例如,任何页面针对“影评”也将目标“电影评论。”

最后,您可以使用概念分为相关性和排名在你的工作流。当创建或修改现有的内容,首先集中精力使页面有关的一系列相关的关键词。然后集中精力,增加搜索位置。

更多的排名因素结果很快

这是第一个结果我们从2013年发布的排名因素的项目。在过去的几年中,这个项目包括一个行业调查和大量相关研究。我将展示结果在今年MozCon(这样得到你的票如果您尚未!),我们将遵循它与一个完整的报告今年夏天晚些时候

作者:北京seo 来源:seo.eosem.com
更多
相关评论
发表我的评论
  • 大名:
  • 内容:
本类推荐
本类固顶
  • 没有
  • 北京seo,北京网站优化,seo公司_一优广搜网络(www.eosem.com) © 2019 版权所有 All Rights Reserved.
  • Email:amdin@eosem.com 一优广搜网络 北京seo 技术① 北京seo 技术② 京ICP备10200834
  • Powered by GJ1.0 Seo