精灵SEO

seo

>

seo优化

>

网站优化

>

关键词优化

>
seo公司
您的位置:首页 >seo高级

搜索和网页排名的数学原理

来源:精灵SEO 发布时间:2020-01-21

  搜索和网页排名的数学原理大家了解吗?今天精灵SEO就来为大家解解密。

  一、布尔代数和搜索引擎

  搜索引擎是每天都在使用的一种工具,它是一门非常复杂的技术,实现一个搜索引擎并非易事。但是,技术是分为术和道两种的,具体的做事方法是术,做事的原理和原则是道。

  不谈搜索引擎的术,但可以说说它的道。

  搜索引擎的原理相对于它在技术上的实现,就非常简单了。建立一个搜索引擎大致需要做这几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。

搜索和网页排名的数学原理

  1、布尔代数

  布尔代数起源于二进制。中国的阴阳学说是二进制的雏形,而二进制作为一个计数系统,是在公元前2-5世纪由印度学者完成的。17世纪,莱布尼兹完善了二进制计数系统,并用0和1表示它的两个数字,成为我们今天使用的二进制。1854年,布尔(英国19世纪的一名中学数学教师)的《思维规律》一书向向人们展示了如何用数学的方法解决逻辑问题。

  布尔代数运算的元素只有两个:1(true,真)和0(false,假),基本运算规则有与(and)、或(or)、非(not)三种。那么布尔代数和搜索有什么关系吗?

  无论是Google还是百度,其搜索的基本原理都是基于布尔代数的。假设搜索一篇关于原子能应用的文献,但并不像知道如何造原子弹。对于用户输入的每个人关键字,搜素引擎要判断文献中是否包含这个关键字,若有,则给此篇文献一个逻辑值—真(1或true),反之给一个逻辑值假—(0或false),对应的查询语句就变成了“原子能and应用and(not原子弹)”,则搜索结果中符合要求的文献必须同时满足这三个要求。根据布尔代数的运算规则,每一篇文献对于这三个条件都有一个true或者false的答案,根据这个答案就能算出文献是否是满足要求的。

  2、索引

  搜索引擎可以根据布尔代数去寻找需要的结果,但是,它是怎么在零点零几秒的时间内找到成千上万的搜索结果的?显然,如果是扫描文本,计算机扫描速度再快也不能做到。这就需要建立索引了。

  Google曾经有一道面试PM的考题:如何向你的奶奶解释搜索引擎?如果从技术层面回答,基本被pass。好的回答是拿图书馆的索引卡片类比。每个网站就如图书馆的一本书,网页就是书本的某一页的内容,我们可以利用索引卡片或者页码迅速找到需要的书本或者书本某一页的信息。

  一个简单的索引结构是用一个很长的二进制数表示某个关键字是否出现在每篇文献中,有多少篇文献,就有多少位数,每一位对应一篇文献,1代表有对应的关键字,0代表没有。对于关键字”原子能“,其可能的二进制表示是0100100011000001…..,”应用”可能对应的二进制表示是0010100110000001…,对二者进行布尔运算AND。结果是0000100000000001…,表示第五篇和第十六篇满足要求。计算机做布尔运算是非常快的,现在最便宜的微机在一个指令周期内做32位布尔运算,一秒钟可以进行数十亿次以上。

  二、网页排名技术

  对于不部分查询,搜素引擎都会返回成千上万条结果,那么应该如何排序,把用户最想看到的结果排在前面呢?这个问题很大程度上取决于搜索引擎的质量。对于一个特定的查询,搜索结果的排名取决于两组信息:网页质量和这个查询与每个网页的相关信息性。

  1、网页质量:PageRank

  PR的数学模型是Google的创始人拉里佩奇和谢尔盖布林发明的。在互联网上,如果一个网页被很多其它网页所链接,说明它收到普遍的承认和信赖,那么它的排名就高。这是PR的核心思想。友情链接的交换就很好的说明了这一点。对于不同网页的链接,PR是区别对待的:即网页排名高的网站贡献的链接权重大。那么网页权重怎么计算的呢?

  2014-12-09_132503

  有x1、x2、x3、x4四个网页只想网页Y,四个网页对应的权重分别是0.001、0.01、0.02、0.05,则网页Y的PR=0.001+0.01+0.02+0.05=0.081。PR算法的计算就是线性代数中矩阵相乘。

  2、网页和查询的相关性

  度量网页和查询的相关性,一个简单的方法就是用关键词在网页中出现的总词频。例如,一个查询中包含N个关键字w1,w2,w3…,他们在一个特定网页中出现的词频分别是TF1,TF2,TF3…,(TF:Term Frequency的缩写)那么,查询和这个网页的相关性就是

  TF1+TF2+TF3+…

  但是对于对确定网页主题没有用处的词,称之为停止词,如的、是、中、地等,其权重为0。所以在信息检索中,使用最多的权重是”逆文本频率指数”(Inverse Document Frequency,缩写为IDF),数学公式是log(D/Dw)(w是下标),D表示全部的网页数。假设中文网页数D=10亿,停止词‘的”在所有网页中出现,其出现的次数Dw=10亿,那么它的IDF=log(10亿/10亿)=log(1)=0。“原子能”在200万个网页中出现,即Dw=200万,所以它的权重IDF=log(500)=8.96,”应用“在5亿个网页中出现,则它的IDF=log(2)=1。利用IDF,相关行的计算公式就由词频的简单求和变成了加权求和,即:

  TF1*IDF1+TF2*IDF2+TF3*IDF3+…

  利用这种方式计算出来的权重比例分配就很客观了,准确的估算关键字和网页之间的相关性了。


相关文章内容简介

1 为什么百度只收录了网站首页

  你是否有这种体验,当你建立一个新网站的时候,过了几个月,百度只是收录你一个网站首页,特别是首页排名都相对靠前,让你有种飘着的感觉,生怕某一天,首页消失,排名全无。但你绞尽脑汁,仍然不能从根本解决问题,为此,我们需要深究其原理。为什么百度只收录了网站首页?   1、熊掌号与百度小程序   面对这种问题,首先你需要审查的是网站是否配置熊掌ID与百度小程序,从目前来看,熊掌ID在解决网站收录上,是一个利器。   而百度小程序的配置对于企业站点来讲,是一个快速排名的渠道,从目前来看,仍然是红利期。   这里建议有能力的企业站点可以尝试配置。   2、网站信息架构   对于新站而言,百度爬虫的抓取频率是非常有限的,如果你的网站信息架构设计的不合理,在某种程度上,是会影响站内相关页面收录的。   它主要包括:   ①首页到内容页与栏目页的距离,比如:Flash网站,首页一张图的网站。   ②首页到核心内容页的点击深度,尽量控制在1次点击,而不要超过3次。   ③是否合理利用nofollow屏 [阅读全文]

2 决定营销型网站排名的因素有哪些

  相信大家在进行营销型网站建设后,都希望能够在搜索引擎当中取得良好的排名,这样才能使网站被更多用户知晓,并来到网站进行访问,企业也才能够获得更多转化和成交。故此,针对搜素引擎进行优化,便成为了每个企业的一项必要工作。但无奈很多企业对优化都是一知半解,这样网站便难以取得理想的优化效果,有鉴于此,下面精灵SEO就来谈谈,决定营销型网站排名的因素有哪些,以便大家能更好的去做优化。   符合优化规则   不论如何,网站只有在符合搜索引擎优化规则的情况下,然后再去做优化,才有可能取得好的效果。若网站都不能符合其规则,搜素引擎自然对网站也就不会有兴趣。因此,企业想要做好搜索引擎的优化,就需要实现去了解其规则是什么。比如站内的标题、关键词和描述设置合理,页面布局简洁,访问速度快,这样搜素引擎抓取网站才更顺利,而优化效果也才更好。当然搜素引擎规则是不断更新的,企业也必须要持续去关注。   用户体验出色   在做优化时,需要明白的是,搜索引擎给网站更靠前的排名,就是想要网站能够服务更多的用户,帮助他 [阅读全文]

代理合作

电话/微信:18054233683

关闭
系统提示

登录密码错误!!!