点击精灵Logo
您的位置:首页 >seo基础

什么是"倒排索引"?

来源:精灵SEO 发布时间:2020-04-03

  什么是"倒排索引"?

什么是"倒排索引"

  一、倒排索引简介

  倒排索引(英文:Inverted Index),是一种索引方法,常被用于全文检索系统中的一种单词文档映射结构。现代搜索引擎绝大多数的索引都是基于倒排索引来进行构建的,这源于在实际应用当中,用户在使用搜索引擎查找信息时往往只输入信息中的某个属性关键字,如一些用户不记得歌名,会输入歌词来查找歌名;输入某个节目内容片段来查找该节目等等。

  面对海量的信息数据,为满足用户需求,顺应信息时代快速获取信息的趋势,聪明的开发者们在进行搜索引擎开发时对这些信息数据进行逆向运算,研发了“关键词——文档”形式的一种映射结构,实现了通过物品属性信息对物品进行映射时,可以帮助用户快速定位到目标信息,从而极大降低了信息获取难度。倒排索引又叫反向索引,它是一种逆向思维运算,是现代信息检索领域里面最有效的一种索引结构。

  二、倒排索引概述:

  在关系数据库系统里,索引是检索数据最有效率的方式,但对于搜索引擎,它并不能满足其特殊要求:

  1、海量数据:搜索引擎面对的是海量数据,像Google、百度这样大型的商业搜索引擎索引都是亿级甚至百亿级的网页数量 ,面对如此海量数据 ,使得数据库系统很难有效的管理。

  2、数据操作简单:搜索引擎使用的数据操作简单 ,一般而言 ,只需要增、 删、 改、 查几个功能 ,而且数据都有特定的格式 ,可以针对这些应用设计出简单高效的应用程序。而一般的数据库系统则支持大而全的功能 ,同时损失了速度和空间。最后 搜索引擎面临大量的用户检索需求 ,这要求搜索引擎在检索程序的设计上要分秒必争 ,尽可能的将大运算量的工作在索引建立时完成 ,使检索运算尽量的少。一般的数据库系统很难承受如此大量的用户请求 ,而且在检索响应时间和检索并发度上都不及我们专门设计的索引系统。

相关文章内容简介

1 谷歌被告赔偿50亿美元 因涉嫌搜索引擎泄露用户隐私

  据路透社报道,谷歌涉嫌利用浏览器“无痕模式”大规模泄露用户隐私,被控起诉最少赔偿50亿美元。   这是本周二发起的一项集体诉讼,谷歌被指控其互联网搜索功能利用设置为“无痕”模式的浏览器,来对用户浏览内容进行监控,从而非法侵犯了数百万用户的隐私,诉讼要求其最少赔偿50亿美元。   根据加利福尼亚州圣何塞联邦法院提起的投诉,无论用户是否点击了Google支持的广告,Google都会通过Google Analytics(分析),Google Ad Manager和其他应用程序以及网站插件(包括部分手机应用)收集数据。   投诉称,涉及人群可能包括“数百万”自2016年6月1日以来以“无痕”模式浏览互联网的Google用户。对于这种违反美国联邦窃听法和加利福尼亚州隐私法的行为,起被要求向每位用户至少赔偿5000美元的赔偿金。   对此,谷歌发言人Jose Castaneda坚决否认了这一说法:“我们已经清楚地表明,每次当你打开一个新的隐身标签时,网站可能会收集你的浏览行为信息。”   谷 [阅读全文]

2 索引量多少算正常?

  百度索引量关乎着关键词排名的概率的高与低,想方设法掌握怎么提高索引量是网站seo优化工作的重中之重。   无论是站长还是专业的seo人,都比较看重网站的收录量。实际上,相对于百度收录量,更应该看重百度索引量,提高索引量才会提高关键词曝光与点击的概率。   类似于一个漏斗过滤水的过程,收录就是经过简单滤的污水,将这些水注入漏斗中,经过层层筛选,就会出来杂质含量不同的水,这些杂质不同的水就是索引量。   索引量的介绍:   1、站点中有多少页面可以作为搜索候选结果,就是一个网站的索引量,一般情况,百度索引量与site查询的收录数,都会同步增长,这说明网站的权重在逐渐增加;   2、站点内容页面需要经过搜索引擎的抓取和层层筛选后,方可在搜索结果中展现给用户。页面通过系统筛选,并被作为搜索候选结果的过程,即为建立索引。一般情况,百度索引量比site指令查询的收录数大,这主要是因为:百度的索引量是百度抓取网站的页面后收录的数量;site指令查询到的页面只是放出去的页面,也就是用户可以搜索到 [阅读全文]

系统提示

登录密码错误!!!