SEO搜索引擎原理
添加时间:2021-10-17 12:00:00
经过文本提取、分类等工作,搜索引擎能够反映网页的主要内容,以文字为单位内容。然后搜索引擎索引(数据库术语)程序可以提取关键字,根据分词程序,将页面转换成关键字集合,同时记录每个关键字在页面上的出现频率、次数、格式和位置。
倒排列表用于记录哪些文档包含单词。通常,在文档集合中有许多文档包含一个单词。每个文档都会记录文档编号(docid)、单词在文档中出现的次数(TF)以及单词在文档中的位置。因此,与文档相关的信息称为反向索引(过帐)。一系列包含该词的倒排索引项形成一个列表这是一个词的倒排列表。右图为倒排表示意图。文档集合中出现的所有单词及其对应的倒排列表构成倒排索引。在实际的搜索引擎系统中,倒排索引项中的实际文档编号不存储,而是由文档编号差异(D-gap)代替。单据号差异是倒排列表中两个相邻倒排索引项的单据号之差。一般来说,在索引构造过程中,可以保证倒排列表中后面出现的单据号大于上一个单据号,因此单据号的差异总是一个大于0的整数。算例中,187和199的差值被转换成了原来的数字,这三个数字被转换成了数字。
倒排列表用于记录哪些文档包含单词。通常,在文档集合中有许多文档包含一个单词。每个文档都会记录文档编号(docid)、单词在文档中出现的次数(TF)以及单词在文档中的位置。因此,与文档相关的信息称为反向索引(过帐)。一系列包含该词的倒排索引项形成一个列表这是一个词的倒排列表。右图为倒排表示意图。文档集合中出现的所有单词及其对应的倒排列表构成倒排索引。
在实际的搜索引擎系统中,倒排索引项中的实际文档编号不存储,而是由文档编号差异(D-gap)代替。单据号差异是倒排列表中两个相邻倒排索引项的单据号之差。一般来说,在索引构造过程中,可以保证倒排列表中后面出现的单据号大于上一个单据号,因此单据号的差异总是一个大于0的整数。在图2所示的示例中,原始的三个文档编号分别为187、196和199,当通过数差计算实际存储时,这些文档编号将转换为187、9和3。
下一篇: SEO如何分析其他网站的优化策略
技巧精选
-
【seo推广策略】针对企业做seo优化推荐可行的的seo推广策略
2019-06-18 -
赢得百度搜索引擎的信任需要从空间、域名、内链及死链接等方面入手
2019-06-17 -
【自助模板】介绍企业网站选择自助模板建站的参考标准
2019-06-17 -
清楚网站建设的初衷,找准seo优化方向实现建站的真正价值
2019-06-17 -
网站关键词排名不知道怎么提升?从三方面优化精髓来阐述seo方法
2019-06-14 -
把握搜索引擎给予网站排名规则,多角度优化企业网站提升友好度
2019-06-14 -
解决网站收录与快照正常,关键词无排名问题
2019-06-14 -
建站准备工作:了解建站流程、挖掘建站目的、实现建站价值
2019-06-14
热门推荐
-
网站优化的好处和功能
2021-05-05 -
搜索引擎排名技巧与优化方法
2021-05-04 -
网站优化中如何降低网站相似度?
2021-05-04 -
SEO中应该注意哪些关键词?
2021-05-04 -
企业网站优化知识
2021-05-04 -
论企业网站的优化技巧
2021-05-03 -
中小企业网站优化
2021-05-03 -
SEO图像优化的基本技巧
2021-05-03