SEO搜索引擎原理

添加时间:2021-10-17 12:00:00

经过文本提取、分类等工作,搜索引擎能够反映网页的主要内容,以文字为单位内容。然后搜索引擎索引(数据库术语)程序可以提取关键字,根据分词程序,将页面转换成关键字集合,同时记录每个关键字在页面上的出现频率、次数、格式和位置。

倒排列表用于记录哪些文档包含单词。通常,在文档集合中有许多文档包含一个单词。每个文档都会记录文档编号(docid)、单词在文档中出现的次数(TF)以及单词在文档中的位置。因此,与文档相关的信息称为反向索引(过帐)。一系列包含该词的倒排索引项形成一个列表这是一个词的倒排列表。右图为倒排表示意图。文档集合中出现的所有单词及其对应的倒排列表构成倒排索引。在实际的搜索引擎系统中,倒排索引项中的实际文档编号不存储,而是由文档编号差异(D-gap)代替。单据号差异是倒排列表中两个相邻倒排索引项的单据号之差。一般来说,在索引构造过程中,可以保证倒排列表中后面出现的单据号大于上一个单据号,因此单据号的差异总是一个大于0的整数。算例中,187和199的差值被转换成了原来的数字,这三个数字被转换成了数字。

倒排列表用于记录哪些文档包含单词。通常,在文档集合中有许多文档包含一个单词。每个文档都会记录文档编号(docid)、单词在文档中出现的次数(TF)以及单词在文档中的位置。因此,与文档相关的信息称为反向索引(过帐)。一系列包含该词的倒排索引项形成一个列表这是一个词的倒排列表。右图为倒排表示意图。文档集合中出现的所有单词及其对应的倒排列表构成倒排索引。

在实际的搜索引擎系统中,倒排索引项中的实际文档编号不存储,而是由文档编号差异(D-gap)代替。单据号差异是倒排列表中两个相邻倒排索引项的单据号之差。一般来说,在索引构造过程中,可以保证倒排列表中后面出现的单据号大于上一个单据号,因此单据号的差异总是一个大于0的整数。在图2所示的示例中,原始的三个文档编号分别为187、196和199,当通过数差计算实际存储时,这些文档编号将转换为187、9和3。