了解搜索引擎抓取原理提高网站排名

添加时间:2020-08-27 13:07:00

步:爬行

搜索引擎是通过特定的软件规则来跟踪网页的链接,从一个链接到另一个链接,就像蜘蛛在蜘蛛网上爬行一样,所以它被称为“蜘蛛”,也被称为“机器人”。

搜索引擎蜘蛛的爬行输入了一定的规则,它需要服从一些命令或文件内容。例如:如果一个蜘蛛想要跟踪一个链接并抓取一个站点,它必须首先通过robots文件进行解释。如果robots文件不允许爬行器爬行,则爬行器无法跟随链接。

当然,spider还需要理解HTTP返回码、nofollow标记、mate标记等,所以spider爬行是在一定的规则和要求下进行的。除了搜索引擎蜘蛛遵循一些规则外,还有一些搜索引擎蜘蛛做不到的事情。例如:需要注册的站点、flash中的链接、图片中的链接等等。因此,我们理解当搜索引擎蜘蛛爬行时,我们不能盲目地认为搜索引擎蜘蛛无所不能。

第二步:抓取存储

搜索引擎通过爬行器跟踪链接爬行到网页,并将爬行数据存储到原始网页数据库中。页面数据与用户浏览器获得的HTML完全相同。搜索引擎蜘蛛在抓取页面时也会做一些重复的内容检测。一旦他们在一个低权重的网站上遇到大量抄袭、收录或复制的内容,他们很可能就不会爬行。这就是为什么有的数据采集站数据量大,但采集的数据量却很低的原因。但是,大部分重复数据消除工作仍处于预处理阶段。

第三步:预处理

搜索引擎会蜘蛛回到页面,进行各种步骤的预处理。

现在,搜索引擎的排名主要是基于文本内容。当蜘蛛抓取数据库中的原始页面文件时,它们需要提取文本并删除不能用于排名的标记、JS程序、图片和其他内容。当然,搜索引擎还将提取显示的标签文本、图像注释文本、flash注释文本和锚文本。

中文分词是中文搜索引擎的一个特殊步骤,在英文搜索引擎中是不存在的。由于汉字和词是连接在一起的,搜索引擎需要区分哪些词构成一个词,所以要进行分词步骤。汉语分词一般有两种方法,一种是词典匹配法,另一种是基于统计分析法。字典匹配很容易理解。它是基于过去字典中的单词匹配。在统计分析的基础上,主要对大量的文本样本进行分析,计算相邻词的频率来判断一个词是否是一个词。在这里,我们可以很容易地理解关键字的***匹配,这基本上是基于字典匹配,反之亦然。

去除噪声主要是去除一些对页面主题内容贡献不大的文本,以及大量重复的文本。例如,导航、页脚和广告

反再处理,其实就是一个搜索引擎来判断是否是原始计算。一般来说,搜索引擎使用的方法是计算网页特征关键字的指纹,即从网页主题的内容中选择***代表性的部分关键字,然后计算这些关键字的数字指纹。