seo技巧
了解搜索引擎抓取原理提高网站排名
添加时间:2020-08-27 13:07:00
首步:爬行
搜索引擎是通过特定的软件规则来跟踪网页的链接,从一个链接到另一个链接,就像蜘蛛在蜘蛛网上爬行一样,所以它被称为“蜘蛛”,也被称为“机器人”。
搜索引擎蜘蛛的爬行输入了一定的规则,它需要服从一些命令或文件内容。例如:如果一个蜘蛛想要跟踪一个链接并抓取一个站点,它必须首先通过robots文件进行解释。如果robots文件不允许爬行器爬行,则爬行器无法跟随链接。
当然,spider还需要理解HTTP返回码、nofollow标记、mate标记等,所以spider爬行是在一定的规则和要求下进行的。除了搜索引擎蜘蛛遵循一些规则外,还有一些搜索引擎蜘蛛做不到的事情。例如:需要注册的站点、flash中的链接、图片中的链接等等。因此,我们理解当搜索引擎蜘蛛爬行时,我们不能盲目地认为搜索引擎蜘蛛无所不能。
第二步:抓取存储
搜索引擎通过爬行器跟踪链接爬行到网页,并将爬行数据存储到原始网页数据库中。页面数据与用户浏览器获得的HTML完全相同。搜索引擎蜘蛛在抓取页面时也会做一些重复的内容检测。一旦他们在一个低权重的网站上遇到大量抄袭、收录或复制的内容,他们很可能就不会爬行。这就是为什么有的数据采集站数据量大,但采集的数据量却很低的原因。但是,大部分重复数据消除工作仍处于预处理阶段。
第三步:预处理
搜索引擎会蜘蛛回到页面,进行各种步骤的预处理。
现在,搜索引擎的排名主要是基于文本内容。当蜘蛛抓取数据库中的原始页面文件时,它们需要提取文本并删除不能用于排名的标记、JS程序、图片和其他内容。当然,搜索引擎还将提取显示的标签文本、图像注释文本、flash注释文本和锚文本。
中文分词是中文搜索引擎的一个特殊步骤,在英文搜索引擎中是不存在的。由于汉字和词是连接在一起的,搜索引擎需要区分哪些词构成一个词,所以要进行分词步骤。汉语分词一般有两种方法,一种是词典匹配法,另一种是基于统计分析法。字典匹配很容易理解。它是基于过去字典中的单词匹配。在统计分析的基础上,主要对大量的文本样本进行分析,计算相邻词的频率来判断一个词是否是一个词。在这里,我们可以很容易地理解关键字的***匹配,这基本上是基于字典匹配,反之亦然。
去除噪声主要是去除一些对页面主题内容贡献不大的文本,以及大量重复的文本。例如,导航、页脚和广告
反再处理,其实就是一个搜索引擎来判断是否是原始计算。一般来说,搜索引擎使用的方法是计算网页特征关键字的指纹,即从网页主题的内容中选择***代表性的部分关键字,然后计算这些关键字的数字指纹。
上一篇: SEO长尾关键词布局与功能分析
下一篇: 这7个网站文章编辑技巧有助于SEO
技巧精选
-
【seo推广策略】针对企业做seo优化推荐可行的的seo推广策略
2019-06-18 -
赢得百度搜索引擎的信任需要从空间、域名、内链及死链接等方面入手
2019-06-17 -
【自助模板】介绍企业网站选择自助模板建站的参考标准
2019-06-17 -
清楚网站建设的初衷,找准seo优化方向实现建站的真正价值
2019-06-17 -
网站关键词排名不知道怎么提升?从三方面优化精髓来阐述seo方法
2019-06-14 -
把握搜索引擎给予网站排名规则,多角度优化企业网站提升友好度
2019-06-14 -
解决网站收录与快照正常,关键词无排名问题
2019-06-14 -
建站准备工作:了解建站流程、挖掘建站目的、实现建站价值
2019-06-14
热门推荐
-
网站优化的好处和功能
2021-05-05 -
搜索引擎排名技巧与优化方法
2021-05-04 -
网站优化中如何降低网站相似度?
2021-05-04 -
SEO中应该注意哪些关键词?
2021-05-04 -
企业网站优化知识
2021-05-04 -
论企业网站的优化技巧
2021-05-03 -
中小企业网站优化
2021-05-03 -
SEO图像优化的基本技巧
2021-05-03