seo搜索引擎工作原理的深入分析

添加时间:2020-06-27 11:07:00

搜索引擎的工作原理收录三个过程:Web搜索、信息预处理和索引。

细化分为:爬行-爬行-处理爬行信息-索引-呈现排名

: 爬行

爬行的目的:创建要抓取的列表

1、发现:

主动爬虫:写带有链接的软文章,花钱在高质量和高重量的网站上,使用高重量的博客,在高质量的论坛上发送链接。

可以把首页放在首页,否则尽量放在上面的一栏(小结:尽量放在高权重的位置)

横幅图片不如幻灯片,幻灯片不如文字。(摘要:文本优先,图片的alt属性)2。爬行动物分析:

查看:网站日志分析。在日志文件中,可以查看网站管理员工具:查看抓取的频率。过高会导致服务器崩溃和解决方案:突然访问站点

爬行策略:

深度优先:优等列到底部(100-1000万页)宽度优先:对等列单独收录(100万页)混合:两者混合使用(5000-1亿页)

爬行障碍物:

在txt文件中设置错误的服务器(动态IP频繁出现,服务器不稳定)的问题是URL太长,搜索引擎爬虫程序懒得直接捕获它。爬行动物陷阱

2、 抓取:

长度:33个汉字,25个汉字就够了,两个英文字一个字

职位:关键字职位优先

时代:不要重复太多(关键词可以在栏目中强调,重要的放在前面)

可读性:考虑用户体验

创意:蜘蛛喜欢新鲜的东西

关键词:首页5-7,优等栏5-6,二级栏4-5,列表页3-4,专题2-3。Deion:(必须在关键字周围写一列)

功能:提高点击率

密度:3-8%

字长:80字

创意:收藏佳品

可读性:用户体验考虑

行动要求:活动、促销和其他页面

3、公共部分:

搜索引擎不会抓取重复的部分(爬虫喜欢新鲜和原创的东西,重复的内容不利于抓取)

4、导航:

主导航、次导航、左导航、SEO导航(标签)、面包屑导航(不要使用js)

5、广告:

横幅图片不如幻灯片,幻灯片不如文本(摘要:文本优先,图片写入alt属性)。语言对爬行动物有好处。

6、文本:

关键词:合适的时间,适度的密度3-8%,首页位置(金华站长工具可以查到)标签:性,整页才是重要的。收录关键词,关键词尽量超前标签:不,第二重要。可以添加其他属性:仅用于告诉蜘蛛图像的解释

二: 处理抓取结果(预处理)

相关性:由于百度算法上下文分析+语义分析的原因,网站不应该出现不相关的内容,否则搜索引擎也会放弃有名性:各种奖项、网络评价、百度客服应用增加信任度。

注:有名缺失造成的影响:由于同一篇文章的信任度高低,有可能自己转载发表的文章会落在其他网站后面。

重复数据消除:一个链接不能有多个页面,同一关键字不能指向不同的链接,不同的链接,同一关键字不能出现在同一页面下

三: 索引

优等列url80点

第二列url96点

百度分词:从前到后,从后到前,统计

第三步是将爬虫程序的内容压缩成数据包并返回数据库。在此基础上,建立了搜索引擎的索引库。当用户搜索一个词(长尾词或短尾词)时,搜索引擎首先会根据百度的分词规则显示与索引库中完全一致的词。