• 没有什么提示的

搜索引擎的工作原理:抓取内容后会如何处理?

seo进阶教程 广州seo顾问 2年前 (2018-06-29) 1077次浏览 0个评论 扫描二维码

搜索引擎抓取网页后会首先要对网页的内容进行处理,我们称为内容处理,理解内容处理对seo内容工作方面会有一定的帮助。那么搜索引擎抓取内容后会如何处理呢?

一:判断页面类型

首先搜索引擎会判断这个页面什么类型,比如普通网页、pdf、word等,如果是普通网页还要判断这个网页的类型是普通的文本还是如视频、图片等其他内容。甚至还会去判断这个网页是论坛帖子还是博客文章等。

二:提取文本信息

现在的搜索引擎虽然也能提取js、图片等资源,但是对于一般的普通网页还是以文本为主,所以看到这里你就知道了为什么说网站内容建设上能用文字表达的就尽量用文字表达了。这里搜索引擎会提取TDK等标签以及网页body中的文本内容。

三:去除页面噪声

去除页面噪声的意思是去除和页面主要内容无关的广告、导航、链接、图片等信息。只提取出这个网页的主题内容,但是相关的文本和链接内容还是会得到保存。

四:去除停止词

去除停止词意在对文本的主题内容进行分词和理解,并且可以减少搜索引擎的计算量。停止词就是诸如“的、得、啊、呀、地”之类的词,详细的可以自行百度。

经过上述方式处理后,搜索引擎就会得到一个个内容集中的网页,然后再通过分词处理、去重处理后搜索引擎就会将其中有价值的网页加入索引。


本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理

喜欢 (1)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址