020-85548809,29883069

网站优化、网站建设、微信开发

技术知识

为您提供专业的SEO网站优化和网站建设服务

您当前位置>主页 > 技术知识 > 搜索引擎预处理机制之提取文字

搜索引擎预处理机制之提取文字


    搜索引擎对文件的管理,同时也说了搜索引擎是有很多的数据库组成,并且这些数据库中还都有相互对应的关系,至于数据库之间的关系,我们不去做讨论,只要知道各个数据库之间是相互呼应的就已经够了。在之前我有在一篇文章里谈到了优化企业网站要符合搜索引擎的喜好,大家可以去了解一下http://www.gzqiyi.com/news/96.html







   好了,今天我们就来谈搜索引擎算法中的预处理机制,搜索引擎提取文字的机制,搜索引擎的预处理分为很多步骤,我会在我的SEO优化学习博客seo.chhua.com一一的对大家分享我目前已经了解的几种,希望大家多多关注。







   搜索引擎为什么做预处理?







   原因很简单,搜索引擎抓取来的数据帮复杂,也太庞大,而我们用户在搜索的时候,搜索出来的速度是非常快的,如果数据太复杂太庞大了,就会拖跨数据库,也会影响搜索引擎的运算速度,所以要对抓取来的数据进行处理分析,然后进行索引,以方便用户的搜索。







   在搜索引擎文件管理方法一文中,提到了模拟爬行蜘蛛的程序,这刚刚是搜索引擎提取文字最好模拟,把网页中的HTML代码和程序代码(包含JS,AS)剔除之后进行入库。



但是,通过我的分析和研究,搜索引擎在提取文字的过程中,绝对不是蜘蛛模拟那么简单,绝对也不是只为了提取而提取,在提取的过程中,搜索引擎还要标记出比较特殊的标签,比如<H1>标签,<strong>标签,<a>标签等,然后对这些标签进行初步的分析,把分析结果存入相应的数据库,为以后的数据索引提供原始的数据,而这些标签都是有什么作用,今天在这里不会多讲,将会在以后的文章中专门来讨论SEO站内优化的一系列理论。







    OK,今天只谈了搜索引擎预处理过程中的第一步:提取文字,但是对大家要纠正的是,搜索引擎在提取文字的时候,绝对不是只提取单独的文字,还会对一些特殊标签进行分析,然后入库。