搜索引擎的工作原理
搜索引擎的基本工作原理包括如下三个过程:
首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
第一步:爬行
搜索引擎通过一种特定规律的程序跟踪网页的链接,从一个链接爬行到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以搜索引擎程序也被称为“蜘蛛”。
搜索引擎爬取数据的程序分类:
webspider网络蜘蛛
robot机器人
第二步:抓取
“蜘蛛”通过爬行网页并跟踪网址链接到达网页并抓取数据,期间会将网页数据存入“原始页面数据库”。
爬行至网页
抓取页面数据信息
提取网页链接
存储原始页面
注:
存储原始页面:相当于搜索引擎迅速给网页拍下了一张写真,所以保存下的网页也被称为“快照”
第三步:建立索引
搜索引擎抓取网页后,经过复杂的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
第四步:排名
就是指用户在搜索引擎输入关键词搜索后的排名展示
注:
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL(链接)外,还会提供一段来自网页的摘要以及其他信息。
“
智联IT教育腾讯课堂开课啦!
点击阅读原文
”
赞赏
转载请注明:http://www.dachaoe.com/yxgn/4755.html