首页 > 网站建设行业资讯Media Reports

什么是文件匹配?
时间:2017-12-14     来源:www.zjteam.com

杭州网站建设--帷拓小编说说 什么是文件匹配?

搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找出含有所有搜索关键词的所有文件。在索引部分提到的倒排索引使得文件匹配能够快速完成,杭州网站建设--帷拓小编放一张图给大家看看:



杭州网站建设--帷拓小编假设用户搜索“关键词2”和“关键词7”,排名程序只要在倒排索引中找到“关键词2”和“关键词7”这两个词,就能找到分别含有这两个词的所有页面。经过简单求交集计算就能找出既包含”关键词2”和“关键词7”的所有页面:文件1和文件6。

  初始集结的选择:找到所有关键词的匹配文件后,还不能进行相关性计算,需要的时间还是太长。实际上用户并不需要知道所有匹配的几十万,几百万个页面,绝大部分用户只会查看前两页,也就是前20个结果。搜索引擎也并不需要计算这么多页面的相关性,而只要计算最重要的一部分页面就可以了。常用搜索引擎的人都会注意到,搜索结果页面通常最多显示100个。用户点击搜索结果页面底部“下一页”链接,最多也只能看到第100页,也就是1000个搜索结果,杭州网站建设--帷拓小编发张下图。

  百度则通常返回76页结果,杭州网站建设--帷拓小编发张下图。360搜索通常犯讳页结果,必应貌似冒雨固定页数,会根据不同查询词而变化,但也不会超过100页。



总之,最多显示1000个搜索结果,所以搜索引擎又怎么知道哪1000个文件是最相关的?所以用于最后相关性计算的初始页面子集的选择,必须依靠其他特珍而不是相关性(这些文件都包含所有查询关键词),搜索引擎通常会用非相关性的页面特征选出一个初始子集。初始子集的数目是多少?几万个?或许更多,外人并不知道。不过可以肯定的是,当匹配页面数目巨大时,搜索引擎不会对这么多页面进行实时计算,而必须选出一个页面权重较高的一个子集,再对子集的页面进行相关性计算。

在线预约 Online Booking


联系我们 Contact Us

全国统一业务咨询电话:0571-88023217邮箱:540877349@QQ.com
地址:杭州市 丰谭路380号 城西银泰城 B座12楼邮编:310030
业务咨询:0571-88023217传真:0571-88013217

关于我们 About Us

杭州帷拓科技有限公司是一家专业网络服务供应商,主营业务为杭州网站建设、杭州网站设计、杭州集团网站建设、杭州企业网站建设、杭州外贸网站建设、杭州营销型网站建设、杭州门户网站建设、杭州模板网站建设、杭州手机网站建设、杭州商城网站建设、杭州APP开发、微信公众号广告推广。

帷拓科技十三年专注 杭州网站建设杭州网站设计杭州网站制作,3000+客户网站设计案例,帷拓科技是浙江省最具竞争力的品牌网站建设公司。

帷拓WAP网站二维码

帷拓WAP网站

帷拓微信公众平台二维码

微信公众号

Copyright 2003-2016 Weetop all rights reserved 杭州帷拓科技有限公司版权所有 浙ICP备11013555号-2 法律顾问:陈乐年律师(浙江商瑞律师事务所)

浙公网安备 33010502002049号