24小时咨询电话:0571-8802321710年专业网络服务供应商

资讯中心

- 直击网站建设第一现场,掌握全球化的消息 -

当前位置 : 首页 > 新闻中心 > 建站知识 > 什么是文件匹配?

什么是文件匹配?

2017-12-14 分享 浏览次数:3994次

杭州网站建设--帷拓小编说说 什么是文件匹配?

搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找出含有所有搜索关键词的所有文件。在索引部分提到的倒排索引使得文件匹配能够快速完成,杭州网站建设--帷拓小编放一张图给大家看看:



杭州网站建设--帷拓小编假设用户搜索“关键词2”和“关键词7”,排名程序只要在倒排索引中找到“关键词2”和“关键词7”这两个词,就能找到分别含有这两个词的所有页面。经过简单求交集计算就能找出既包含”关键词2”和“关键词7”的所有页面:文件1和文件6。

  初始集结的选择:找到所有关键词的匹配文件后,还不能进行相关性计算,需要的时间还是太长。实际上用户并不需要知道所有匹配的几十万,几百万个页面,绝大部分用户只会查看前两页,也就是前20个结果。搜索引擎也并不需要计算这么多页面的相关性,而只要计算最重要的一部分页面就可以了。常用搜索引擎的人都会注意到,搜索结果页面通常最多显示100个。用户点击搜索结果页面底部“下一页”链接,最多也只能看到第100页,也就是1000个搜索结果,杭州网站建设--帷拓小编发张下图。

  百度则通常返回76页结果,杭州网站建设--帷拓小编发张下图。360搜索通常犯讳页结果,必应貌似冒雨固定页数,会根据不同查询词而变化,但也不会超过100页。



总之,最多显示1000个搜索结果,所以搜索引擎又怎么知道哪1000个文件是最相关的?所以用于最后相关性计算的初始页面子集的选择,必须依靠其他特珍而不是相关性(这些文件都包含所有查询关键词),搜索引擎通常会用非相关性的页面特征选出一个初始子集。初始子集的数目是多少?几万个?或许更多,外人并不知道。不过可以肯定的是,当匹配页面数目巨大时,搜索引擎不会对这么多页面进行实时计算,而必须选出一个页面权重较高的一个子集,再对子集的页面进行相关性计算。

最新网站案例

洞悉市场趋势演变让传播回归社会

    免费获取网站建设与网络推广方案报价

    • 关于我们

      杭州帷拓科技有限公司,是一家新型的全案网络开发公司,作为以互联网高端网站建设、APP开发、小程序开发为核心的专业网络技术服务供应商,帷拓科技致力于全面分析市场环境、衡量与预测市场需求、整合区别于行业竞争对手的绝对优势,结合品牌理念深度挖掘项目优势和产品价值,提升客户品牌认知、认可度。

    • 我们的客户

      帷拓科技历经十年沉淀,与国内外上千家客户达成合作关系,其中稳定合作的公司有:浙江华为、浙江移动、浙江5G产业联盟、浙江省社科院、绿城足球俱乐部、娃哈哈双语学校、健康中国杭州峰会、科雷机电等,帷拓科技始终坚持“帷有专业,才能拓展无限”的服务理念,坚持“认真坚持细节”的优质服务理念,不断完善自身,成就企业,最终实现共赢。

    • 我们的业务

      帷拓科技主营业务范围包含互联网高端网站建设、APP开发、小程序开发、商城网站建设、公众号运营以及数字营销等,涵盖了服务、房产、数码、服装、物流贸易等行业,根据品牌现状,为每个客户量身定制项目整体服务方案,以敏锐的市场洞察力、创新的市场策划能力,全面把握市场变化,为客户实现从企业到消费者的价值转换。

    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur