搜索引擎的研究论文

时间:2021-08-31

关于搜索引擎的研究论文

摘要:搜索引擎的出现, 把互联网产品的技术水平提高到了一个新的高度。本文首先介绍搜索引擎技术的发展历程, 其次简要介绍了搜索引擎关键技术和产品;随着移动终端智能化和互联网用户个性化以及社交化为中心的融合趋势下的发展, 催生了很多新型应用。结合目前管理信息系统互联网化的发展方向, 详细介绍了搜索引擎在管理信息系统中的一整套应用案例。

搜索引擎的研究论文

关键词:搜索引擎; 搜索引擎技术; 搜索引擎产品; 搜索引擎在管理信息系统中案例; 搜索引擎发展趋势;

Discussion on search engine

Abstract:The emergence of search engine takes the Internet product technology to a new level. This article first introduces the development of search engine technology, then introduces search engine's key technologies and products.With the intelligent mobile terminals, services users personalized services, and social network integration as the center of the trend, a lot of new applications have emerged. Combined with the development direction of the current management MIS system, this article introduces the application case of search engine in MIS system.

Keyword:search engine; search engine technology; search engine product; search engine in management information system case; search engine development trend;

搜索引擎的研究论文

1、引言

  搜索引擎的诞生源自互联网最根本的用途之一:信息获取。

  在搜索引擎出现之前, 互联网缺少入口, 用户往往需要自己记住有用的网站和网页。为了满足这种需求, 最早的“搜索引擎”, 即分类目录浏览式的引擎便出现了, Yahoo就是其中的代表。最初只是采用把一些有用的网站通过分类的方式手工组织起来, 便于用户找到有用的信息。能够手工组织也是基于早年整个互联网的网站数量也非常少, 可以通过人工方式实现组织。

  随着互联网的壮大, 网页网站数量越来越多, 手工组织的方式变为不可行, 于是由机器实现的全文检索引擎便出现了。用户可以通过关键字查询来获取相关的网页。又随着网页数量的不断增多, 任何关键字查询都会返回大量的相关网页, 如果对网页进行评分和排序, 返回给用户真正有价值的网页便成为重点。基于网页之间的链接关系为网页进行评分, 成为很多搜索引擎的网页排序算法基础, Google的Page Rank算法便是其中的代表者。

  Google也以此为基础成为搜索引擎产品中的领先者, 为用户提供了更好的搜索结果相关性。现代搜索引擎基本上也由此基本成型, 虽然后来的技术创新和改进很多, 但主要的思路基本上没有变。

  搜索引擎发展到今天, 基础架构和算法在技术上都已经基本成型和成熟。搜索引擎已经发展成为根据一定的策略、运用特定的计算机程序从互联网上搜集信息, 在对信息进行组织和处理后, 为用户提供检索服务, 将用户检索相关的信息展示给用户的系统。

2、搜索引擎技术

  搜索引擎所涉及和涵盖的技术范围非常广, 涉及到了系统架构和算法设计等许多方面。可以说由于搜索引擎的出现, 把互联网产品的技术水平提高到了一个新的高度;搜索引擎无论是在数据和系统规模, 还是在算法技术的研究应用深度上, 都远超之前简单的互联网产品。

  搜索引擎涉及的关键技术点包含:爬虫 (Crawling) 、索引结构 (Inverted Index) 、检索模型 (VSM&TF-IDF) 、搜索排序 (Relevance Ranking&Evaluation) 、链接分析 (Link Analysis) 、分类 (Document&Query Classification) 、自然语言处理 (NLP:Tokenization, Lemmatization, POS Tagging, NER, etc.) 、分布式系统 (Distributed Processing&Storage) .

  虽然搜索引擎涉及的技术方方面面, 但归结起来最关键的几点在于:

  ●系统:大规模分布式系统, 支撑大规模的数据处理容量和在线查询负载。

  ●数据:数据处理和挖掘能力。

  ●算法:搜索相关性排序、查询分析、分类等。

  由此可见搜索引擎系统是一个由许多模块组成的复杂系统, 核心模块通常包括爬虫、索引、检索和排序, 除了必需的核心模块之外, 通常还需要一些支持辅助模块, 常见的有链接分析、去重、反垃圾、查询分析等。搜索引擎中各关键功能模块功能简介如下:

  (1) 爬虫:从互联网爬取原始网页数据, 存储于文档知识库服务器。

  (2) 文档知识库服务器:存储原始网页数据, 通常是分布式Key-Value数据库, 能根据URL/UID快速获取网页内容。

  (3) 索引:读取原始网页数据, 解析网页, 抽取有效字段, 生成索引数据。索引数据的生成方式通常是增量的, 分块/分片的, 并会进行索引合并、优化和删除。生成的索引数据通常包括:字典数据、倒排表、正排表、文档属性等。生成的索引存储于索引服务器。

  (4) 索引服务器:存储索引数据, 主要是倒排表, 通常是分块、分片存储, 并支持增量更新和删除。数据内容量非常大时, 还根据类别、主题、时间、网页质量划分数据分区和分布, 更好地服务在线查询。

  (5) 检索:读取倒排表索引, 响应前端查询请求, 返回相关文档列表数据。

  (6) 排序:对检索器返回的文档列表进行排序, 基于文档和查询的相关性、文档的链接权重等属性。

  (7) 链接分析:收集各网页的链接数据和锚文本 (Anchor Text) , 以此计算各网页链接评分, 最终会作为网页属性参与返回结果排序。

  (8) 网页去重:提取各网页的相关特征属性, 计算相似网页组, 提供离线索引和在线查询的去重服务。

  (9) 网页反垃圾:收集各网页和网站历史信息, 提取垃圾网页特征, 从而对在线索引中的网页进行判定, 去除垃圾网页。

  (10) 查询分析:分析用户查询, 生成结构化查询请求, 指派到相应的类别、主题数据服务器进行查询。

  (11) 页面描述/摘要:为检索和排序完成的网页列表提供相应的描述和摘要。

  (12) 前端:接受用户请求, 分发至相应服务器, 返回查询结果。