网对网和Web数据挖掘在搜索引擎中的运用论文

时间:2021-08-31

  摘 要:当今网络信息技术日益发展,传统意义上的搜索引擎更加难以满足广大用户日益增长的信息检索需求。在这种趋势下,智能技术在搜索引擎中的应用显得越来越重要。只有将智能技术引进搜索引擎,才能提高用户的工作效率,满足人们日益增长的客观需求。主要介绍了如今搜索引擎的几大分类,传统搜索引擎需要改进的不足以及两大智能技术在搜索引擎中的应用。在智能技术将会更加智能更加发达的未来,搜索引擎也将不断地更新和发展,为人们提供更加高效的搜索体验。

网对网和Web数据挖掘在搜索引擎中的运用论文

  关键词:智能技术;搜索引擎;网对网技术;数据挖掘。

  搜索引擎是根据一定的策略,运用特定的计算机程序来搜索互联网上的信息,在对信息进行组织和处理后,将处理后的结果显示给用户,是为用户提供检索服务的系统。而智能技术在搜索引擎中的实际应用也越来越广泛,不断有新兴的智能技术,搜索引擎也不断地结合这些智能技术来进行自身的变革和发展。这是一个渐进的过程。本文将详细介绍 2 种智能技术在搜索引擎中的应用。

  1.搜索引擎的分类。

  搜索引擎可分为以下 3 类:①全文搜索引擎。全文搜索引擎是最标准的搜索引擎,国外的主要代表是 Google,而国内的主要代表则是百度。全文搜索引擎的主要原理是在互联网中检索与所查目标相匹配的内容,继而建立数据库,按序排列并且将其展示给用户。②目录搜索引擎。从本质来说,目录搜索引擎其实不能算是真正的搜索引擎。只是将网站链接目录分类,用户并不需要输入关键字,根据目录就完全可以找到想要的信息。目录索引最具代表性的就是 Yahoo 和新浪索引。③元搜索引擎。元搜索引擎在接收用户的搜索请求后,可以在各个搜索引擎上同时搜索,随后将结果显示给用户。这一种搜索引擎的国内代表是搜星搜索引擎。

  2.传统搜索引擎相比网络信息检索的缺点。

  传统搜索引擎作为用户在互联网进行信息检索的一个重要途径,给广大用户提供了相当大的便利,随着互联网的迅速发展,用户对搜索引擎又提出了搜索速度更快、搜索效率更高等诸多要求。正是用户的这些需求刺激着搜索引擎的快速发展。传统搜索引擎越来越满足不了用户的需求,主要存在以下几点不足:①搜索引擎从互联网搜索的各种网页水准不一,存在着根本没用或者暂时性的网页。这严重加大了用户检索信息的困难程度,并且严重影响了检索速度。②主流搜索引擎大多采用关键词来检索,由于用户水平的差异,极少数可以总结出关键词或关键词组,以至于用户搜索不到想要的内容,从而加大了检索难度。③每个搜索引擎覆盖的范围虽然不小,但与庞大的互联网相比,简直是九牛一毛。④检索的结果不准确、不唯一,搜索结果为零或者为数万的情况时有发生。⑤不能智能搜索,难以满足用户深层次的需求。

  3.智能技术的运用。

  由于传统引擎的各种缺点,用户越来越渴望更好用、更便捷的搜索方式出现。在这种刺激下,智能技术在搜索引擎中的应用大量出现。这使得搜索引擎需具有一定的智能化和理解能力。当前主要有以下两大智能技术。

  3.1 网对网技术。

  顾名思义,“网对网技术”就是网络和网络对应起来的意思。这其中又要提到两个概念了,是两个单词。一个单词我们都相当熟悉了--Internet.我们常说的互联网,就是这个单词。而在这里,这个单词指的是一个信息网络,也就是我们所说的网络中的信息网。我们想要搜索什么东西时,将它输入搜索引擎中,引擎就会在这个网络库中查找,找到相关信息,然后呈现在我们面前。而另一个词可能就有一些陌生了--Innernet.表面上看起来与 Internet 很像,英文词典中并没有这个词,我们在这里叫它“内联网”.与看起来更像数据库的 Internet 比起来,内联网更像是人类大脑的一个信息网络。这里面不仅仅有我们生活和工作中所用到的各种各样的信息,更重要的是,信息之间繁杂又紧密的联系。就像我们在生活中和他人交流,提到“小伙伴”这个词,我们会想到其他与之有联系的词汇,比如“朋友”“同学”等。同样的,当提到“师父”,我们的大脑也会迅速联想到“师门”“师生”这样的相关词汇。我们所说的内联网,它所着重的,也是信息与信息之间这样息息相关的联系。Internet 和 Innernet都是知识的网络,互联网时代的信息社会发展日新月异,因此无论是哪个网络,其内的信息都是不断变化着的。人们将这个技术运用在搜索引擎中,大大提高了搜索引擎的实用性。作为内联网的 Innernet 和 Internet 联结起来,运用信息之间存在的各种各样的联系,将用户输入搜索引擎中,将复杂的联系正确分割开,然后各自拓展出一些对人们而言有用的信息,将 Internet 中庞大、杂乱的信息进行有序化的筛选和整理,最终将信息呈现在人们的眼前。这大大提高了搜索引擎的可操作性,缩短了人们不断删改语句来配合 Internet 的时间,自然也就提高了用户的工作效率。

  3.2 Web 数据挖掘技术。

  数据挖掘作为一门交叉学科,其原理比较复杂,可以从庞大的数据中将更有用、更有新意的数据挖掘出来,而 Web 挖掘,便是将数据挖掘和 Web 发展联系起来。Web 数据挖掘有 3 种不同的挖掘形式,即内容挖掘、结构挖掘和使用记录的挖掘。

  3.2.1 内容挖掘。

  内容挖掘指的是从 Web 文档中或是描述中挖掘,在网页中进行数据挖掘,其中包括文本、超链接、图像和视频等,而半结构化的数据和无结构的文本便是主要的挖掘对象。

  3.2.2 结构挖掘。

  Web 结构挖掘则是通过网页中的超链接,发现其中信息之间的结构及其紧密或稀疏的联系。在平时上网时,我们只能看到一个个的网页,打开浏览或者关闭。但是在这些页面的背后,其实隐藏着无数个结构链接。Web 数据挖掘就能够通过这些结构上的链接,发现页面与页面、数据与数据之间的联系,随后对它们分类,以便为用户提供含有相似信息的更多页面,帮助用户完善自己想要在搜索引擎中得到的信息。

  3.2.3 使用记录的挖掘。

  与前两者相比,Web 使用记录的挖掘让我们感觉更加熟悉,至少“使用记录”4 个字是我们上网过程中能够看到的。当我们点击一下搜索引擎的输入框想要输入文本时,搜索引擎会自动下拉出我们前几次使用时所查询的内容,以便我们重复查看相似内容的信息。搜索引擎有时也会为我们推荐一些内容的信息。这些信息也会是我们所感兴趣的一些内容,是搜索引擎结合了我们之前的使用记录,为我们提供感兴趣的相类似的内容。这些都是 Web 使用记录挖掘在搜索引擎中的实用例子,但并不是全部。搜索引擎会从用户的访问痕迹中挖掘出很多有意义的数据,包括数据端、服务器端和代理端的数据。而其获得这些数据的途径又分为 KDD 和专业化追踪。这些方法和深度的挖掘,使搜索引擎更加“智能”地了解用户的兴趣和需要。

  4.总结。

  搜索引擎是我们工作、学习和生活中必不可少的实用性技术,正如一个调查中所显示的,85%的人都是通过搜索引擎获取到他们所需要的信息和所喜爱的网站,可见搜索引擎的重要性。随着智能技术的不断更新,人们的生活变得越来越智能,对搜索引擎的要求也会随之越来越高,因此不断利用新的技术完善和提高搜索引擎的智能性,是用户的选择,也是时代的选择,是搜索引擎在现在和未来的发展中必然的趋势,且将一直持续下去。

  参考文献:

  [1]陈勇跃,张玉峰。智能技术在搜索引擎中的应用[J].情报杂志,2004(02):2-3,6.

  [2]杨占华,杨燕。数据挖掘在智能搜索引擎中的应用[J].微计算机信息,2006(12):244-246.

  [3]朱素媛,马溪俊,梁昌勇。人工智能技术在搜索引擎中的应用[J].合肥工业大学学报(自然科学版),2003(S1):657-661.