信息检索技术论文

时间:2021-08-31

  近年来,计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展。今天小编要给大家介绍的便是信息检索技术论文,欢迎阅读!

信息检索技术论文

  [摘要]通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结,从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。机器翻译技术和多边共同分类体系的完善有助于提高计算机检索效率、消除语言障碍,而语义检索、图像检索和文献自动处理技术的发展有望使面向不同层次用户的计算机智能化检索系统得以实现。

[关键词]专利文献 计算机检索 语义检索 图像检索

1、前言

  近年来,计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展,专利文献的计算机检索技术正成为情报检索领域研究的热点。下文拟从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。

2、多语言混合检索

  专利文献是由各国、各地区专利局或世界知识产权局出版的官方文献,因此一般以各局官方语言出版。虽然大部分专利文献是英语文献,但是仍然存在大量日文、中文、德文、法文及其他语种的文献。出版语言的多样性给专利文献的检索和利用带来了极大的障碍,要实现多语言混合检索,机器翻译是必不可少的技术。目前一些专利局在其上推出了机器翻译系统,例如我国国家知识产权局提供有汉英机器翻译,日本特许厅提供有日英机器翻译,韩国知识产权局提供有韩英机器翻译等,上述网络机器翻译系统对其他国家的用户阅读方便和使用本国专利文献起到了帮助作用。

  随着计算机技术的发展,机器翻译的技术也迅速发展,从传统的基于规则的机器翻译扩展到了基于实例或模版的机器翻译、统计机器翻译等。尤其是近年来语言学和人工智能技术的发展,以语义描述或以知识描述为特征的智能机器翻译系统正逐步成为研究的热点。专利文献作为一种特殊的科技文献,由于其具有特定的句法和语言结构,同时例如权利要求书等具有法律公示性文件的作用,这对翻译的准确性提出了更高的要求,已有研究者通过在机器翻译系统内集成多个翻译引擎、对不同特点的内容使用不同引擎翻译的方式来提高翻译质量。

  已有的机器翻译系统基本局限于单篇文献的机器翻译,无法实现真正的多语言混合检索。多语言混合检索系统不仅可以允许混合语言的检索式,而且同一个检索式还可以对不同语言的专利文献进行检索,其实现方式主要有如下三种:翻译检索式、翻译文献或者两者相结合的混合式。翻译检索式的工作量小,比较适合于因特网检索,但由于检索式通常缺乏语境,翻译难度较大;翻译文献的方式虽然有利于提高翻译质量,进而有利于文献检索,但存在的主要问题是翻译量太大、翻译时间长。

3、分类检索

  分类号一直是专利文献检索的重要手段。目前除了基本涵盖各国专利文献的国际专利分类(IPC)之外,美国专利商标局、日本特许厅和欧洲专利局各自都有自己的分类体系,分别是UC、FI/FT和ECLA。IPC虽然通用,但存在分类标准不统一、分类条目不够完备、文献分类更新不及时等缺陷,导致使用IPC检索的效果欠佳。UC和FI/FT分别只能检索美国和日本的专利文献,ECLA虽然能够检索到多国的文献,但仍然不能有效地检索日本、韩国、中国等国的专利文献。

  为改善这种局面,美国、日本和欧洲自2000年即开始了“三边分类和谐计划”,该计划旨在推进ECLA、UC和FI三个分类体系的融合以增强分类号检索的功能,同时对现有IPC分类体系提出改进建议。依据2009年召开的第27次三边会议,韩国知识产权局已经加入上述计划,而中国国家知识产权局也以观察国的身份参与这项工作。此外,近年来美国专利商标局、日本特许厅、欧洲专利局、韩国知识产权局和中国国家知识产权局五局积极开展合作,其中一个重要的合作项目是“共同的分类”。该项目的实施将有利于提高分类的一致性,扩展或细化部分技术领域的分类,进而提高检索的效率和质量。

  不管是美日欧三方开展的“三边分类和谐计划”,还是五局共同开展的“共同的分类”项目,都必将推进专利文献分类体系的进一步发展,实现真正意义上的“基于检索的分类”,进一步增强分类号在专利文献计算机检索中的作用。

4、语义检索

  当前专利文献检索的主要手段为关键词和分类号检索,而由于一词多义、一义多词,专利文献撰写、加工和翻译质量不一以及关键词的机械匹配等问题,本质上决定了其查全率和查准率受限制。随着计算技术、人工智能、自然语言处理等技术的发展,搜索引擎的智能化有望从根本上提高现有检索系统的检索质量。

  搜索引擎的智能化具体表现为语义检索,也称为知识检索或概念检索。语义检索是对检索条件、信息组织及检索结果显示赋予一定语义成分的一种新的检索方式。语义检索的本质在于以语义为对象进行搜索,而不是对字符串进行简单的机械匹配,因此可避免关键词匹配检索中由于词和义不对应所导致的问题。

  语义检索过程一般包括对被检索的文档以及输入的检索式进行语义分析和匹配处理。这种语义分析处理依赖于词汇的语义描述技术以及分别用于词义鉴别和词汇过滤的语义识别技术和词汇链算法。可以通过诸如WordNet等语义词典对词汇实现较完备的语义描述,保证人和机器对词汇的理解一致。

  最新发展的潜在语义索引通过将文献搜索过程中的向量空间模型和奇异值分解相结合,可以揭示文档中的词间关系,因而适于构建专利文献搜索引擎”…。利用语义进行检索还可以将专利文献中的`非技术性信息考虑在内,例如将特定的技术概念和申请人、发明人等信息进行语义联系。此外,语义检索还可以从用户角度出发,考虑用户的检索需求,从而为诸如查新、侵权等不同目的的检索提供相应的结果。

  近年来国内一些开发商也纷纷提供具有语义检索功能的专利文献检索系统,例如东方灵盾开发的专利检索系统和Patenticst网站。Patentics网站除了可以实现传统的关键词检索功能,还支持语义检索,仅通过输入检索所针对的专利文献号,即可自动对其进行语义分析、文献检索,并对结果进行相关度排序。当前专利文献检索领域还未广泛应用语义检索,但随着研究的深入,相信未来的搜索引擎不仅能利用语义技术提高检索的效率,还有望能对检索结果进行分析、评价,甚至自动生成检索报告。