正则表达式的研究和在网页抓取中的应用论文
正则表达式又称正规表示法、常规表示法(Regular Ex-press ion,是计算机科学的一个基本概念)正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串、)在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。
许多程序设计语言都支持利用正则表达式进行字符串操作,例如,在Python中就内建了一个功能强大的正则表达式模块正则表达式这个概念最初是由Unix中的工具软件(例如SPC和grip普及开的)。
1正则表达式历史
正则表达式或许可一直追溯到科学家对人类神经系统工作原理的早期研究、美国新泽西州的Warren McCulloch和出生在美国底特律的Walter Pitts这两位神经生理方面的科学家,研究出了一种用数学方式来描述神经网络的新方法,他们创造性地将神经系统中的神经元描述成了小而简单的自动控制元,从而做出了一项伟大的工作革新。
在1956年,出生在被马克·吐温(Mark Twain)称为“美国最美丽的城市之一”的哈特福德市的一位名叫LIStephenKleene的数学科学家,在Warren McCulloch和Walter Pitts早期工作的基础之上,发表了一篇题目是《神经网事件的表示法》的论文,利用称之为正则集合的数学符号来描述此模型,引入了正则表达式的概念)正则表达式被作为用来描述其称之为“正则集的代数”的一种表达式,因而采用了“正则表达式”这个术语。
2正则表达式基本概念和语法
2.1什么是正则表达式
正则表达式由一些普通字符(literal characters)和一些元字符(meta characters)组成、普通字符包括大小写的字母、数字和可打印的.符号,而元字符则具有特殊的含义。
2.2正则表达式的结构
正则表达式结构为:锚定符字符集修饰符。
2.3正则表达式处理流程
(1)匹配字符串的正则:“bat”,“bit”,“but”,“hat”,“hit”或“hut"。
含义说明:匹配‘h’或者‘h’开头,然后是任意1个字符,然后是‘t’字符和‘,’字符、‘,’字符可以没有,所以‘,’后面有一个‘?’。
(2)匹配用一个空格分隔的任意一对单词,比如,名和姓。
(3)匹配用一个逗号和一个空格分开的一个单词和一个字母、例如,英文人名中的姓和名的首字母。
(4)匹配全体Python整数的字符串表示形式的集合。
3正则表达式在网页抓取中的应用实例
在Web应用中,一个常见的需求是抓取网页中指定的内容,例如网页中的标题,超链接等,这个需求可以用正则表达式很方便地完成。
4结语
正则表达式语法简单,功能强大,在口常的文本处理,网页内容解析上有各种成熟的应用和基于正则的工具,通过正则表达式,大大提高了处理字符串和文本的效率,随着技术的发展正则表达式的应用领域和功能也会越来越强大。
【正则表达式的研究和在网页抓取中的应用论文】相关文章: