- 浏览: 221780 次
- 性别:
- 来自: 重庆
文章分类
最新评论
-
NX:
...
java中正则表达式 -
zjxs_sky100:
...
java中正则表达式 -
qzrwe:
java中正则表达式 -
meteor_1988:
深入了很多
设计模式之java接口和java抽象类 -
zlb824:
谢谢分享!转啦
struts1.1 配置文件属性
java正则表达式的语法:
我们先从简单的开始。假设你要搜索一个包含字符“cat”的字符串,搜索用的正则表达式就是“cat”。如果搜索对大小写不敏感,单词“catalog”、“Catherine”、“sophisticated”都可以匹配。也就是说: |
1.1 句点符号 |
假设你在玩英文拼字游戏,想要找出三个字母的单词,而且这些单词必须以“t”字母开头,以“n”字母结束。另外,假设有一本英文字典,你可以用正则表达式搜索它的全部内容。要构造出这个正则表达式,你可以使用一个通配符——句点符号“.”。这样,完整的表达式就是“t.n”,它匹配“tan”、“ten”、“tin”和“ton”,还匹配“t#n”、“tpn”甚至“t n”,还有其他许多无意义的组合。这是因为句点符号匹配所有字符,包括空格、Tab字符甚至换行符: |
1.2 方括号符号 |
为了解决句点符号匹配范围过于广泛这一问题,你可以在方括号(“[]”)里面指定看来有意义的字符。此时,只有方括号里面指定的字符才参与匹配。也就是说,正则表达式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配,因为在方括号之内你只能匹配单个字符: |
1.3 “或”符号 |
如果除了上面匹配的所有单词之外,你还想要匹配“toon”,那么,你可以使用“|”操作符。“|”操作符的基本意义就是“或”运算。要匹配“toon”,使用“t(a|e|i|o|oo)n”正则表达式。这里不能使用方扩号,因为方括号只允许匹配单个字符;这里必须使用圆括号“()”。圆括号还可以用来分组,具体请参见后面介绍。 |
1.4 表示匹配次数的符号 |
表一显示了表示匹配次数的符号,这些符号用来确定紧靠该符号左边的符号出现的次数: |
假设我们要在文本文件中搜索美国的社会安全号码。这个号码的格式是999-99-9999。用来匹配它的正则表达式如图一所示。在正则表达式中,连字符(“-”)有着特殊的意义,它表示一个范围,比如从0到9。因此,匹配社会安全号码中的连字符号时,它的前面要加上一个转义字符“\”。 |
图一:匹配所有123-12-1234形式的社会安全号码 |
假设进行搜索的时候,你希望连字符号可以出现,也可以不出现——即,999-99-9999和999999999都属于正确的格式。这时,你可以在连字符号后面加上“?”数量限定符号,如图二所示:
|
|
图二:匹配所有123-12-1234和123121234形式的社会安全号码 |
下面我们再来看另外一个例子。美国汽车牌照的一种格式是四个数字加上二个字母。它的正则表达式前面是数字部分“[0-9]{4}”,再加上字母部分“[A-Z]{2}”。图三显示了完整的正则表达式。 |
图三:匹配典型的美国汽车牌照号码,如8836KV |
1.5 “否”符号 |
“^”符号称为“否”符号。如果用在方括号内,“^”表示不想要匹配的字符。例如,图四的正则表达式匹配所有单词,但以“X”字母开头的单词除外。 |
图四:匹配所有单词,但“X”开头的除外 |
1.6 圆括号和空白符号 |
假设要从格式为“June 26, 1951”的生日日期中提取出月份部分,用来匹配该日期的正则表达式可以如图五所示: |
|
图五:匹配所有Moth DD,YYYY格式的日期 |
新出现的“\s”符号是空白符号,匹配所有的空白字符,包括Tab字符。如果字符串正确匹配,接下来如何提取出月份部分呢?只需在月份周围加上一个圆括号创建一个组,然后用ORO API(本文后面详细讨论)提取出它的值。修改后的正则表达式如图六所示: |
图六:匹配所有Month DD,YYYY格式的日期,定义月份值为第一个组 |
1.7 其它符号 |
为简便起见,你可以使用一些为常见正则表达式创建的快捷符号。如表二所示: |
表二:常用符号 |
例如,在前面社会安全号码的例子中,所有出现“[0-9]”的地方我们都可以使用“\d”。修改后的正则表达式如图七所示: |
图七:匹配所有123-12-1234格式的社会安全号码 |
三、应用实例 |
下面我们来看看Jakarta-ORO库的一些应用实例。 |
3.1 日志文件处理 |
任务:分析一个Web服务器日志文件,确定每一个用户花在网站上的时间。在典型的BEA WebLogic日志文件中,日志记录的格式如下: |
分析这个日志记录,可以发现,要从这个日志文件提取的内容有两项:IP地址和页面访问时间。你可以用分组符号(圆括号)从日志记录提取出IP地址和时间标记。 |
首先我们来看看IP地址。IP地址有4个字节构成,每一个字节的值在0到255之间,各个字节通过一个句点分隔。因此,IP地址中的每一个字节有至少一个、最多三个数字。图八显示了为IP地址编写的正则表达式: |
图八:匹配IP地址 |
IP地址中的句点字符必须进行转义处理(前面加上“\”),因为IP地址中的句点具有它本来的含义,而不是采用正则表达式语法中的特殊含义。句点在正则表达式中的特殊含义本文前面已经介绍。 |
日志记录的时间部分由一对方括号包围。你可以按照如下思路提取出方括号里面的所有内容:首先搜索起始方括号字符(“[”),提取出所有不超过结束方括号字符(“]”)的内容,向前寻找直至找到结束方括号字符。图九显示了这部分的正则表达式。 |
图九:匹配至少一个字符,直至找到“]” |
现在,把上述两个正则表达式加上分组符号(圆括号)后合并成单个表达式,这样就可以从日志记录提取出IP地址和时间。注意,为了匹配“- -”(但不提取它),正则表达式中间加入了“\s-\s-\s”。完整的正则表达式如图十所示。 |
图十:匹配IP地址和时间标记 |
现在正则表达式已经编写完毕,接下来可以编写使用正则表达式库的Java代码了。 |
为使用java,首先创建正则表达式字符串和待分析的日志记录字符串: |
这里使用的正则表达式与图十的正则表达式差不多完全相同,但有一点例外:在Java中,你必须对每一个向前的斜杠(“\”)进行转义处理。图十不是Java的表示形式,所以我们要在每个“\”前面加上一个“\”以免出现编译错误。遗憾的是,转义处理过程很容易出现错误,所以应该小心谨慎。你可以首先输入未经转义处理的正则表达式,然后从左到右依次把每一个“\”替换成“\\”。如果要复检,你可以试着把它输出到屏幕上。 |
一个正则表达式,也就是一串有特定意义的字符,必须首先要编译成为一个Pattern类的实例,这个Pattern对象将会使用matcher()方法来生成一个Matcher实例,接着便可以使用该
Matcher实例以编译的正则表达式为基础对目标字符串进行匹配工作,多个Matcher是可以共用一个Pattern对象的。
代码如下:
public static void groupString (String rexp,String s) { Pattern p = Pattern.compile(rexp); Matcher m = p.matcher(s); boolean result = m.find(); System.out.println("该次查找获得匹配组的数量为:"+m.groupCount()); while (result) { System.out.println(m.group(1)); System.out.println(m.group(2)); result = m.find(); } }
public static void main(String[] args) { String s = "172.26.22.221 - - [26/Feb/2001:10:56:03 -0500]\"get/isAlive.html Http/1.0\"200 15"; String rexp="([\\d]{1,3}\\.[\\d]{1,3}\\.[\\d]{1,3}\\.[\\d]{1,3})\\s\\-\\s\\-\\s\\[([^\\]]+)\\]"; groupString(rexp,s); }
运行结果:
该次查找获得匹配组的数量为:2
172.26.22.221
26/Feb/2001:10:56:03 -0500
正则表达式的第二用途:查找某个字符串,用指定的字符串替换掉查找到的字符串
public static void replace() { //生成Pattern对象并且编译一个简单的正则表达式"Kelvin" Pattern p = Pattern.compile("Kelvin"); // 用Pattern类的matcher()方法生成一个Matcher对象 Matcher m = p.matcher("Kelvin Li and Kelvin Chan are both working in Kelvin Chen's KelvinSoftShop company"); StringBuffer sb = new StringBuffer(); int i=0; // 使用find()方法查找第一个匹配的对象 boolean result = m.find(); // 使用循环将句子里所有的kelvin找出并替换再将内容加到sb里 while(result) { i++; // 将当前匹配子串替换为指定字符串,并且将替换后的子串以及其之前到上次匹配子串之后的字符串段添加到一个StringBuffer对象里 m.appendReplacement(sb, "Kevin"); System.out.println("第"+i+"次匹配后sb的内容是:"+sb); // 继续查找下一个匹配对象 result = m.find(); } // 最后调用appendTail()方法将最后一次匹配后的剩余字符串加到sb里; m.appendTail(sb); System.out.println("调用m.appendTail(sb)后sb的最终内容是:"+ sb.toString()); }
public static void main(String[] args) { public static void main(String[] args) { replace(); } }
运行结果:
第1次匹配后sb的内容是:Kevin
第2次匹配后sb的内容是:Kevin Li and Kevin
第3次匹配后sb的内容是:Kevin Li and Kevin Chan are both working in Kevin
第4次匹配后sb的内容是:Kevin Li and Kevin Chan are both working in Kevin Chen's Kevin
调用m.appendTail(sb)后sb的最终内容是:Kevin Li and Kevin Chan are both working in Kevin Chen's KevinSoftShop company
正则表达式的第三用途:判断整个字符串是否匹配某种模式
public static void isPattern(String rexp,String s) { Pattern p = Pattern.compile(rexp); Matcher m = p.matcher(s); if (m.matches()) { System.out.println("true"); } else { System.out.println("false"); } }
public static void main(String[] args) { isPattern("[A-Za-z]+", "44lskdjksdlj"); /* 是否为字母*/ isPattern("\\d+", "44215"); /* 是否为数字*/ isPattern("[^A-Za-z\\d]+", "-==1"); /* 是否不是数字和字母*/ isPattern("[A-Za-z\\d]+@[^p]+\\.com", "joezheng1314@sianp\\+.com"); /* 是否是email地址*/ group ("(ca).(t)","one ca,twot cabt int the yard"); }
运行结果:
false
true
false
false
正则表达式的第四用途:返回匹配的字符串
例如:一任意的字符串,输出是字母的字符串,并统计各个字母有几个;有两种方法:
第一种
public static Map mat3() { Map map = new HashMap(); String s = "sdfsdfdsfaaalllk3222ddddddd"; Pattern pattern = Pattern.compile("([a-zA-Z])"); Matcher mat= pattern.matcher(s); boolean result = mat.find(); while (result) { String pat =mat.group(1); //得到匹配的字符 // System.out.println(mat.group(1)); if (map.containsKey(pat)) { Integer obj = (Integer)map.get(pat); int num = obj.intValue(); map.put(pat, new Integer(++num)); } else { map.put(pat, new Integer(1)); } result = mat.find(); } return map; }
第二种方法:不统计各个字母个数了,参照第一种
mat.start(); 返回匹配的字符串的初始索引
mat.end(); 返回最后匹配字符之后的偏移量。
s.substring(start, end)) 返回匹配的字符串
public static void mat2() { String s = "sdfsdfdsf3222"; Pattern pattern = Pattern.compile("[a-zA-Z]"); Matcher mat= pattern.matcher(s); boolean result = mat.find(); while (result) { int start = mat.start(); int end = mat.end(); System.out.println("start="+start+"end="+end+" "+s.substring(start, end)); result = mat.find(); }
发表评论
-
JAVA List 移除元素
2014-05-04 21:54 1116JAVA List 移除元素 ArrayList< ... -
java类的初始化顺序
2014-03-07 12:22 763对于静态变量、静态初始化块、变量、初始化块、构造器,它们的初 ... -
Java动态代理一——动态类Proxy的使用
2013-05-03 11:22 906Java动态代理一——动态类Proxy的使用 1.什么 ... -
java将oracle一个表的数据同步到另一个数据库的表(转载)
2013-04-08 14:09 6082Java代码 import java.s ... -
Java Reflection (JAVA反射)
2013-03-05 23:00 661Reflection (JAVA反射) 选择自 l ... -
深入研究java.lang.ThreadLocal类(转载)
2010-09-02 11:25 1565一、概述 Thread ... -
java.math.BigDecimal的用法
2013-01-31 23:45 693问题的提出:如果我们 ... -
Java Exception处理之最佳实践
2010-04-12 23:05 945本文是Exception处理的一篇不错的文章,从Java Ex ... -
递归解排列
2009-03-22 11:19 1348用1、2、2、3、4、5六个数排列组合!求出所有的排列方式,要 ... -
java 编程题
2009-03-18 18:46 1614这个题目感觉有意思, ... -
JAVA去掉一个已经排好序的数组的重复数字,尽量快
2009-02-21 18:00 1451import java.util.Arrays; ... -
JAVA中浅复制与深复制
2009-02-18 11:54 872JAVA中浅复制 与深复制 1.浅复制与深复制 ... -
类的加载
2008-11-13 19:59 888Java 语言是一种具有动态性的解释型编程语言,当指定程序运行 ... -
序列化(Serialization)
2008-11-11 14:48 1387为什么要序列化? 概括来说是为了JVM和JVM之间的对象(数据 ... -
设计模式之java接口和java抽象类
2008-11-09 23:29 1744java不允许多重继承,也就是说一个子类只能有一个父类 ... -
java 抽象类之多态
2008-11-09 20:57 1721子类:Abc,Abcd ABC obj1 = new Abc( ... -
从JVM内存管理的角度谈谈静态方法和静态属性
2008-11-09 18:31 1325我试着从JVM的内存管理 ... -
Java异常处理实例分析--六种异常处理的陋习
2008-10-21 22:57 2725六种异常处理的陋习 你觉得自己是一个Java专家吗?是否肯定自 ... -
JAVA的国际化机制
2008-10-18 23:02 15601、建立properties文件----本地化数据 pro ...
相关推荐
Java中正则表达式使用方法详解.docx 网上搜集的Java中正则表达式使用方法详解
JAVA中正则表达式的应用 个人在网上 自己在家里写一些 java中常用的正则表达式 文件格式doc
在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/ 或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则...
java中正则表达式Pattern类的应用,基本上用来验证之类的应用
java程序开发一些较实用的正则表达式用法,简单易懂,希望对广大程序员朋友有所帮助。
主要介绍了java中正则表达式实例详解的相关资料,需要的朋友可以参考下
获取每次使用引起小损失的分组。如果你实际并不需要获取一个分组内的文本,那么就使用非捕获分组。
有重点和调理,一看就会了. 只要涉及java两个类
NULL 博文链接:https://summerbell.iteye.com/blog/611838
Java中正则表达式去除html的标签,主要目的更精确的显示内容,接下来通过本文给大家介绍Java中正则表达式去除html标签的方法,需要的朋友参考下
主要介绍了Java中正则表达式的使用和详解,包括匹配验证验证email是否正确,在字符串中查询字符或者字符串的代码实例,需要的朋友可以参考下
主要介绍了Java中正则表达式split()特殊符号使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
/** * @param 日期验证,验证的格式有: * "yyyyMM","yyyyMMdd","yyyyMMdd HH:mm:ss", * "yyyy-MM","yyyy-MM-dd","yyyy-MM-dd HH:mm:ss" * "yyyy.MM","yyyy.MM.dd","yyyy.MM.dd HH:mm:ss" * "yyyy/MM","yyyy/MM...
]js正则表达式基本语法(精粹): //www.jb51.net/article/72044.htm ... 在JDK1.3及之前的JDK版本中并没有包含正则表达式的类,如果要在Java中使用正则表达式必须使用第三方提供的正则表达式库,最有名的就是Jakart
主要介绍了Java正则表达式的使用和详解(下)的相关资料,包括常用正则表达式和正则表达式语法,非常不错,具有参考借鉴价值,需要的的朋友参考下吧
关于JAVA中正则表达式的速查表,提供了比较全面的正则表达式规则和一些简答的例子