今天在做数据清洗的时候看到\b有点晕乎乎的,参考了一下大佬们的文章虽然讲的很好但是字太多了,今天我来说一个简化版本,保证你们神清气爽~
基础知识:
\w:单词字符A-Z a-z 0-9
\W:^\w
\b:匹配\w和\W之间的
\B:^\b
好了,我知道你们已经晕了嘿嘿嘿,开始说人话~
例子讲解:
我们要将类似于Co的字母去掉(这里就是一些乱码,没有实际含义,让数据变的干净一些方便后面分析)
咱们主要讲解这里:
\b\w{1,2}\b
拆解:
\b代表边界,单词边界指的就是单词与符号/非单词中间的边界
w{1,2}代表单词字符A-Z a-z 0-9最少一个最多两个
合在一起:
单词字符A-Z a-z 0-9最少一个最多两个,用非单词字母(就是一些空格、\n \t…)作为边界给他们区分开
放在例子中:
我需要把处在两个空格中的长度为2的Co筛选出来
菜鸟刚开始学,如果有说的不对的地方欢迎指正,一起加油嘿嘿嘿~
版权归原作者 今天加油鸭� 所有, 如有侵权,请联系我们删除。