0


Python 获取指定开头指定结尾所夹中间内容

目录

cv的xdm可以直接翻到
需求
代码 用,想看中间的分析就老实往下看吧

little 背景

最近在做毕设,需要将几百篇整体结构差不多的文章中提取出一些内容,所以才有了这个blog。

需求

获取文章中指定开头、指定结尾中所夹的内容。其中,开头和结尾均有多种,但最多也就十几种,所以代码还是具有可行性的。

例:

       X
      
      
       X
      
      
       市
      
      
       人
      
      
       民
      
      
       检
      
      
       察
      
      
       院
      
      
       指
      
      
       控
      
      
       :
      
     
     
      ‾
     
    
   
   
    \underline{XX市人民检察院指控:}
   
  
 XX市人民检察院指控:​被告人XXX与被害人YYY(女,殁年41岁,系XXX妻子)因家庭矛盾多次发生争执。X年Y月Z日早晨,被告人XXX在X市X市场…被告人XXX为偏执性精神障碍,具有限制刑事责任能力。

 
  
   
    
     
      
       公
      
      
       诉
      
      
       机
      
      
       关
      
      
       认
      
      
       为
      
     
     
      ‾
     
    
   
   
    \underline{公诉机关认为}
   
  
 公诉机关认为​,被告人XXX故意非法剥夺他人生命,致一人死亡,其行为应以故意杀人罪追究刑事责任

所需内容为:第一个下划线到第二个下划线中间的内容,即“被告人XXX…责任能力。”。其中,“检察院指控”是指定开头,“公诉机关认为”是指定结尾。

解决方案

原本想着NLP有没有现成的库可以直接调包,后来搜了半天没搜到,然后看到了正则表达式(真香)。

代码

低配方法:

适用于只有一种固定开头和结尾,多种就不行了

import re
defGetMiddleStr(content,startStr,endStr):#     patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr) # 此模式不能跨段,‘.’只能匹配除了'\n'外所有单个字符
    patternStr =r'[\s\S]*%s(.+?)%s[\s\S]*'%(startStr,endStr)#     patternStr = re.compile(patternStr,re.IGNORECASE) # 忽略大小写 ,这个适用于英文文章
    middleStr= re.match(patternStr,content)if middleStr:return middleStr.group(1)

中配方法:

适用于多种固定开头和结尾,不过是蛮力法,可以优化判断,减少循环次数

import re
defGetMiddleStr2(content,startStr,endStr):#     patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr)
    goalStr =str('')for sStr in startStr:for eStr in endStr:
            patternStr =r'[\s\S]*%s(.+?)%s[\s\S]*'%(sStr,eStr)
            middleStr= re.match(patternStr,content)if middleStr:ifnot goalStr:# 判断 空 时候的值
                    goalStr = middleStr.group(1)else:# 非空时,将将短的留下来 
                    goalStr = middleStr.group(1)iflen(goalStr)>len(middleStr.group(1))else goalStr
                    
    return goalStr

运行效果

content='且得到被害人家属谅解。综上,建议法庭对被告人XXX减轻处罚。经审理查明:被告人XXX与被害人YYY因家庭矛盾多次发生争执。X年Y月Z日清晨,被告人XXX在X市X市场......被告人XXX为偏执性精神障碍,具有限制刑事责任能力。公诉机关认为,被告人XXX故意非法剥夺他人生命,致一人死亡,其行为应以故意杀人罪追究刑事责任'
startStr ='经审理查明:'
endStr ='公诉机关认为,'print(GetMiddleStr(content,startStr,endStr))

在这里插入图片描述
第二种运行时将startStr和endStr分别赋值为:[‘AAA’,‘BBB’,…],即可
例如:
startStr = [‘审理查明:’,‘审理查明:’,‘检察院指控’]
endStr = [‘经鉴定’,‘经鉴定,’, ‘归案后’]

代码讲解

正则表达式查一下手册即可:
.*:除了’\n’以外所有字符重复多次
[\s\S]:空白字符或者非空白字符,即所有字符(一个集合∪它在全集中的补集,即全集)
其余查一下手册就ok
正则表达式手册

标签: python nlp

本文转载自: https://blog.csdn.net/qq_43661601/article/details/122519415
版权归原作者 来一粒4869 所有, 如有侵权,请联系我们删除。

“Python 获取指定开头指定结尾所夹中间内容”的评论:

还没有评论