区块链技术博客
www.b2bchain.cn

Python中利用正则表达式做数据清洗(re)

这篇文章主要介绍了Python中利用正则表达式做数据清洗(re)的讲解,通过具体代码实例进行20741 讲解,并且分析了Python中利用正则表达式做数据清洗(re)的详细步骤与相关技巧,需要的朋友可以参考下https://www.b2bchain.cn/?p=20741

本文实例讲述了2、树莓派设置连接WiFi,开启VNC等等的讲解。分享给大家供大家参考文章查询地址https://www.b2bchain.cn/7039.html。具体如下:

目录

  • 1.常用正则表达式
      • Python中常用正则表达式
  • 2.正则表达式做数据清洗
    • 2.1 从网页HTML标签中提取文本
    • 2.2 去掉英文文章中标点符号,提取词汇
    • 2.3 提取以.com结尾的邮箱

1.常用正则表达式

Python中常用正则表达式

2.正则表达式做数据清洗

2.1 从网页HTML标签中提取文本

import re text = "<div><p>n你好nPython:</p><p>Python是一种跨平台的计算机程序设计语言。 </p><p><br></p><p>是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。</p><p>最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。&nbsp;</p><br><a>快来学习Python吧!</a></div>" result = re.sub(r"<.*?>|&nbsp;|n", "", text) print(result) 

输出:

Python中利用正则表达式做数据清洗(re)

2.2 去掉英文文章中标点符号,提取词汇

import re text = "This isn't to be alarmist. (Optimists point out that technological upheaval has benefited workers in the past.) The Industrial Revolution didn't go so well for Luddites whose jobs were displaced by mechanized looms, but it eventually raised living standards and created more jobs than it destroyed. Likewise, automation should eventually boost productivity, stimulate demand by driving down prices, and free workers from hard, boring work. But in the medium term, middle-class workers may need a lot of help adjusting." result = re.sub(r"[^A-Za-z]", " ", text) print(result) 

输出:

Python中利用正则表达式做数据清洗(re)

2.3 提取以.com结尾的邮箱

import re text = "[email protected], [email protected], [email protected], [email protected], [email protected]" result = re.findall(r"[a-zA-Z0-9_][email protected][a-zA-Z0-9_]+.com", text) print(result) 

输出:

Python中利用正则表达式做数据清洗(re)

本文转自互联网,侵权联系删除Python中利用正则表达式做数据清洗(re)

赞(0) 打赏
部分文章转自网络,侵权联系删除b2bchain区块链学习技术社区 » Python中利用正则表达式做数据清洗(re)
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

b2b链

联系我们联系我们