0


Python机器学习从入门到高级:玩转日期型数据(含代码)

Python机器学习:日期型数据处理

  • 🌸个人主页:JoJo的数据分析历险记
  • 📝个人介绍:小编大四统计在读,目前保研到统计学top3高校继续攻读统计研究生
  • 💌如果文章对你有帮助,欢迎✌关注、👍点赞、✌收藏、👍订阅专栏

文章目录

在我们进行一些时间序列问题时,往往要对日期型数据进行分析处理,本章介绍一下如何使用python处理日期型数据

💮1. 将字符串转换成日期

  1. # 导入相关库;import pandas as pd
  2. import numpy as np
  1. # 创建字符串
  2. date_strings = np.array(['03-04-2005 11:35 PM','23-05-2010 12:01 AM','04-09-2009 09:09 PM'])
  1. # 转换成datetime 类型的数据[pd.to_datetime(date,format='%d-%m-%Y %I:%M %p')for date in date_strings]
  1. [Timestamp('2005-04-03 23:35:00'),
  2. Timestamp('2010-05-23 00:01:00'),
  3. Timestamp('2009-09-04 21:09:00')]
  1. # 我们还可以增加errors参数来处理错误# 转换成datetime类型的数据[pd.to_datetime(date,format='%d-%m-%Y %I:%M %p', errors ='coerce')for date in date_strings]
  1. [Timestamp('2005-04-03 23:35:00'),
  2. Timestamp('2010-05-23 00:01:00'),
  3. Timestamp('2009-09-04 21:09:00')]

当传入

  1. errors = 'coerce'

参数时,即使转换错误也不会报错,但是会将错误的值返回为

  1. Nan

(缺失值)

🏵️2. 处理时区

一般而言,pandas的对象默认是没有时区的,不过我们也可以在创建对象时通过tz参数指定时区

  1. import pandas as pd
  1. # 创建一个dataframe
  2. pd.Timestamp('2017-05-01 06:00:00', tz ='Europe/London')
  1. Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')
  1. # 可以使用tz_locallize添加时区信息
  2. data = pd.Timestamp('2017-05-01 06:00:00')
  1. # 设置时区
  2. data_in_london = data.tz_localize('Europe/London')
  1. data_in_london
  1. Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')
  1. # 我们还可以使用tz_convert来转换时区
  2. data_in_london.tz_convert('Asia/Chongqing')
  1. Timestamp('2017-05-01 13:00:00+0800', tz='Asia/Chongqing')
  1. # Series对象还可以对每一个元素应用tz_localiz和tz_convert
  2. dates = pd.Series(pd.date_range('2002-02-02', periods=3, freq='M'))
  1. # 设置时区
  2. dates.dt.tz_localize('Asia/Chongqing')
  1. 0 2002-02-28 00:00:00+08:00
  2. 1 2002-03-31 00:00:00+08:00
  3. 2 2002-04-30 00:00:00+08:00
  4. dtype: datetime64[ns, Asia/Chongqing]

🌹3. 选择日期和时间

  1. dataframe = pd.DataFrame()
  1. dataframe['date']= pd.date_range('2001-01-01 01:00:00', periods=100000, freq='H')

删选两个日期之间的观察值, 用

  1. &

来表示且的关系

  1. dataframe[(dataframe['date']>'2002-01-01 01:00:00')&(dataframe['date']<='2002-1-1 04:00:00')]

date87612002-01-01 02:00:0087622002-01-01 03:00:0087632002-01-01 04:00:00
另一种方法,将date这一列设为索引,然后用loc删选

  1. dataframe = dataframe.set_index(dataframe['date'])
  1. dataframe.loc['2002-1-1 01:00:00':'2002-1-1 04:00:00']

datedate2002-01-01 01:00:002002-01-01 01:00:002002-01-01 02:00:002002-01-01 02:00:002002-01-01 03:00:002002-01-01 03:00:002002-01-01 04:00:002002-01-01 04:00:00

🌺4. 将数据切分成多个特征

  1. df = pd.DataFrame()
  2. df['date']= pd.date_range('1/1/2001', periods=150, freq='w')

创建年月日时分的特征

  1. df['year']= df['date'].dt.year
  2. df['month']= df['date'].dt.month
  3. df['day']= df['date'].dt.day
  4. df['hour']= df['date'].dt.hour
  5. df['minute']= df['date'].dt.minute
  1. df.head()

dateyearmonthdayhourminute02001-01-072001170012001-01-1420011140022001-01-2120011210032001-01-2820011280042001-02-0420012400

🌻5.计算两个日期之间的时间差

  1. import pandas as pd
  2. dataframe = pd.DataFrame()
  3. dataframe['Arrived']=[pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]
  4. dataframe['left']=[pd.Timestamp('01-01-2017'), pd.Timestamp('01-06-2017')]
  1. # 计算两个特征直接的时间间隔
  2. dataframe['left']- dataframe['Arrived']
  1. 0 0 days
  2. 1 2 days
  3. dtype: timedelta64[ns]

本章的介绍到此介绍,如果文章对你有帮助,请多多点赞、收藏、评论、关注支持!!


本文转载自: https://blog.csdn.net/weixin_45052363/article/details/124535225
版权归原作者 JoJo的数据分析历险记 所有, 如有侵权,请联系我们删除。

“Python机器学习从入门到高级:玩转日期型数据(含代码)”的评论:

还没有评论