数据结构论坛

注册

 

发新话题 回复该主题

Pandas处理时间序列数据的20个关键 [复制链接]

1#

时间序列数据有许多定义,它们以不同的方式表示相同的含义。一个简单的定义是时间序列数据包括附加到顺序时间点的数据点。

时间序列数据的来源是周期性的测量或观测。许多行业都存在时间序列数据。举几个例子/p>

一段时间内的股票价格每天,每周,每月的销售额流程中的周期性度量一段时间内的电力或天然气消耗率在这篇文章中,我将列出20个要点,帮助你全面理解如何用Pandas处理时间序列数据。

1.不同形式的时间序列数据

时间序列数据可以是特定日期、持续时间或固定的自定义间隔的形式。

时间戳可以是给定日期的一天或一秒,具体取决于精度。例如,-01-:59:30是基于秒的时间戳。

2.时间序列数据结构

Pandas提供灵活和高效的数据结构来处理各种时间序列数据。

除了这3个结构之外,Pandas还支持日期偏移概念,这是一个与日历算法相关的相对时间持续时间。

3.创建一个时间戳

最基本的时间序列数据结构是时间戳,可以使用to_datetime或Timestamp函数创建

importpandasaspdpd.to_datetime(-9-13)Timestamp(-09-:00:00)pd.Timestamp(-9-13)Timestamp(-09-:00:00)

4.访问按时间戳保存的信息

我们可以获得存储在时间戳中的关于日、月和年的信息。

a=pd.Timestamp(-9-13)a.day_name()Sundaya.month_name()Septembera.day13a.month9a.year

5.隐藏信息访问

时间戳对象还保存有关日期算法的信息。例如,我们可以问这一年是不是闰年。以下是我们可以获得的一些更具体的信息/p>

b=pd.Timestamp(-9-30)b.is_month_endTrueb.is_leap_yearTrueb.is_quarter_startFalseb.weekofyear40

6.欧洲风格的日期

我们可以使用to_datetime函数处理欧洲风格的日期(即日期在先)。dayfirst参数被设置为True。

pd.to_datetime(10-9-,dayfirst=True)Timestamp(-09-:00:00)pd.to_datetime(10-9-)Timestamp(-10-:00:00)

注意:如果第一项大于12,Pandas会知道它不能是月。

pd.to_datetime(13-9-)Timestamp(-09-:00:00)

7.将数据格式转换为时间序列数据

to_datetime函数可以将具有适当列的数据名称转换为时间序列。考虑以下数据格式/p>

pd.to_datetime(df)0-04-131-05--04-11dtypeatetime64[ns]

7.时间戳之外的时间表示

在现实生活中,我们几乎总是使用连续的时间序列数据,而不是单独的日期。而且,Pandas处理顺序时间序列数据非常简单。

我们可以将日期列表传递给to_datetime函数。

pd.to_datetime([-09-13,-08-12,-08-04,-09-05])DatetimeIndex([-09-13,-08-12,-08-04,-09-05],dtype=datetime64[ns],freq=None)

返回的对象是一个DatetimeIndex。

还有一些更实用的方法来创造一系列的时间数据。

9.用todatetime和totimedelta创建时间序列

可以通过将TimedeltaIndex添加到时间戳中来创建DatetimeIndex。

pd.to_datetime(10-9-)+pd.to_timedelta(np.arange(5),D)

“D”用来表示“day”,但是也有很多其他的选择。你可以在这里查看整个列表。

10.date_range函数

它提供了一种更灵活的创建DatetimeIndex的方法。

pd.date_range(start=-01-10,periods=10,freq=M)

参数的作用是:指定索引中的项数。freq是频率,“M”表示一个月的最后一天。

就freq参数而言,date_range非常灵活。

pd.date_range(start=-01-10,periods=10,freq=6D)

我们创建了一个频率为6天的数据。

11.period_range函数

它返回一个PeriodIndex。语法类似于date_range函数。

pd.period_range(,periods=10,freq=M)

12.timedelta_range函数

它返回一个TimedeltaIndex。

pd.timedelta_range(start=0,periods=24,freq=H)

13.时区

默认情况下,Panda的时间序列对象没有指定的时区。

dates=pd.date_range(-01-01,-01-10)dates.tzisNoneTrue

我们可以使用tz_localize方法为这些对象分配时区。

dates_lcz=dates.tz_localize(Europe/Berlin)dates_lcz.tzDstTzInfoEurope/BerlinLMT+0:53:00STD

14.创建一个具有指定时区的时间序列

我们还可以使用tz关键字参数创建带有时区的时间序列对象。

pd.date_range(-01-01,periods=5,freq=D,tz=US/Eastern)

15.偏移量

假设我们有一个时间序列索引,并且想为所有的日期偏移一个特定的时间。

A=pd.date_range(-01-01,periods=10,freq=D)A

让我们给这个数据加上一周的偏移。

A+pd.offsets.Week()

16.移动时间序列数据

时间序列数据分析可能需要移数据点进行比较。移位函数可以移位数据。

A.shift(10,freq=M)

17.Shiftvstshift

移动:移动数据tshift:移动时间索引让我们创建一个带有时间序列索引的dataframe,并绘制它以查看shift和tshift之间的区别。

dates=pd.date_range(-03-01,periods=30,freq=D)values=np.random.randint(10,size=30)df=pd.DataFrame({values:values},index=dates)df.head()

让我们把原始的时间序列和移位的时间序列一起画出来。

importmatplotlib.pyplotaspltfig,axs=plt.subplots(nrows=3,figsize=(10,6),sharey=True)plt.tight_layout(pad=4)df.plot(ax=axs[0],legend=None)df.shift(10).plot(ax=axs[1],legend=None)df.tshift(10).plot(ax=axs[2],legend=None)

18.用取样函数重新采样

时间序列数据的另一个常见操作是重采样。根据任务的不同,我们可能需要以更高或更低的频率重新采样数据。

Resample创建指定内部的组(或容器),并允许您对组进行合并。

让我们创建一个包含30个值和一个时间序列索引的Panda系列。

A=pd.date_range(-01-01,periods=30,freq=D)values=np.random.randint(10,size=30)S=pd.Series(values,index=A)

以下将返回3天时间内的平均值。

S.resample(3D).mean()

在某些情况下,我们可能对特定频率的值感兴趣。函数返回指定间隔结束时的值。例如,在上一步创建的系列中,我们可能只需要每3天(而不是平均3天)一次的值。

S.asfreq(3D)

20.滚动

滚动对于时间序列数据是一种非常有用的操作。滚动意味着创建一个具有指定大小的滚动窗口,并对该窗口中的数据执行计算,当然,该窗口将滚动数据。下图解释了滚动的概念。

值得注意的是,计算开始时整个窗口都在数据中。换句话说,如果窗口的大小为3,那么第一次合并将在第三行进行。

让我们为我们的数据应用一个3天的滚动窗口。

S.rolling(3).mean()[:10]

结论

我们已经全面介绍了用Pandas进行时间序列分析。值得注意的是,Pandas提供了更多的时间序列分析。

感谢您的阅读。如果你有任何反馈,请告诉我。

作者:SonerYldrm

deephub翻译组:孟翔杰

分享 转发
TOP
发新话题 回复该主题