一份关于时间序列数据的简介指南
“时间”是数据积累时的一个关键变量。在时间序列分析中,时间是数据的一个重要元素。
什么是时间序列数据?
时间序列数据是指按时间顺序排列的一系列数据点。它在今天的数据驱动世界中无处不在。由于每个事件都遵循时间的箭头,我们与各种时间序列数据不断进行交互。
时间序列通常被假定为在规则的时间间隔生成,并被称为规则时间序列。然而,该时间序列中的数据不一定是在规则的时间间隔内生成的。这种情况包括不规则时间序列,其中数据按时间顺序发生。这意味着测量可能不会以规则的时间间隔发生。然而,数据可能以离散时间间隔或突发方式生成。自动取款或账户存款就是不规则时间序列的例子。
从技术上讲,在时间序列中,一个或多个变量在一定的时间周期内变化。如果单个变量随时间变化,那么它被称为单变量时间序列。例如,考虑一个每秒测量房间温度的传感器。在这里,每个瞬间(即秒)只生成一个一维温度值。相反,当多个变量随时间变化时,称为多变量时间序列。例如,考虑银行经济。在这种情况下,使用多变量时间序列来理解一种变量(例如回购率)的政策变化如何影响其他变量(例如商业银行的贷款发放)。
Time series data在金融、地质学、气象学、制造业、计算机、物联网、自然科学和社会科学等各个领域中都有应用。它被用于跟踪天气变化、出生率、死亡率、市场波动、网络性能和许多其他应用。它的一些主要用例包括监测、预测和异常检测。例如,时间序列预测在确定数据库管理系统的受欢迎程度方面起着关键作用。下图显示了2019年至2021年期间数据库管理系统的受欢迎程度的时间序列图。
时间序列的关键组成部分
影响时间序列观测值的因素被视为其关键组成部分。这些组成部分分为三类:
- 趋势或长期变动
- 短期变动
- 季节性变化
- 循环变化
- 随机或不规则变动
趋势
数据在长时间段内增长或减少的倾向被称为趋势或长期分量。然而,需要注意的是,上升或下降的运动在给定的时间跨度内不一定是同一方向的。
在不同的时间段内,趋势可以上升、下降或保持稳定。然而,总体趋势必须始终等于上升、下降或稳定的模式。这种运动趋势在农业生产力、死亡率、设备制造、工厂数量等例子中是明显的。
线性和非线性趋势
将时间序列值与时间在图表上绘制,可以根据数据聚类的模式确定趋势的类型。如果数据聚类大致围绕一条直线,那么趋势被称为线性趋势。否则,数据聚类模式显示为非线性趋势,因为两个变量之间的变化比率不稳定或不固定。因此,这种趋势也称为曲线相关。
短期变动
在时间序列中,这些组成部分往往在一段时间内重复出现。它们具有不规则的短暂爆发,并影响研究对象下的变量。短期运动下的两种类别类型包括:
季节性变化
这些版本在一年以下的时间段内定期和周期性地运行。它们在12个月的时间段内往往具有相似或几乎相同的模式。如果数据定期记录,例如每小时、每天、每周、每月或每季度记录,这种变化将成为时间序列的一部分。
季节性变化可以是人为的或自然发生的。不同的季节或气候条件在这种变化中扮演关键角色。例如,农作物产量完全依赖于季节。同样,雨伞或雨衣的市场依赖于雨季,而制冷器和空调机组的销量在夏季达到高峰。
人为的惯例包括节日、聚会和婚礼等场合。这些短期事件每年都会再次发生。
周期性变化
时间序列变化往往在一年以上的时间段内运作,被称为周期性变化。对于一个企业来说,一个完整的周期被视为“商业周期”。业务绩效的增长或下降取决于经济结构、业务管理和其他相互作用的力量。这些周期性的业务变化可能是有规律但不定期的。一般来说,企业经历四个阶段的周期过程,包括繁荣、衰退、萧条和复苏。
这种周期性变化对时间序列模式至关重要,因为企业发展严重依赖于生成的“连续数据点”。
随机或不规则运动
随机分量会导致所观察变量的显著变化。这些纯粹是没有固定模式的不规则波动。这些力量是不可预测和不规律的,例如地震、洪水、饥荒和其他灾难。
上述随机事件是使用源时间序列数据来更好地处理可能在未来发生的现实场景。
时间序列的类型
时间序列数据可以分为四种类型:确定性、非确定性、平稳和非平稳。让我们详细看看每种类型。
#1. 确定性时间序列
确定性时间序列可以用解析表达式描述。它不涉及随机或概率方面。从数学上讲,它可以用泰勒级数展开在所有时间间隔上进行精确表达。这是可能的,如果在某个任意时间点上知道了所有导数。这些导数明确地指定了该时间点的过去和未来。如果所有条件都满足,就可以准确地预测它的未来行为,并分析它在过去的行为。
#2. 非确定性时间序列
非确定性时间序列与之相关的随机因素,使得不能对其进行明确的描述。因此,解析表达式不能有效地表示这样一个时间序列。一个时间序列可能是非确定性的,原因如下:
- 描述它所需的信息并不完全可用。虽然原则上可能存在数据,但不能将其作为明确的可量化数据处理。
- 数据生成过程是随机的。
由于随机因素的存在,非确定性时间序列遵循概率规律。因此,数据用统计术语来描述,即数据由概率分布和各种形式的平均值定义。这包括均值和离散度的度量,例如方差。
#3. 平稳时间序列
在一个固定的时间序列中,统计属性,如均值、方差和其他属性,不依赖于时间因素。一个固定的时间序列更容易预测,因为可以确定其统计属性将保持与过去观察到的相同。因此,各种统计预测方法基于一个论点,即时间序列几乎是固定的。这意味着可以通过应用简单的数学变换将时间序列近似地看作是固定的。
#4. 非固定时间序列
在非固定的时间序列中,统计属性随时间变化。因此,具有趋势或季节性的时间序列属于非固定类别,因为趋势和季节性可能会影响时间序列在不同时间间隔内的值。非固定时间序列描述了不可预测的数据,使其无法建模或预测。
时间序列分析和预测
时间序列分析和预测是观察、分析和研究各种重要过程和对象的演变和动态的有用工具。让我们更深入地了解每个工具。
时间序列分析
时间序列分析被定义为对一段时间内收集的数据进行分析的过程。在这里,数据分析师在固定的时间段内以恒定的间隔记录数据。数据观察率,即时间间隔,可以从秒到年的不同时间跨度。
时间序列数据描述了所检查的变量,因为它提供了在特定时间跨度内波动模式的详细分析。用于分析的参数可能在不同领域和学科之间有所不同。其中一些示例可能包括:
- 科学仪器-每天记录的数据
- 商业网站-每天的客户访问次数
- 股市-每周的股票价值
- 季节-每年的雨天数
为了确保一致性和可靠性,时间序列分析使用大量的数据点。一个良好的样本大小是发现趋势或模式真实性的微妙表示。
此外,时间序列分析也适用于基于过去记录的数据预测未来事件。
时间序列预测
时间序列分析使组织能够确定时间趋势波动的根本原因。有了数据,企业可以进一步研究和研究,以更好地了解如何应对陌生的趋势和预测即将发生的事件。公司通常使用data visualization技术来确定数据中的这些异常情况。
时间序列预测围绕两个重要因素展开:
- 基于过去数据行为预测未来事件。
- 假设即将发生的趋势将与过去的数据模式相似。
在预测中,主要目标是基本上预测数据点在未来将如何保持不变或变化。以下是来自不同行业部门的一些示例,以更好地了解时间序列分析和预测的细微差别。
- 股票市场-预测每天的收盘股价。
- 销售-预测每天的产品销售量。
- 定价-预测每天的平均燃油价格。
用于时间序列预测的常见统计技术包括简单移动平均(SMA)、指数平滑(SES)、自回归综合移动平均(ARIMA)和神经网络(NN)。
云中的时间序列数据
为了揭示时间序列数据的价值,企业应能够快速存储和查询数据。资本市场公司依赖大量的历史和流数据来进行实时数据分析和做出有影响力的业务决策。这可能涉及预测股票价格的脆弱性、确定净资本要求或预测汇率。为了提供灵活性和无缝处理数据,许多公司正在选择将他们的时间序列数据库迁移到云端。
通过将时间序列数据库迁移到云端,组织可以随需求获得无限资源的访问权限。它允许企业利用数百个核心来完成任务,最大限度地提高网络吞吐量而不会出现延迟问题。
云基础设施中的时间序列数据库适用于计算密集型工作负载。这包括根据实时市场趋势进行风险计算。金融机构可以摆脱数据中心的开销,集中利用资源来提高工作负载的生产力。
云供应商如(链接3)提供(链接4),这是一个时间序列数据库服务,允许轻松加载、存储和分析时间序列数据集。他们提供存储以管理交易密集型工作负载,实时分析工具和数据流功能,以实现事件的及时特性。
因此,云基础设施放大和扩展了时间序列数据的好处。
时间序列的应用
时间序列模型有两个目的,
理解产生特定数据模式的潜在因素。
基于分析,拟合模型进行预测和监测。
让我们看一些时间序列数据的应用用例。
(图片4)
# 1. 金融和商业领域的时间序列
所有金融、商业和投资决策都是基于当前市场趋势和需求预测的。时间序列数据用于解释、相关和预测动态的金融市场。金融专家可以通过研究金融数据来为应用程序提供预测,帮助风险缓解、稳定定价和交易。
时间序列分析在金融分析中起着关键作用。它用于预测利率、预测(链接5)的波动等等。业务利益相关者和决策者可以对制造、采购、资源分配做出明智决策,并优化他们的业务运营。
这种分析在投资领域中被有效地用于监测安全价格及其随时间的波动。安全价格也可以在短期内观察(即,每小时或每天记录数据)或长期观察(即,延伸几个月或几年的观察)。时间序列分析是一种有用的工具,可以追踪证券、资产或经济变量在长时间内的表现。
# 2. 医疗领域的时间序列
医疗保健迅速成为一个数据驱动的领域。除了金融和商业分析外,医疗领域也极大地利用时间序列分析。
考虑一个需要在治疗癌症患者时结合时间序列数据、医学相关流程和数据挖掘技术的场景。这样的混合框架可以利用从收集的时间序列数据(即,患者的X射线图像)中提取特征的功能,以追踪患者的进展和对医疗界提供的治疗的反应。
在医疗保健领域,从不断变化的时间序列数据中推断出结论具有关键价值。此外,先进的医疗实践要求将病人记录与时间相连接,以更好地了解病人的健康状况。此外,病人的健康参数必须在规律的间隔时间内精确记录,以便更清晰地了解病人的健康状况。
随着先进的医疗仪器的出现,时间序列分析已在医疗领域确立了自己的地位。以下是一些例子:
- 心电图仪:用于通过记录心脏的电脉冲来监测心脏状况的设备。
- 脑电图仪:用于量化大脑的电活动的设备。
这些设备使医务人员能够进行时间序列分析,以进行更快、更有效和更准确的医学诊断。
此外,随着可穿戴传感器和便携式医疗设备等物联网设备的出现,人们现在可以在较少输入的情况下定期测量其健康变量。这导致了对病人和健康个体的时间相关医学数据进行一致的数据收集。
#3. 天文学中的时间序列
天文学和天体物理学是两个现代学科,其中时间序列数据得到了重要利用。
基本上,天文学涉及绘制宇宙物体的轨迹和天体,并进行准确测量以更好地理解地球大气层之外的宇宙。由于这个要求,天文学家在校准和配置复杂仪器以及研究感兴趣的天体物体时都擅长处理时间序列数据。
时间序列数据长期以来一直与天文学领域相关。公元前800年,太阳黑子时间序列数据以规律的间隔收集。从那时起,时间序列分析被用于:
- 根据恒星距离发现遥远的星星
- 观察超新星等宇宙事件以更好地理解我们宇宙的起源
在这种情况下,时间序列数据与星星、天体或物体发射的光的波长和强度有关。天文学家不断监视此类实时流数据,以便在宇宙事件发生时实时检测。
近年来,出现了诸如astroinformatics和astrostatistics等研究领域,这些领域融合了数据挖掘、机器学习、计算智能和统计学等各种学科。在这些新颖的研究领域中,时间序列数据的作用是快速、高效地检测和分类天文对象。
#4. 天气预报中的时间序列
亚里士多德在古代广泛研究了天气模式,以更好地理解观察到的天气变化的原因和影响。随着时间的推移,科学家开始使用“气压计”等仪器记录与天气有关的数据以计算大气变量。数据以规律的间隔收集并保存在不同的位置。
随着时间的推移,天气预报开始出现在报纸上。快进到今天,世界各地安装了无处不在的气象预报站,以收集准确的天气变量。
这些站点配备了先进的功能设备,可以互相连接以收集和关联来自不同地点的天气数据。相关数据用于根据需求预测每个时间点的天气条件。
#5. 商业发展中的时间序列
时间序列数据使企业能够做出商业决策。这是通过分析过去数据以推断未来事件并突显可能性来实现的。过去的数据模式用于推导以下参数:
- 业务增长:为了评估整体财务和业务绩效并衡量增长,时间序列数据是最合适和可靠的资产。
- 趋势估计:可以使用各种时间序列方法来估计新兴趋势。例如,这些方法可以分析一段时间内的数据观察结果,以反映特定电子设备销售额的增加或减少。
- 揭示季节模式:记录的数据点可能揭示波动和季节模式,这有助于数据预测。获得的数据信息在产品价格季节性波动的市场中起着关键作用。这些数据可以帮助企业进行更好的产品规划和开发。
结论 👨🏫
总之,时间序列数据可以被视为在固定时间段内收集的复杂数据点的特征。随着智能家居设备、可穿戴设备的出现,时间序列分析、建模和预测已经成为我们日常生活的重要组成部分。此外,时间序列数据正在在包括医疗保健、天体物理学、经济学、工程学、商业等各个领域得到应用。