时间序列分析法

发布时间:2018-09-05 18:05:12   来源:文档文库   
字号:

3. 时间序列分析法

对于预测,有定性和定量两类方法,定性的方法主要是作一些趋势性或转折点的判定。常用的方法有专家座谈会法,德尔菲法等。常用的定量预测方法有两种,一种是回归分析法,另一种常用方法就是时间序列分析法。这一章主要介绍有关时间序列分析法的有关内容。

3.1 基本概念

所谓时间序列就是一组按照一定的时间间隔排列的一组数据。这一组数据可以表示各种各样的含义的数值,如对某种产品的需求量、产量,销售额,等。其时间间隔可以是任意的时间单位,如小时、日、周、月等。通常,对于这些量的预测,由于很难确定它与其他因变量的关系,或收集因变量的数据非常困难,这时我们就不能采用回归分析方法进行预测,或者说,有时对预测的精度要求不是特别高,这时我们都可以使用时间序列分析方法来进行预测。

当然,时间序列分析法并非只是一种简单的预测分析方法,其实,基本的时间序列分析法确实很简单,但是也有一些非常复杂的时间序列分析方法。

采用时间序列分析进行预测时需要用到一系列的模型,这种模型统称为时间序列模型。在使用这种时间序列模型时,总是假定某一种数据变化模式或某一种组合模式总是会重复发生的。因此可以首先识别出这种模式,然后采用外推的方式就可以进行预测了。

采用时间序列模型时,显然其关键在于假定数据的变化模式(样式)是可以根据历史数据识别出来;同时,决策者所采取的行动对这个时间序列的影响是很小的,因此这种方法主要用来对一些环境因素,或不受决策者控制的因素进行预测,如宏观经济情况,就业水平,某些产品的需求量;而对于受人的行为影响较大的事物进行预测则是不合适的,如股票价格,改变产品价格后的产品的需求量等。

这种方法的主要优点是数据很容易得到。相对说来成本较低。而且容易被决策者所理解。计算相对简单。(当然对于高级时间序列分析法,其计算也是非常复杂的。)此外,时间序列分析法常常用于中短期预测,因为在相对短的时间内,数据变化的模式不会特别显著。

1.关于在预测中误差的一些常用表示方法:

其中xi表示i时刻的真实值或观察值;Fi表示i时刻的预测值;ei表示i时刻的误差。

平均误差(Mean error)

平均绝对误差(Mean absolute deviation)

均方差(Mean squared error)

标准差(Standard deviation of errors

百分比误差(percentage error

平均百分比误差(Mean percentage error

平均百分比绝对误差(Mean absolute percentage error

2.时间序列的基本样式

所有有规律的时间序列,都是由一种或几种基本类型的时间序列样式或模式构成的。这些基本样式有:

水平型,线性趋势型,非线性趋势型,季节型和周期型。

因此对于一个实际时间序列,可以根据其类型的不同,采用不同的模型进行预测和分析。

3.2 平滑法

这是时间序列分析方法中最简单的一种。

3.2.1. 简单滑动平均法(simple moving average)

1

其中xt表示t时刻的真实值或观察值;Ft+1表示t+1时刻的预测值;

上式也可以写成如下形式:

2

由此式可以看出,随着所使用的历史数据或样本点的数量n的增加,平滑作用逐渐加强。

简单滑动平均法显然只适合于水平样式的数据,如果历史数据中存在明显的上升或下降趋势,或者有季节性波动则这种方法是不适用的。因此它只能用来对一些变化平衡或缓慢量进行预测,如对需求量稳定的商品的销量进行预测。

对于(1)或(2)式,如果其中的n等于1,则成为:

也就是说,t+1时刻的预测值就是t时刻的观察值,或者说是用当前的观察值来预测下一期的数值。这种方法称为naive(天真)预测法。这种方法虽然过于简单,可以说是没有进行预测,但是它可以作为评价其他时间序列法预测结果好坏的一个标准。如果你使用了一个非常复杂的时间序列分析模型来对某一个问题进行预测,其误差比这种简单的天真预测法还糟糕,则这个模型显然不是一个好的预测模型。

3.2.2. 单指数平滑法

由于(1)或(2)式在实际应用中存在许多缺点,如零权值问题,数据存贮量大问题。因此人们希望有一种简单的法来用于实际预测,这样就提出来了指数平滑法,其中最简单的就是单指数平滑法。

由于数据是呈水平趋势变化,因此在(2)式中用Ft来代替xt-1不会引起太大误差,因此有下式,

或者说,

则有,

3

这就是所谓的单指数平滑法公式。其中α为预测值的平滑系数。

上式不仅计算简便,而且所需历史数据极少,只有一个。同时,上式中实际上包含了所有的历史数据,也就是说克服了所谓零权值的问题,因为将(3)式展开后可以写如下形式,

4

3)式也可以写成如下形式,

由于,所以

5

由(5)式可以看出,预测值实际上就是在上一次预测值的基础上加上α乘以上次预测的误差。显然,如果,则在预测值中包含很大的调整,相反如果,调整量变小,预测值或预测曲线趋于平缓。因此,单指数平滑法适用的范围与简单平滑法相同,只适用于水平样式的数据。

例:罗宾逊拆卸公司生产的取钉器的需求量预测。观察值及预测值如下表所示。

表现9-1取钉器的简单移动平均和指数平滑平均值的计算

指数平滑滑动平均值

时期

需求(单位:千)

四个月的移动平均

a=0.4

a=0.1

1

145

2

143

3

135

4

158

145.25

145.25

145.25

5

155

147.75

149.15

146.23

6

145

148.25

147.49

146.10

7

136

148.50

142.89

145.09

8

139

143.75

141.34

144.48

9

159

144.75

148.40

145.93

10

137

142.75

143.84

145.04

11

156

147.75

148.70

146.14

12

152

151.00

150.02

146.72

在表7-1中计算了两组指数平滑平均值,它们分别采用不同的值。当0.4时,第1112两个月的平均值计算如:

S110.4(156)+0.6(143.84)=148.70 (12月的预测值)

S120.4(152)+0.6(148.70)=150.02 (13月的预测值)

注意在第12月未,新得到的数据152与以前计算出的平均值148.70来共同计算下一个平均值。指数平滑法的突出优点是只需要一个实际数据来计算新的平均值。

使用指数平滑法时的几个应注意的问题

与移动平均法的相似性

从表91中可以看到,在所有的时间里0.4时的指数平滑平均值与四个月的移动平均值非常相似。然而0.1时其结果是大不相同的。下述公式说明了在指数平滑法中如何选择使之具有与移动平均法中取时间周期数为N值时相似的结果:

6

假设0.4N1.6/0.44,若0.1N1.9/0.119。因此0.4时的指数平滑值类似于四周期的移动平均值,而0.1时的结果则会类似于19周期的移动平均值。

增大来调整权值

在指数平滑法中以前的数据作用是逐步衰减人,或者说老的数据被逐渐地遗忘。值越大数据衰减地越快,就象在移动平均法中使用的数据越少。这是因为在方程1中老的平均值被乘以(1),因此老的数据的权值随着的增大而迅速衰减。也就是说,越是大的,在预测中老数据(St1)的影响越小。(问题1719表明了当数据逐步变老时其作用是呈指数减小的,这也是为什么这种方法称为指数平滑法的原因。)

平滑与响应

减小值会导致平均值更加平滑(减少波动),而增大值会导致平均值对新数据的响应更快。从表7-1中可以看出值越小平均值的变化越慢,越平滑。例如,实际数据在第九个月达到其最大值159,当=0.4时,平均值从141变到148来响应实际值的最大值;与之相对的是,=0.1时,平均值仅仅增大一个单位来响应实际值的最大值。平滑与响应是相矛盾的,但它们有各自的优点。我们将在后面多次讨论这个问题。

初值

在计算指数平滑法的第一个值或初值时我们需要进行一些特殊的处理。因为在`方程1中我们需要一个“老平均值”,而没有以前的数据怎么办呢?这个问题称为初始化,而且是在指数平滑法中常常不为人们所重视的问题。然而,在后面我们将看到这是一个极为重要的问题。注意目前我们用前四个月的平均值作为指数平滑法的初值(见表7-1)。

3.2.3. 线性指数平滑法(Holt's

如果时间序列呈现一种趋势(上升或下降),则单指数平滑法会有一种滞后性。因此在这种情况下要采用其他方法。

如果这种趋势是一种线性上升或下降的趋势,则可采用Holt's的方法,

7

8

9

其中,St为预测值的平滑值;α为预测值的平滑系数;Tt为趋势值(斜率)的平滑值;β为趋势值的平滑系数;Ft+mt+m时刻的预测值。注意这里可以进行m步以后的预测,而简单平滑法或单指数平滑法只能进行一步以所的预测。

例:对下表中的观察值进行预测。

时间

观察值

单指数平滑值

α=1.0

误差

1

3

2

6

3

3

3

9

6

3

4

12

9

3

5

15

12

3

6

18

15

3

7

21

18

3

8

24

21

3

9

27

24

3

10

30

27

3

假如在此,,则对于时期2有,

对于时期3有,

继续照此方法计算下去,对于时期10有,

由此可以看出,在计算过程中,每次首先更新S的值,然后再更新T的值。有了这现两项数值,就可以进行预测值的计算。例如对时期11,有,

与此类似,还可以对121314期的数据进行预测,它们分别为,

当然在上述例子中,观察值中不包含随机成份,所以平滑系数值都取的是1且误差为0。如果实际观察值是包含随机成份的,则平滑系数值要小于1,且预测误差也不会等于0

在上面的这一组公式中,(7)式实际上就是对取平滑值。而(8)式与单指数平滑法的(3)式相比较可以看出,只是在第二项中多了前一步的趋势增加值St-1。而预测值就是当前的平滑值再加上趋势增加值。

由于,且

所以(7)至(9)式也可以写成下列形式,

7

8

9

上述公式可用于实际计算使用。注意,,其参考值为:

3.2.4. 季节性指数平滑法(Winters'

在实际工作中,常常会遇到一些带有季节性变动的数据,对此可以使用Winters'的季节性指数平滑法模型进行预测。其模型为,

10

11

12

13

其中,St为消除了季节因素影响的平滑值;α为预测值的平滑系数;Tt为趋势值(斜率)的平滑值;β为趋势值的平滑系数;It为季节因素的平滑值;γ为趋势值的平滑系数;L季节的长度(如在一年中一个季节中所包含的月数);Ft+mt+m时刻的预测值。注意这里也可以进行m步以后的预测,与Holt的方法相同。

季节系数实际上就是:

它表明了季节因素的影响,其含义可以通过下图看出,

例:现有如下按季节收集的销售数据:

季节

时期

销售额(1000

季节系数(前四个为初值)

T平滑值

预测值m=1

1992

1

1

362

0.96

2

2

385

1. 02

3

3

432

1.14

4

4

341

0.88

1993

1

5

382

1.00

9.17

2

6

409

1.07

14.7

424.79

3

7

498

1.18

14.99

481.10

4

8

387

0.90

15.07

383.53

1994

1

9

473

1.01

15.64

444.32

2

10

513

495.53

3

11

582

4

12

474

1995

1

13

544

2

14

582

3

15

681

4

16

557

1996

1

17

628

2

18

707

3

19

773

4

20

592

1997

1

21

627

1.01

2

22

725

1.07

3

23

854

1.18

17.40

4

24

661

0.90

17.51

25

753.03

现在需要对25262728期的销售额进行预测。假定平滑系数为:

,这里的季节值L=4

解:这里的计算需要利用Winter的公式逐步进行,计算到24期时有,

对于25262728期的销售额进行预测时,显然需要用到m值,以及其他季节系数值。最终结果为,

对于季节性线性指数平滑模型(10)至(13)也可以写成下列简单形式,

14

15

16

17

3.2.5. 阻尼趋势指数平滑法

阻尼趋势指数平滑法(Damped trend exponential smoothing)是另一种常用的指数平滑法。因为在实际工作中,一个量的增长或下降趋势是不会永久持续下去的,而是经过一段时间的增长或下降后其趋势会逐渐消失,这种现象类似于物理中的阻尼现象,所以我们称具有这种特性的指数平滑模型为阻尼趋势指数平滑法。这时的模型为,

18

19

20

同样,上述公式也可以表示成下面的形式,

21

22

23

例:

3.2.6. 指数平滑法的计算问题

1. 平滑初值的确定:

对于单指数平滑法:

对于Holt's Damped

对于Winters',其中x中消除了季节因素后的值。

另一类方法是采用最小二乘法,列出方程后求出最优初值。

2. 平滑系数的选择:

在上述公式或模型中我们遇到了几个平滑系数,即。这些值的确定,主要方法是通过搜索法,比较不同数值下的MSEMAD,求出最小误差所对应的系数值。

3. 方法有效性的判定:

上述各种方法是否能用于实际问题的预测,其关键在于其误差的分布,如果误差的均值为0,方差为常数,则方法或模型的选择是适当的,否则就需要寻求其他模型或方法。

3.3 分解法

第二类常用的时间序列分析方法就是所谓的时间序列分解法。这种方法的基本假定与所有的时间序列分析法的假定相同,即认为实际数据是由模式值加上随机误差组成的。但是,所不同的是认为模式值是由趋势、季节和周期的共同影响而构成的,而且每一种影响是可以识别出来的。用数学表达式表示就是,

24

25

显然随机部分是没有办法预测的,所以我们认为变量的预测值就是前三部分的乘积。

下面以一个例题为例说明进行分解的步骤。

某造纸厂的按季度观察到的销售量及有关计算数据如下表所示:

(1)

(2)

(3)

(4)

季节

观察值

滑动平均值T*C

比值S*R*100

1

3017.60

2

3043.54

3

2094.35

2741.333

76.399

4

2809.84

2805.633

100.150

5

3274.80

2835.568

115.490

6

3163.28

2840.558

111.361

7

2114.31

2894.240

73.052

8

3024.57

2907.410

104.030

9

3327.48

2989.960

111.288

10

3493.48

3071.365

113.744

11

2439.93

3187.920

76.537

12

3490.79

3277.320

106.514

13

3685.08

3319.258

111.021

14

3661.23

3303.883

110.816

15

2378.43

3296.073

72.160

16

3459.55

3337.210

103.666

17

3849.63

3347.198

115.011

18

3701.18

3413.185

108.438

19

2642.38

3444.678

76.709

20

3585.52

3501.935

102.387

21

4078.66

3553.405

114.782

22

3907.06

3599.925

108.532

23

2828.46

3725.920

75.913

24

4089.50

3791.158

107.869

25

4339.61

3851.543

112.672

26

4148.60

3873.540

107.101

27

2916.45

3872.325

75.315

28

4084.64

3848.028

106.149

29

4242.42

3810.273

111.342

30

3997.58

3801.413

105.160

31

2881.01

3789.310

76.030

32

4036.23

3818.788

105.694

33

4360.33

3909.525

111.531

34

4360.53

3982.318

109.497

35

3172.18

4029.200

78.730

36

4223.76

4111.738

102.724

37

4690.48

4195.225

111.805

38

4694.48

4237.768

110.777

39

3342.35

4326.235

77.258

40

4577.63

4394.980

104.156

41

4965.46

4477.873

110.889

42

5026.05

4509.820

111.447

43

3470.14

4496.898

77.167

44

4525.94

4570.210

99.031

45

5258.71

4611.093

114.045

46

5189.58

4642.748

111.778

47

3596.76

4481.663

80.255

48

3881.60

1. 趋势与季节分解

假设这里对最前面四个季度(即1986年的四个季度)的销售量相加然后计算其平均值,可以得到,

这里的平均值2741.33显然是不包含季节因素的(因其为全年各季度的和),而且这个值中不包含或只包含很少的随机成份,因为随机误差的均值为零,所以当多项观察值相加后正负随机误差相互抵消了。因此,通过这样的方式计算出来的平均值实际上只包含趋势和周期部分,即T*C

与此类似,如果将第二至五项观察值相加然后求出平均值就可以得到,

这里2805.63也是四个不同季节的数值的均值,它也不包含季节因素,同时不包含或极少包含随机的成份。同样的方式可以计算出表中的第三列数值。

由此可以看出这种计算的方式就是在计算均值的过程中将老的观察值放弃掉同时换上最新的一个观察值,即采取滑动的方式进行计算。所这这样计算出来的值也称为滑动平均值,由于滑动平均值的特性,我们有如下关系式,

2.季节与随机的分解

由于表中的第三列表示了T*C,而表中的第二列是观察值,或原始数据,根据定义它实际上表示了T*C*S*R。因此如果将第二列的数除以第三列的数,其比值为第四列的值,这一列的值表示了S*R,即,

因此这一列的值只包含季节与随机成份,为了方便起见,这里的数值乘上了100。由于这一列比值中包含季节成份,所以可以由它来计算季节系数。季节系数的含义与前面所讲述的相同。

在第四列数值中,它包含了随机误差。由于随机误差所具有的特性,即均值为0,因此如果我们将若干项数值相加,则正负随机误差会相互抵消。据此,我们将第四列的数据按每一个值所属的季节排列成下表的形式,

一季度

二季度

三季度

四季度

1986

76.40

100.15

1987

115.49

111.36

73.05

104.03

1988

111.29

113.74

76.54

106.51

1989

111.02

110.82

72.16

103.67

1990

115.01

108.44

76.71

102.39

1991

114.78

108.53

75.91

107.87

1992

112.67

107.10

75.32

106.15

1993

111.34

105.16

76.03

105.69

1994

111.53

109.50

78.73

102.72

1995

111.81

110.78

77.26

104.16

1996

110.89

111.45

77.17

99.03

1997

114.04

111.78

80.26

季度平均值

S

112.72

109.88

76.29

103.85

402.74

S(调整后)

111.95

109.13

75.77

103.15

400.00

400

/

402.74

0.9932

然后对每一个季度的数值求平均值,由于求平均值就可以消除随机误差的影响,所以就可以分离出季节因素,即,

因此可以计算出每个季度的平均值,也就是季节系数的平均值S。由于将这样计算出来的各个季度的季节系数相加再求平均值,其值不一定正好为100,因此需要对其进行调整。

季节系数的调整非常简单。由于我们要求调整后的季节系数值之和为400,所以将400除以现在的和402.74,得到一个修正系数值0.9932;然后将每一个季节系数值S乘以这个调整系数值,就可以得到最终的调整后的季节系数值,如上表所示。

1).中心滑动平均值

在前面的滑动平均值的计算过程中,我们只是将第14季度的平均值放在了第3季度的位置上,但是只要我们仔细一想会发现这里有问题。因为,我们计算出来的第14季度的平均值2471.333严格地说应该是第2.5季的平均值;第25季度的平均值2805.632严格地说应该是第3.5季的平均值,而在实际中并没有2.5季和3.5季。为了得到每个季节的真正平均值我们还需要做一点工作,这就是对2.5季的平均值2471.3333.5季的平均值2805.632再求一次平均值,这样就可以得到第3季度的真正平均值,即( 2.5+3.5/2=3。这样求出来的平均值,(2471.333+2805.632/2=2773.483称为中心滑动平均值。注意,采用这种方式计算平均值,最终所得到的平滑值比前面的方法还要要少一个(通常,如果求n个数的平均值,则所得到的平均值数量要少n-1个)。当然,如果在每一个周期中所包含的季节数为奇数个,则不需要再求中心平均值了,因为它本身就是中心平均值。

现在按中心平均值的方法重新计算,可以得到下表中的数据。

(1)

(2)

(3)

(4)

(5)

季节

观察值

滑动平均值T*C

stc中心滑动平均值T*C

saf比值S*R*100

1

3017.60

2

3043.54

3

2094.35

2741.333

2773.483

75.513

4

2809.84

2805.633

2820.600

99.619

5

3274.80

2835.568

2838.063

115.389

6

3163.28

2840.558

2867.399

110.319

7

2114.31

2894.240

2900.825

72.887

8

3024.57

2907.410

2948.685

102.574

9

3327.48

2989.960

3030.663

109.794

10

3493.48

3071.365

3129.643

111.626

11

2439.93

3187.920

3232.620

75.478

12

3490.79

3277.320

3298.289

105.836

13

3685.08

3319.258

3311.570

111.279

14

3661.23

3303.883

3299.978

110.947

15

2378.43

3296.073

3316.641

71.712

16

3459.55

3337.210

3342.204

103.511

17

3849.63

3347.198

3380.191

113.888

18

3701.18

3413.185

3428.931

107.940

19

2642.38

3444.678

3473.306

76.077

20

3585.52

3501.935

3527.670

101.640

21

4078.66

3553.405

3576.665

114.035

22

3907.06

3599.925

3662.923

106.665

23

2828.46

3725.920

3758.539

75.254

24

4089.50

3791.158

3821.350

107.017

25

4339.61

3851.543

3862.541

112.351

26

4148.60

3873.540

3872.933

107.118

27

2916.45

3872.325

3860.176

75.552

28

4084.64

3848.028

3829.150

106.672

29

4242.42

3810.273

3805.843

111.471

30

3997.58

3801.413

3795.361

105.328

31

2881.01

3789.310

3804.049

75.735

32

4036.23

3818.788

3864.156

104.453

33

4360.33

3909.525

3945.921

110.502

34

4360.53

3982.318

4005.759

108.857

35

3172.18

4029.200

4070.469

77.932

36

4223.76

4111.738

4153.481

101.692

37

4690.48

4195.225

4216.496

111.241

38

4694.48

4237.768

4282.001

109.633

39

3342.35

4326.235

4360.608

76.649

40

4577.63

4394.980

4436.426

103.183

41

4965.46

4477.873

4493.846

110.495

42

5026.05

4509.820

4503.359

111.607

43

3470.14

4496.898

4533.554

76.543

44

4525.94

4570.210

4590.651

98.590

45

5258.71

4611.093

4626.920

113.655

46

5189.58

4642.748

4562.205

113.752

47

3596.76

4481.663

48

3881.60

当然相应的季节系数值也需要重新计算,其结果如下表所示,

一季度

二季度

三季度

四季度

1986

75.51

99.62

1987

115.39

110.32

72.89

102.57

1988

109.79

111.63

75.48

105.84

1989

111.28

110.95

71.71

103.51

1990

113.89

107.94

76.08

101.64

1991

114.04

106.67

75.25

107.02

1992

112.35

107.12

75.55

106.67

1993

111.47

105.33

75.74

104.45

1994

110.50

108.86

77.93

101.69

1995

111.24

109.63

76.65

103.18

1996

110.49

111.61

76.54

98.59

1997

113.65

113.75

季度平均值

S

112.19

109.44

75.39

103.16

400.18

S(调整后)

112.14

109.39

75.36

103.12

400.00

400

/

400.18

0.9995

2) 中位平均值

仔细观察关于季节系数的计算过程,可以发现,在每一个季节所属的列中,总会有一个值特别大或小,这往往是由于一些特殊发问所引起的,如异常天气、罢工、促销活动、战争等,而这些情况并不是总会发生的,所以在计算的过程中应该忽略其影响,所以在求季节系数时,应该剔出异常值,简单地说就是去掉一列中的最大值和最小值后所剩余的中位值中再求其平均值,这样就等到了比较真实的季节系数值。

这样求得的最终结果为,

调整前的S112.11 109.42 75.50 103.24 400.27

调整所的S112.03 109.35 75.45 103.17 400.00

3. 从趋势中分离周期因素

由于MA=T*C,现在需要将周期部分分离出来。在此可以对MA这一列数据采用线性回归分析的方式,得到一条回归直线,其参数为,

a=2735.85

b=38.96

回归直线为,

因此可以分离出周期因素,即,

如此例中,因为

所以,

4. 分离随机因素

由于,

X=S*T*C*R

MA=T*C

sas

所以,

err

之样就可以分离出随机误差。这一部分虽然不能用于预测,但可以用来检验。也就是说用来检验我们前面的时间序列分解的是否合适与有效。

5.准备预测

前面我们已经给出了下列表达式,

在进行预测时,由于随机误差部分是没有办法预测的,因此作为预测,我们可以使用下列表达式进行,

对于此例中的第49期,即1998年第一季度的预测值,首先其趋势部分为,

从季节系数的计算表中可知对应的季节系数为112.03。最后,周期部分必须要人为地予以估计,即靠我们的判断一确定。由于第48期的周期值为98,如果我们没有其他更多的信息来估计49期所处的位置,我们可以认为其周期值仍然为98。因此,最终的预测值为,

与此类似,对于第50期,即1998年第二季度的预测值,首先其趋势部分为,

对应的季节系数为109.208,周期值可以估计为99。因此,最终的预测值为,

同样,可以分别计算出第51期和52期的预测值分别为,

时间序列分解法计算步骤小结:

确定季节系数。通过计算中心滑动平均值和中位平均值,得到每一期(月)的季节系数。

确定趋势值。对中心滑动平均值通过回归分析得到回归方程

确定周期系数。将中心滑动平均值除以趋势值就可以得到周期值。

如果有条件的话,通过更多的数据来确定周期值。

准备预测。采用的公式计算预测值。

3.4 自回归积分滑动平均法(ARIMA

前面介绍了一些基本的时间序列分析法,这些方法分别适用于不同的情况。尽管这些方法很简单,但是在使用时常常受到一些限制,而且其方法的理论基础产不是很坚实。这就需要有一种能适应任何情况,且理论上很清晰严格的方法,这就是ARIMA类方法。

3.4.1. 自相关(Autocorrelation)

在回归分析中,我们知道量与量之间存在着一种相关关系,即一个量发生变化时,另一个量也会发生相应变化,且呈线性关系。这种相互关联的程度可以用相关系数r(-1来描述,若,则表示一个量增长,另一个量也增长;若,则表示一个量增长,另一个量减少。若,则表示它们完全不相关,即一个量发生变化,另一个量不会呈现有规律的变化。

自相关的含义类似于相关关系,自相关系数类似于相关系数,只不过在自相关关系中,它描述的不是两个不同的量之间的关系,而是描述的同一个变量在不同时间之间的相关关系。如下列序列中的序列A和序列B。注意,序列B是由A得到的,或者说是从A中提取出来的,即A的第二个值是B的第一个值,A的第三个值是B的第二个值,如此类推。

变量A

变量B

3

5

5

4

4

8

8

9

9

这样变量AB可以视为两个不同的变量,然后采用同样的处理方法进行相关处理。

与此类似,设有时间序列Y,采用相同的构造方法,可以构造出Y1Y2,或Y3等不同的时间序列。

时间

原序列Y

滞后一个时间构成的Y1

滞后二个时间构成的Y2

滞后三个时间构成的Y3

t=1

3

-2

5

-6

t=2

-2

5

-6

-6

t=3

5

-6

-6

2

t=4

-6

-6

2

1

t=5

-6

2

1

-3

t=6

2

1

-3

4

t=7

1

-3

4

2

t=8

-3

4

2

t=9

4

2

t=10

2

Y1是由Y的对应值滞后一个时间单位构成的。显然,由于Y是由有限个数据组成,而Y1的第一个元素是Y的第二个元素,所以Y1没有最后一个值。同样道理,Y2没有最后两个数值,Y3没有最后三个数值。

现在可以将YY1视为两个变量,作为一组变量计算其相关系数(当然在计算中只能用到成对的数据)。同样可以将YY2作为一组,YY3作为一组计算其相应的相关系数。若计算出来YY1的相关系数为0.8,则说明任意连续的Y中的两个值是呈现正相关的;若计算出来的YY2之间的相关系数为-0.70,则说明任意两个间隔一个时间单位的两个量是负相关的,即一个量增长,另一个量向相反的方向变化。。。。

由于时间序列Y1Y2,和Y3 实际上都是从一个变量Y得到的,所以这种相关关系称为自相关关系。

自相关关系提供了关于数据模式的重要信息。对于一个纯粹随机的序列,其自相关系数必然接近或等于零。但是对于呈现很强的季节性或周期性特征的数据,必然是高度自相关的。

例,对某地区的月平均气温进行自相关处理,观察其自相关系数。从计算出的自相关系数值可以看出,这个序列呈现一种很强的季节性,因为它的最大值每隔12个月出现一次,如,说明相隔12个月的温度呈现正相关。正是采用这种方法计算出来的自相关系数得到的信息可以用来构造高级的时间序列模型。

如果我们有多年的月平均气温数据,则可以计算出Y与滞后123个时间单位的序列的自相关系数。通过比较这些自相关系数值的大小,可以发现,凡是12的倍数的自相关系数都较大,因此我们不难想象可以用这样的时间序列模型来进行预测,

等类似的模型来进行预测。

此外,还有一个与多元回归分析中的偏相关系数类似的“偏自相关系数”(partial autocorrelation)。其作用将在后面介绍具体计算方法时再作介绍。

3.4.2. ARMA时间序列模型

有三种主要类型的时间序列分析模型可以用来描述各种形态的时间序列,它们分别是1)自回归AR2)滑支平均MA3)自回归滑动平均ARMA

1. 一般的AR模型

一般的AR模型表达式为,

1

其中Yt是因变量。是自变量,显然它们是同一变量的值,但是在不同的时刻。最后,et是误差或残差项,表示随机误差部分,它是不能用任何模型来解释可求出的。

方程(1)称为自回归模型,因为它与通常的回归分析模型,

类似。只不过这里的自变量是Y自身而已,当然是不同时间的滞后值。

如果我们能够1)确定方程(1)就是我们所需的合适的模型;2)确定p的值;3)估计出自回归系数的值。我们就能用方程(1)来进行预测。

例:,且有如下数据,

时间

观察值

预测值

误差

t-5

100

98

2

t-4

120

125

-5

t-3

130

131

-1

t-2

110

110

0

t-1

115

112

3

则时刻t的预测值为,

其中,et是随机误差。

2. 一般的MA模型

并非所有的时间序列都可以用方程(1)来描述。对于某些时间序列我们需要另一种类型的模型,这就是滑动平均模型。一般的MA模型表达式为,

2

其中,et与前面相同是随机误差;而为以前各期的预测误差。θ为平滑系数。

方程(2)与(1)相似,只不过是将以前各期的变量值换成以前各期的预测误差值。因此,从本质上讲这种模型本身也是一种自回归模型,只不过是与自己的误差相关而已。

这种模型之所以称为滑动平均模型,是因为它与我们前面提到的简单指数平滑模型类似,都是与自己的误差有关。

例:如果已知,且前两期的预测误差为-5070,则时刻t的预测值为,

其中,et是随机误差。

3. 一般的ARMA模型

对于所有的时间序列,只要其中不包含趋势,都可以用方程(3)来描述。即自回归与滑动平均相结合的模型。一般的ARMA模型表达式为,

3

显然方程(3)是方程(1)与方程(2)相结合的产物。由于此模型中包含了pY的历史数据,q项预测值与实际观察值的误差,所以这种模型也可以简单地称为ARMAp,q)。方程(3)表面上看起来虽然很简单,但是实际上它是一个非常复杂的时间序列模型。这了说明这一点让我们先看一下MA1)和AR1)模型。

一阶滑动平均模型MA1)为,

由此看出它实际上就是无穷阶自回归模型,或。此外,将此式与单指数平滑模型的展开式比较,

不难理解为什么称此类包含误差项的模型为滑动平均模型。

现在我们再来看一阶自回归模型,即AR1),

由于

所以有,

即,

由此看出它实际上就是无穷阶滑动平均模型,或

同样对于一个简单的ARMA11)模型可以采用同样的方式将其转化成单纯的AR模型或MA模型。从中不难看出,ARMAp,q)实际上是用一种非常简明的形式来表达了非常复杂的时间序列模型。

其实AR模型早在1926-1927年就有人提出来了,MA模型也早在1937年就提出来了,混合的ARMAp,q)模型是在1954年提出来的,但是这些模型一直都没有进一步的发展,也没有看到什么应用,其主要原因是计算量太大,无法在实际中应用。随着计算机的广泛应用和普及,ARMA类模型在实际中的应用才成为可能。其中首先提出实际应用方法的是Box-Jenkins1976年提出的方法,即著名的ARIMA模型。

3.4.3. Box-Jenkins方法(ARIMA模型)

前面虽然给出了ARMAp,q)模型的表达式,但是要想将其用于实际预测还有许多问题要解决,如p=?, q=?, =?, =? 即如何确定具体的模型?

Box-Jenkins1976年提出了一套完整的解决方法。如下图所示,

首先假定ARMAp,q)模型对于给定的问题是成立的,或对这个问题是合适的。然后通过三个阶段完成预测工作。

第一阶段,根据历史数据辨识出一个试验性的模型;

第二阶段,采用历史数据,找出最适合于这个试验模型的参数并进行检验;如果判断出不满足要求,则回到第一阶段选用另一个试验模型;如果模型可以被接受,则进入到第三阶段;

第三阶段,根据模型进行预测。

1.第一阶段,辨识出一个试验性的模型

Box-Jenkins方法中最困难的部分就是辨识出合适的模型。一般ARMA模型有两类参数,即pq,及对应的。这一阶段可以分为三步来完成。

第一步,通过差分来获得静态数据。

应用ARMA模型的最根本的假设就是数据是水平型的数据。因此在得到pq之前,必须保证数据是水平型的,或者说是不存在趋势的。这样的数据就称为静态数据(stationarity)。

当然,现实中的数据不可能都是没有趋势的数据。为了得到静态数据,可以采用差分的方法。如果实际数据包含线性趋势则可以通过一阶差分获使之成为静态数据。如果实际数据包含类似二次函数的非线性趋势则可以通过二阶差分获使之成为静态数据。对于其他类型的非线性趋势,我们总可以通过连续差分的方式使之成为不包含趋势的数据。下面通过几个例子说明差分的方法。首先看下列包含线性趋势的数据的差分情况,

原数据

一阶差分

新序列

2

4-2=2

2

4

6-4=2

2

6

8-6=2

2

8

10-8=2

2

10

12-10=2

2

12

-

从上表中可以看出一阶差分的方法就是,

从上表中还可以看出,由原序列差分后得到的新序列是一组常数,这是因为原数据中不包含随机因素。如果实际数据中既包含其他数据模式又包含随机因素,差分仅仅只会移去趋势部分,对于其他则毫无影响。

对于包含非线性趋势的数据也同样可以通过差分使其静止。例如,

原数据

一阶差分

二阶差分

(新序列)

4

5

2

9

7

2

16

9

2

25

11

2

36

13

2

49

15

2

64

17

81

如果上述差分,也称为短差分后的数据还存在季节波动,则可以通过长差分或季节差分使其静止。如按月排列的数据,可以用今年元月份的数据减去去年元月份的数据。也就是说,在静态数据中不仅不能包含趋势,也不能包含季节或周期性变动。

差分后的数据与原数据显然有很大差别,最后在预测时显然需要有一个还原的过程,这个过程称为积分,即Integration,或ARIMA中的I所代表的含义。

第二步,识别p, q

一旦数据达到静止,可以对达到静止的新序列计算其自相关系数和偏相关系数。通过这两个相关系数序列的值就可以确定pq的值。其中自相关系数和偏相关系数的表达式为,

假设观察值(时间序列)为,

自相关系数:

偏自相关系数:

其中,

显然,对于每一个时间序列来说,可以计算出对于每一个Yi的自回归系数和偏自回归系数,这样它们就形成了一个序列,可以将其在座标图上表示出来。具体的识别方法是根据计算出的自回归系数和偏自回归系数所形成的形态来判断。下面的图形显示了在不同的情况下所对应的模型,

上述系统适用AR1)模型

上述系统适用MA1)模型,等等。

判断模型参数的一般原则是:

1. 如果AC呈指数衰减到0,则(可能)为AR模型,其阶数由PAC中显著不为0的数量及位置确定。

2. 如果PAC呈指数衰减到0,则(可能)为MA模型,其阶数由AC中显著不为0的数量及位置确定。

3. 如果ACPAC都快速衰减到0,则为ARMA混合模型。AR的阶数由PAC中显著不为0的数量及位置确定;MA的阶数由AC中显著不为0的数量及位置确定。

对于季节型数据,需要进行长差分。ARMA模型中的季节值通常用PQ来表示,其估计方法与原理同短差分相同。

第二阶段 ,参数估计与检验

第一步,参数估计

根据自回归系数和偏自回归系数可以初步给出变量的模型,这个模型也称为试验性模型。例如,对于一个问题来说,我们已经得到,,并且没有差分,即I=0。其模型为,

显然,在上述模型中,参数φ1θ12可以为任意值,如等。究竟哪一组系数值最合适呢?确定的方法仍然是比较在不同的参数值下的预测误差值etMSE。最小的MSE所对应的参数值就是所估计的模型中的最优参数。具体操作也是通过搜索法进行。

第二步,模型诊断

当得到最优模型参数后(MSE最小),试验模型也就随之确定了。这时会有两种情况发生,一种是预测误差值et形成的序列是完全随机的,这说明试验模型已经完全找出了变量序列中的模式,这个试验模型就是所求的预测模型;另一种是试验模型没有完全找出变量序列中的模式,预测误差值et形成的序列不是随机的,这时这个试验模型还不能用。

怎样才能确定是哪一种情况呢?有一种非常简单的方法,这就是计算预测误差值et形成的序列的自相关系数。如果没有一个不同滞后时间的自相关系数值在95%的置信水平下不等于0,则是第一种情况,即这个试验模型是合适的模型。否则需要重新识别新的试验模型。

第三阶段,准备预测

当我们得到的模型是合适的,就可以利用这个模型进行预测。采用ARMA模型进行预测,不仅可以得到预测值,同时还可以得到预测值的95%99%的置信区间。所以,ARIMA模型是一个统计模型,这是普通时间序列分析方法所不能获得的。

值得说明的是,ARIMA模型实际上是一类模型,在标准ARIMA模型的基础上还衍生出了许多其他模型,如多变量ARIMA模型等。

由于ARIMA模型的计算复杂,计算量极大,因此通常都需要借助于计算机来进行计算。一般的大型统计软件中都会有这样的功能,如SPSSSAS中都有。

3.5 利用SPSS进行时间序列分析

3.5.1. 基本数据处理方法

利用SPSS进行时间序列分析,首先需要定义变量的时间值。如果时间序列中存在缺失值,还需要缺失值处理,否则SPSS将拒绝进行计算。完成上述工作后,就需要制作时间序列曲线图,通过该图可以大致判断出时间序列的样式或规律,从而初步确定所用的时间序列分析模型。下面以197810月至198年月观察到的南极上空臭氧数据为例说明有关数据处理的基本方法。

下图显示的是部分原始数据:

上图中的数据没有定义时间。定义时间序列时间的操作方法是选择Data(数据)菜单中的Define dates…(定义时间)命令。这时将出现Define dates(定义时间)对话框窗口:

由于现在的数据是月度数据,且起始月份为以197810月,因此在上述对话框中的“Case are”选项下选择“Years, months”,然后在“First Case Is”选项下填写年月数值,如下图所示:

完成上述对话框的设置后,单击OK按钮即可定义时间序列的时间值。这时的数据窗口中将增加若干新的变量,如下图所示:

定义了时间后就可以作出时间序列图。操作方法是选择“Graphs”(图形)菜单中的“Sequence…”(序列)命令。这时将出现Sequence…”(序列)对话框,如下图所示:

Sequence…”(序列)对话框中选择左边的“ozone”变量进入右边的“Variables”选项中。然后单击OK按钮即可得到如下图所示的时间序曲线图

从上图中可以看出现在的曲线还不完整,也就是说时间序列中有许多缺失值。如果不作处理,是不能进行时间序列分析的。下面是处理时间序列缺失值的操作方法。

选择“Transform”(变换)菜单中的“Replace Missing Values…”(替换缺失值)命令。

执行上述命令后将出现“Replace Missing Values…”(替换缺失值)对话框。从对话框左边选择要处理的变量进入右边的“New Variable(s)”(新变量),这里选择“ozone”。然后在“Name and Method”选项中选择一种处理方法。

SPSS缺失值的处理方法共有以下几种:

Series mean 序列均值:按整个时间序列的均值作为所有缺失值点的插值。

Mean of nearby points 临近点均值:按时间序列缺失值点临近点的均值作为插值。

Median of nearby points 临近点中位数:按时间序列缺失值点临近点的中位数作为插值。

Linear interpolation 线性插值:按时间序列缺失值点临近点两端的数值进行线性插值。如果某一缺失值点临近点两端的数值分别为1016,则线性插值为13;如果某二个连续缺失值点临近点两端的数值分别为1016,则线性插值分别为1214。依此类推。

Linear trend at point线性趋势值:按时间序列缺失值点临近点左边的数值进行线性趋势插值。如果某一缺失值点临近点左边的数值分别为1012,则线性插值为14;如果某二个连续缺失值点临近点左的数值分别为1012,则线性插值分别为1416。依此类推。

根据前面做出的时间序列曲线图可以看出,这里处理缺失值的方法应该选择“Linear interpolation 线性插值”。具体操作方法是,在“Method”下拉选择框中选择“interpolation”;然后单击“Change”按钮。选定插值方法后的画面如上图所示。最后单击OK按钮即可完成缺失值的处理。

进行缺失值处理后的数据窗口中增加了一个新的变量,即“ozone-1”。如下图所示:

注意第11行“ozone-1”的值25,是由(24.4+25.6)/2得到的。

以后的分析都是针对新变量“ozone-1”进行的。下面是“ozone-1”的曲线图。不难发现图中的曲线是连续不断的。



3.5.2. 指数平滑法

指数平滑法是时间序列分析中经常使用的一类方法。下面以某企业最近四年的29寸彩电销售量为例说明几种常用指数平滑法的使用及使用过程中的一些问题。

下表显示的是部分原始数据:

根据上述数据制作的时间序列曲线图如下:

对于上述数据,如果采用简单指数平滑法进行处理,其操作方法如下:

选择“Statistics”菜单中的“Time Series”命令中的子命令“Exponential Smoothing…”(指数平滑)。

选择“Exponential Smoothing…”命令后将出现“Exponential Smoothing”对话框,如下图所示:

将左边变量列表中的“t29寸”作为要处理的变量。然后在“Model”(模型)选项中选择“Simple(简单),该选项为SPSS默认值。根据需要可以进行如下设置:

Save 保存:如果需要保存预测结果,则可单击该按钮。由于现在还不知道模型效果如何,所以还谈不上保存结果,后面将说明具体其用法。

Parameters 参数:进行模型参数的优化优化或设定。单击该按钮将出现如下图所示的对话框:

在参数设置对话框中的“General (alpha)”选项中选择“Grid Search”,并且在“Start”、“Stop”、及“By”中分别设定数值01、及0.01。然后单击“Continue(继续)按钮回到上一级对话框,即指数平滑法对话框。最后单击该对话框中的OK按钮即可进行单指数平滑法的有关计算。其主要计算结果如下:

MODEL: MOD_3.

Results of EXSMOOTH procedure for Variable T29

MODEL= NN (No trend, no seasonality)

Initial values: Series Trend

24248.94445 Not used

DFE = 53.

The 10 smallest SSE's are: Alpha SSE

.9400000 4462999986.5

.9300000 4463272218.0

.9500000 4463709571.6

.9200000 4464529158.8

.9600000 4465399209.5

.9100000 4466774830.5

.9700000 4468068266.3

.9000000 4470014386.1

.9800000 4471717242.4

.8900000 4474254113.6

The following new variables are being created:

NAME LABEL

FIT_1 Fit for T29 from EXSMOOTH, MOD_3 NN A .94

ERR_1 Error for T29 from EXSMOOTH, MOD_3 NN A .94

由上述计算结果得到的最优平滑指数为0.94,该指数值对应的SSE(误差平方和)是最小的。由于最优指数值非常接近1,说明简单指数平滑法不适用现在的实际观察值。或者说简单指数平滑法不能识别出当前数据的变化模式或规律。通常如果得到的最优平滑值为0.3左右,则说明简单指数平滑法是适用的;如果该值超过0.6则表明不能使用简单指数平滑法。

此外,上表结果还显示在数据窗口中增加了两列数据,一列是估计值(FIT_1),另一列是估计值与实际观察值之间(ERR_1)。如下图所示:

由于简单指数平滑法不适用,因此下面尝试线性指数平滑法,或Holt方法。使用Holt方法的操作过程与简单指数平滑法过程几乎相同,但是由于Holt方法中有两个平滑指数,因此其差别就在于参数设置,此时的设置如一图所示:

Holt方法计算的结果如下:

MODEL: MOD_4.

_

Results of EXSMOOTH procedure for Variable T29

MODEL= HOLT (Linear trend, no seasonality)

Initial values: Series Trend

-419.68868 949.37736

DFE = 52.

The 10 smallest SSE's are: Alpha Gamma SSE

.9100000 .0000000 3818419008.5

.9200000 .0000000 3818512887.7

.9000000 .0000000 3819154721.2

.9300000 .0000000 3819434358.6

.8900000 .0000000 3820722870.8

.9400000 .0000000 3821182274.8

.8800000 .0000000 3823127137.6

.9500000 .0000000 3823756354.1

.8700000 .0000000 3826372029.1

.9600000 .0000000 3827157188.7

The following new variables are being created:

NAME LABEL

FIT_2 Fit for T29 from EXSMOOTH, MOD_4 HO A .91 G .00

ERR_2 Error for T29 from EXSMOOTH, MOD_4 HO A .91 G .00

上述计算结果比简单指数平滑法要好,因其最小SSE3818419008.5小于简单指数平滑法的最小SSE,该值为4462999986.5小。但是从最优平滑指数值看,它们分别为0.910.00,此方法仍然不理想。其道理与前相似。

由于在彩电销售量的序列曲线图中可以看出该值呈现较为明显的季节性变化,因此选择季节型指数平滑法,或Winters方法是较为合适的。在Winters模型中有三个平滑指数,因此其参数设置更为复杂一些,下图显示的是参数设置结果:

注意在上述参数设置中,对于趋势指数和季节指数的起始值及步长值都设得较小,其主要原因是为了减少计算量。如果将步长值设得过小,而同时将起始值的范围设得过大,则会产生计算溢出,造成计算中止的现象。利用上述参数计算出的结果如下:

MODEL: MOD_5.

_

Results of EXSMOOTH procedure for Variable T29

MODEL= WINTERS (Linear trend, multiplicative seasonality) Period= 12

Seasonal indices:

1 153.14241

2 95.38271

3 121.51321

4 105.24548

5 76.85350

6 69.32613

7 71.49253

8 63.20330

9 93.15439

10 113.55254

11 94.13740

12 142.99640

_

Results of EXSMOOTH procedure for Variable T29 (CONTINUED)

MODEL= WINTERS (Linear trend, multiplicative seasonality) Period= 12

Initial values: Series Trend

-7038.19444 1282.51852

DFE = 41.

The 10 smallest SSE's are:

Alpha Gamma Delta SSE

.7300000

.0040000

.0100000

3541140598.6

.7300000

.0030000

.0040000

3563501959.3

.7300000

.0040000

.0090000

3576543326.8

.7300000

.0030000

.0050000

3637748942.7

.7300000

.0040000

.0080000

3642921675.0

.7300000

.0030000

.0030000

3682267973.5

.7300000

.0040000

.0070000

3742556494.2

.3800000

.0070000

.0030000

3756269540.9

.3800000

.0060000

.0100000

3771329919.8

.3800000

.0070000

.0040000

3827905528.4

The following new variables are being created:

NAME LABEL

FIT_3 Fit for T29 from EXSMOOTH, MOD_5 WI A .73 G .00 D .01

ERR_3 Error for T29 from EXSMOOTH, MOD_5 WI A .73 G .00 D .01

上述计算结果中的最好SSE值为3541140598.6,该值明显好于简单指数平滑法和线性指数平滑法的结果。因此可以选择Winters方法继续进行分析。

注意在上述结果中,同时还显示出了季节系数,它们分别是:

Seasonal indices 季节系数:

月份

季节系数

1

153.14241

2

95.38271

3

121.51321

4

105.24548

5

76.85350

6

69.32613

7

71.49253

8

63.20330

9

93.15439

10

113.55254

11

94.13740

12

142.99640

由季节系数值的变化不难看出,该规格彩电销售的高峰在元月及十二月份,三、四月份及十月份分别也有一个小高潮。这与实际销售情况是比较吻合的。元月份通常是春节所在月份,肯定是销售旺季;十月份是国庆节也是一个旺季;由于厂家为春节准备了充足的货源,而过完春节肯定是淡季,因此厂家此时会大量降价促销,由此产生了三月份的小高潮。

确定了模型及参数后,下面的工作就是要对未来一年的各月销售量进行预测。利用Winters方法进行预测的操作过程与前类似,只是需要对“Exponential Smoothing”(指数平滑)对话框中的“Save”(保存)命令按钮下的对话框进行设置。其操作方法如下:

单击“Exponential Smoothing”(指数平滑)对话框中的“Save”(保存)命令按钮,这时将显示,“Save”(保存)对话框,如下图所示:

在“Create Variables”(生成变量)选项中选择“Add to file”(增加到文件),该值为SPSS默认值;然后在“Predict Cases”(预测)选项中选择“Predict through”(预测到),并且在“Year”(年)、Month(月)文本框中分别填写20006。因为观察值为19965月至19996月,所以未来一年的最终月份为20006月。

最后单击“Exponential Smoothing”(指数平滑)对话框中的OK命令按钮,即可得到预测结果。预测结果显示在数据窗口中。下图显示出了未来一年的各月份的预测销售量。

3.5.3. 自相关及偏自相关分析

自相关及偏自相关分析不仅可以用来判断ARMA模型中的自回归及滑动平均的阶数,而且可以用来检验或判断任何预测结果的优劣。当然也可以用来判断一组数据或时间序列是否有规律,以及规律或变化模式是否可以识别出来,可是否可以预测出来。下面以上节Winters模型预测结果为例说明判断预测结果的方法。

在进行预测时,预测模型不仅可以给出未来的预测值,同时还可以给出历史数据或观察值所对应的估计值。估计值与观察值的差就是SPSS数据窗口中显示的ERR变量。对该变量进行自相关及偏自相关分析,可以得到相应的自相关及偏自相关系数。进行自相关及偏自相关分析的操作方法如下:

选择“Graphs”(图形)菜单中的“Time series”(时间序列)命令的子命令 Autocorrelations…”(自相关)命令。

执行“Autocorrelations…”(自相关)命令后将出现如下对话框:

ERR_4作为变量进入右边的“Variables”框中。注意在“Display”选项下的两个复选框都已经被选取。然后单击OK按钮。自相关及偏自相关分析的结果显示在输出窗口中,主要结果如下:

MODEL: MOD_8.

Variable: ERR_4 Missing cases: 12 Valid cases: 54



Autocorrelations: ERR_4 Error for T29 from EXSMOOTH, MOD_6 WI

Auto- Stand.

Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Box-Ljung Prob.

+----+----+----+----+----+----+----+----+

1 .086 .132 . I** . .423 .515

2 -.063 .131 . *I . .652 .722

3 .163 .130 . I*** . 2.235 .525

4 -.186 .129 .****I . 4.323 .364

5 -.295 .127 *.****I . 9.691 .084

6 -.044 .126 . *I . 9.814 .133

7 -.204 .125 .****I . 12.486 .086

8 -.114 .123 . **I . 13.348 .100

9 -.081 .122 . **I . 13.793 .130

10 -.042 .121 . *I . 13.912 .177

11 .055 .119 . I* . 14.124 .226

12 .154 .118 . I*** . 15.837 .199

13 .109 .116 . I** . 16.717 .213

14 -.010 .115 . * . 16.724 .271

15 .044 .114 . I* . 16.877 .326

16 -.030 .112 . *I . 16.949 .389

Plot Symbols: Autocorrelations * Two Standard Error Limits .

Total cases: 66 Computable first lags: 53



Partial Autocorrelations: ERR_4 Error for T29 from EXSMOOTH, MOD_6 WI

Pr-Aut- Stand.

Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1

+----+----+----+----+----+----+----+----+

1 .086 .136 . I** .

2 -.071 .136 . *I .

3 .177 .136 . I****.

4 -.234 .136 *****I .

5 -.240 .136 *****I .

6 -.058 .136 . *I .

7 -.192 .136 .****I .

8 -.048 .136 . *I .

9 -.232 .136 *****I .

10 -.097 .136 . **I .

11 -.071 .136 . *I .

12 .034 .136 . I* .

13 -.005 .136 . * .

14 -.198 .136 .****I .

15 -.057 .136 . *I .

16 -.147 .136 . ***I .

Plot Symbols: Autocorrelations * Two Standard Error Limits .

Total cases: 66 Computable first lags: 53

上述结果显示自相关及偏自相关系数均较小,这说明预测的效果还是比较满意的,残差中已经没有有规律的成份。或者说模型已经识别出所有有规律的数据变化样式。这一点也可通过SPSS同时输出的高分辨率图形看出:

作为对照,现在看一下观察值或原始数据的自相关及偏自相关分析结果。这里只列出高分辨率图形:

从以上图形可以明显看出原始数据是有规律的,而且其规律是可以识别出来或可以预测出来的。

本文来源:https://www.2haoxitong.net/k/doc/693e538b2dc58bd63186bceb19e8b8f67c1ceff7.html

《时间序列分析法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式