CaseTimeSeries2013.pdf

(692 KB) Pobierz
Case nr 3. Zaawansowana Eksploracja Danych (Specj. TPD)
Szeregi czasowe i prognozowanie
© Jerzy Stefanowski, Instytut Informatyki Politechnika Poznańska - 2011
aktualizacja dla edycji 2013/14.
Cel studium przypadku:
Studium poświęcone jest metodom analizy szeregów czasowych (ang. time series) oraz
wykorzystaniu różnych metod ich dekompozycji oraz przewidywania / prognozowania
przyszłych wartości szeregu. Proponowany przebieg zajęć obejmuje trzy etapy. W pierwszej
części (o charakterze kilku
ćwiczeń
na przygotowanych prostych zestawach rzeczywistych i
sztucznie wygenerowanych danych) zajmujemy się metodami adaptacyjnymi wykorzystujące
tzw. mechaniczne metody wygładzania szeregów czasowych – tzn. różnego rodzaju
średnie
oraz wygładzanie wykładnicze. Alternatywnie pokazuje się możliwości metod analitycznych
do wykrywanie tzw. trendu. W drugiej części należy zapoznać się z podstawową metodą
dekompozycji szeregu czasowego wykorzystującą wskaźniki sezonowości (dodatkowo można
zbadać tzw. metodę Wintersa). Oprócz przykładów dydaktycznych proponuje się dokonać
dekompozycji większego problemu opartego na rzeczywistych danych. Ostatnia część ma
charakter typowego studium rzeczywistego przypadku – należy wybrać jeden z możliwych
rzeczywistych długoterminowych zestawów danych i samodzielnie dobrać do niego najlepszy
model analizy samego szeregu jak i prognozowania przyszłych wartości.
Pojęcia kluczowe
Student /ka przed rozpoczęciem
ćwiczenia
powinna zapoznać się z następującymi pojęciami:
Szereg czasowy i jego składniki (trend, wahania okresowe).
Model addytywny szeregu czasowego.
Model multiplikatywny szeregu czasowego.
Metody
średnich
ruchomych.
Wygładzanie wykładnicze oraz metoda Holta.
Liniowe i nieliniowe analityczne funkcje trendu.
Dekompozycja szeregu czasowego.
Wskaźniki sezonowości.
Metoda Wintersa
Miary dokładności prognoz.
Powyższe pojęcia omówiono na wykładzie (patrz moja strona dydaktyczna
www.cs.put.poznan.pl/jstefanowski/tpd.html), tamże podano literaturę uzupełniającą.
Zalecam odniesienie się do takich polskojęzycznych książek jak:
P.Dittmann: Prognozowanie w przedsiębiorstwie. Wolters Kluwer Polska, Kraków 2008.
A.D. Aczel: Statystyka w zarządzaniu (tłumaczenie). PWN, Warszawa 2000.
D.Witkowska: Podstawy ekonometrii i teorii prognozowania. Oficyna Ekonomiczna 2005.
A.Snarska: Statystyka, ekonometria, prognozowanie. Wyd. Placet 2005.
G.Box, G.Jenkins: Analiza szeregów czasowych (tłumaczenie). PWN, Warszawa 1983
P.Dittmann: Metody prognozowania sprzedaży w przedsiębiorstwie. Wyd. AE we Wrocławiu,
1983..
Warto także zapoznać się z stroną prof. K.Krawca z Politechniki Poznańskiej z materiałami
dla studiów podyplomowych i niestacjonarnych – pdf obszernego wykładu „Analiza
szeregów czasowych i prognozowanie”.
Forma zaliczenia
Wykonanie
ćwiczenia
i zestawienie otrzymanych wyników – syntetyczny i krótki raport
wyniku dla każdego z
ćwiczeń
najlepiej w formie elektronicznej.
Narzędzia
Oprogramowanie Excel oraz Statsoft Statistica.
Dane do wykonania zadań
Pliki xls zawierające dane do wykonania kolejnych zadań – patrz opisy na kolejnych
zakładkach skoroszytu. Dodatkowo proste przykłady danych zawarte w tym pliku
Przebieg
ćwiczenia:
Część pierwsze – podstawowe metody:
W pierwszej części
ćwiczenia
zapoznajemy się z podstawowymi metodami adaptacyjnymi,
gdzie wykorzystuje się tzw. wygładzanie szeregu czasowego w oparciu o
średnie
(ruchome,
zcentrowane, ważone itp.) lub tzw. wygładzanie wykładnicze.
Zadanie 1. Zapoznanie się z
średnimi
ruchomymi.
Sprawdźmy możliwości użycia
średniej
ruchomej (prostej) do eliminacji losowości w
przebiegu szeregu czasowego i prognozowania kolejnych wartości (zakładamy,
że
w tym
przypadku nie ma większych wahań sezonowych albo cyklicznych, a przebieg sygnału
pozwala na prognozowanie w oparciu o okno dawnych wartości zmiennej
y).
Rozważ dane z arkusza „Kurs_dolara”, które przedstawiają kurs dolara w stosunku do
złotówki w okresie pierwszego półrocza 2001 roku.
Celem jest sprawdzenie możliwości wygładzania tego szeregu (tj. eliminacji wahań
losowych) przy pomocy
średniej
ruchomej prostej (np. możesz zacząć od
średniej
trzyokresowej k=3, a później zwiększać rozmiar okna). Następnie określ krótkoterminowe
prognozy kursu na następne dni (wybrane dni po 29 06 2001). Należy także dokonać
oszacowania błędu prognozy.
Wykorzystujemy model najprostszej
średniej
ruchomej prostej – tj.
średniej
z
k
poprzednich
obserwacji. Jeśli korzystasz z Excela radzę zdefiniować formułę samodzielnie (na podstawie
wiedzy z wykładu, książek i innych materiałów). W Excelu jest także funkcja
ŚREDNIA
RUCHOMA z dialogu
Analiza danych
dostępnych w
Narzędzia
(lecz ona ma inaczej
zdefiniowane okno czasowe – włącznie z
k
obserwacją) dlatego lepiej abyś definiował
formułę osobiście.
Najlepiej w kolejne wolnej kolumnie arkusza, np. C, umieścić wartości odpowiednich
średnich
ruchomych (oczywiście pierwsze wiersze nie mogą być obliczone z uwagi na
stosowane okno czasowe). W kolejnej kolumnie D można umieścić wartości błędu między
wartością prognozowaną a rzeczywistą (tzw. reszty). Na tej podstawie możesz później
obliczyć globalny błąd (albo
średni
kwadratowy MSE, lub
średni
błąd przedziałowy)
Sugerowane jest wykonanie wykresów zarówno autentycznej wartości jak i prognozowanej –
oceń optycznie dopasowanie wartości bieżących historycznych oraz wartości
prognozowanych.
Zastanów się czy zmodyfikować wartość
k
oraz jak zweryfikować, które z rozważanych
wartości jest najlepsza ze względu na wybrane miary oceny dopasowania i prognozowania.
Na przykład użyj
k
= 4,
k=5,
7 itd. i oceń, który z parametrów lepiej przybliża rzeczywisty
przebieg.
Zadanie 2. Dobór parametrów
średniej
ruchomej dla procesów
przemysłowych.
Celem tego zdania jest ponownie dobór najkorzystniejszej wartości parametru
k
w
średniej
ruchomej w oparciu o ocenę błędów prognozy.
Jako przykładowe dane rozważmy dane dotyczące obserwacji produkcji cementu w tys. ton w
kolejnych miesiącach lat 1995-1997. Są one zapisane w arkuszu o nazwie „Cement”. Celem
ćwiczenia
jest ponownie znalezienie w miarę prostego modelu prognozowania – choć obecnie
przebieg szeregu jest bardziej skomplikowany. Dlatego na początku wykonaj wykres
produkcji w zależności od czasu i dokonaj interpretacji.
Obserwując wykres przebiegu miesięcznej produkcji cementu można zauważyć pewien
regularny cykl roczny, który jest zniekształcony przez drobne nieregularności. W celu
likwidacji ich wpływu zastosuj metodę
średnich
ruchomych, przyjmując różne stałe
wygładzania
k.
Dla
średnich
centrowanych sprawdź następujące parametry: k = 3, 4, 5, 6 i 7.
Oczywiście w drugiej części (zadania) możesz wykorzystać te dane do budowy wskaźników
sezonowości w metodach tzw. dekompozycji Cenzus I.
W celu oceny jakości prognozy dokonaj pogłębionej analizy błędów, tj. rozważ następujące
inne metody oceny błędu, np.: ME –
średni
błąd procentowy, MAE –
średni
błąd
bezwzględny, MSE –
średni
błąd kwadratowy
W oparciu o wartości tych miar podejmij decyzje, która wartość parametru
k
jest najlepsza.
Korzystając z najlepszego doboru parametru dokonaj prognozy produkcji miesięcznej
cementu na styczeń i kilka kolejny miesięcy1998.
Zastanów się, czy masz koncepcję na inny model prognozy niż
średnie
kroczące (np. ważone,
lub inne). Jeśli tak spraw ich skuteczność dla tego zbioru danych.
Zadanie 3. Wygładzanie wykładnicze szeregu czasowego z
wykorzystaniem
średniej
scentrowanej.
Celem tego zdania jest dobór najkorzystniejszej wartości parametru
k
w
średniej
ruchomej
(lecz obecnie
zcentrowanej)
w szeregu, który charakteryzują silne wahania. Dobrze dobrana
centrowana
średnia
ruchoma powinna zlikwidować te zmiany i pozwolić na wskazani funkcji
trendu zmian.
Takie podejście może przydać się w kolejnych częściach tego studium
przypadku – głównie przy wyodrębnianiu składowej trendu z szeregu obdarzonego
wahaniami sezonowymi w dalszej części
ćwiczenia
związanej z dekompozycją szeregu.
Jako przykładowe dane rozważmy dane dotyczące zapisu wielkości eksporty pewnego towaru
od początku 1997 r.. Są one zapisane w arkuszu o nazwie „Eksport”.
Podobnie jak w poprzednim
ćwiczeniu
musisz dobrać wartość okna
średniej
centrowanej (np.
zacznij od
k
= 4, 5 itd.). Wartość formuły wprowadź w kolumnie D, odpowiednio pomijając
wiersze na początku i na końcu serii danych w zależności od rozmiaru okna. Na koniec
wykonaj wykres oryginalnych wartości szeregu i wartości
średniej
ruchomej – optycznie oceń
czy dobrze ilustrują one tendencje rozwojową eksportu towaru.
W dalszej części tego
ćwiczenia
rozważ alternatywne podejście analityczne do wyznaczanie
linii trendu – tzn. zbuduj równanie funkcji regresji. Zdecyduj czy trend ma charakter liniowy
czy nie. Wybierz w Excelu odpowiednie narzędzia modelowania funkcji regresji.
Nanieś jej przebieg na wykres – porównaj z wcześniejszym wyborem linii trendu
wynikającym z
średniej
centrowanej.
Zdecyduj (ew. wspierając się oceną błędów), które podejście jest skuteczniejsze dla
rozważanego przykładu danych eksportowych.
Wersja ze zmienionym narzędziem – gdzie są szeregi czasowe w Statistica
W przypadku chęci skorzystania z pakietu Statistica wybierz opcje o stosowanej nazwie z
menu (w obecnej wersji pakietu nazwy mogą być inne zwłaszcza w przypadku nazewnictwa
polskojęzycznego)
Dalej w oknie w głównym oknie wybierz przycisk przekształcenia szeregów i dojdziesz do
okna z zakładkami, gdzie może odnaleźć podopcje wygładzania z różnymi
średnimi
przykład użycia zawarto na następnym oknie.
Zadanie 4. Wygładzanie wykładnicze szeregu czasowego.
Przy pomocy wygładzania wykładniczego i jego modyfikacji można ekstrapolować trend
(wygładzanie usuwa tzw. „szumy” i inne efekty pewnych odchyleń, a pozostawia jedynie
podstawowy sygnał), co jest przydatne do prognozowania (predykcji) zachowań szeregu w
bliskiej przyszłości.
Klasyczna metoda Browna.
Metoda Browna (najprostsza wersja) należy do metod wygładzania wykładniczego;
stosowana jest najczęściej w przypadku szeregu bez trendu; szereg nie wykazuje tendencji
rozwojowej, a wahania jego wartości wynikają z działania czynników losowych. Metoda
polega na tym,
że
szereg czasowy zmiennej prognozowanej wygładza się za pomocą
specyficznej ważonej
średniej
ruchomej, przy czym wagi określone są według prawa
wykładniczego.
Stosujemy podstawową formułę wygładzania wykładniczego z uwzględnieniem elementu
prognozy w momencie
t-1
oraz stałej wygładzania
α.
Reguła predykcji w postaci rekurencyjnej:
ˆ
dla pierwszego momentu czasowego:
y
1
=
y
0
ˆ
ˆ
dla kolejnych:
y
t
=
α
y
t
1
+
(1
α
)
y
t
1
Metoda prostego wyrównywania wykładniczego może służyć do prognozowania tylko na
jeden krok naprzód.
Analizując ten wzór możesz zauważyć:
Jeśli wyznaczona prognoza na okres
t-1
była w porównaniu z rzeczywistą wartością zmiennej
prognozowanej zaniżona, to prognoza na okres
t
zwiększa się ( korekta w górę), i odwrotnie -
Zgłoś jeśli naruszono regulamin