Chemometria_2_dod_Regresja wielokrotna.pdf

(840 KB) Pobierz

Regresja

wielokrotna

Model dla zależności liniowej:

Y =

+ ... +

Cząstkowe współczynniki regresji wielokrotnej:

, ... ,

Zmienne niezależne (przyczynowe): X

, ... , X

Zmienna zależna (skutkowa): Y

i-ty,

cząstkowy współczynnik regresji opisuje o ile średnio zmieni się wartość

zmiennej Y przy wzroście wartości zmiennej X

o jednostkę

przy ustalonych

wartościach pozostałych zmiennych

niezależnych.

Współczynnik zmienności

(R-Square) – informacja o tym, w jakim stopniu

równanie regresji wyjaśnia zmienność zmiennej zależnej. Przyjmuje wartość od 0

do 100%. Im więcej cech zostało umieszczonych w modelu tym wyższe wartości

on przyjmuje.

Poprawiony współczynnik zmienności

(adjusted

R-square)

– zawiera

poprawkę na liczbę zmiennych w modelu. Jeżeli dodanie zmiennej do modelu

nie poprawia jakości wnioskowania, poprawiony współczynnik zmienności

może być mniejszy.

Załóżmy, że

mamy m cech,

więc pełny model wyglądałby:

Y =

+ ... +

Można postawić hipotezę zerową, że:

wszystkie współczynniki cząstkowe są równe 0

przy alternatywnej, że przynajmniej jeden nie jest.

Jednak nawet po odrzuceniu hipotezy o nieistotności modelu nie wszystkie

zmienne przyczynowe (X

,..., X

) wpływają (w przybliżeniu liniowo) na

zmienną skutkową (Y).

Działaniem statystycznym jest wybór tych

zmiennych przyczynowych, które liniowo wpływają na Y.

Są różne

kryteria wyboru zmiennych przyczynowych

występujących w

modelu, np.:

•

AIC (Akaike’s Information Criterion)

AIC = n·ln(SSE/n) + 2p

•

SBC (Schwarz’s Bayesian Criterion)

SBC = n·ln(SSE/n) + (p)·ln(n)

gdzie:

n jest liczbą obserwacji; p – liczbą parametrów, tj. liczbą cech + 1;

SSE – sumą kwadratów odchyleń dla błędu w wybranym modelu.

Ani AIC ani SBC nie pokazują bezpośrednio, które zmienne powinny być

zawarte w modelu a których tam być nie powinno. Oczywiście można

sprawdzić wszystkie kombinacje (każdy podzbiór cech), tzn. policzyć wybrane

kryterium (np. AIC) i wybrać podzbiór z najniższą wartością (AIC). Jednak

ilość takich kombinacji jest spora (2

, więc przy dziesięciu cechach jest 1024

kombinacje, przy 20 – ponad milion).

Dlatego stosuje się metody, które choć

nie dają gwarancji

znalezienia

najlepszego układu cech,

to szybko wskażą

wysoko oceniany układ.

Metody oceniany układu:

Często stosowane są

metody krokowe

– mając dany układ cech dodajemy lub

usuwamy jedną cechę, tj. dodajemy cechę nie występującą obecnie w modelu

którą w danym momencie uważamy za właściwą, lub usuwamy cechę

występującą w modelu, jeżeli uznamy ją w danym momencie za niewskazaną.

FORWARD SELECTION

Jest to metoda, która polega na stopniowym

dołączaniu do modelu kolejnych zmiennych. W pierwszym kroku tworzony

jest model bez zmiennych przyczynowych. W drugim – z jedną zmienną

niezależną, tą, którą charakteryzuje najniższy rzeczywisty poziom istotności z

nią związany (P

value

dla hipotezy, że ta zmienna nie wyjaśnia liniowo błędów

modelu). W następnym kroku tworzony jest na tej samej zasadzie model z

dwiema zmiennymi niezależnymi itd.

Postępowanie trwa tak długo, aż nie zostanie znaleziona już zmienna, dla

której rzeczywisty poziom istotności jest mniejszy niż zakładany (np. 50%).

BACKWARD SELECTION

Jest to metoda, która polega na stopniowym

usuwaniu z modelu kolejnych zmiennych. W pierwszym kroku tworzony jest

model z wszystkim deklarowanymi zmiennymi. Kolejne kroki polegają na

usuwaniu po jednej zmiennej, która najmniej wnosi do modelu, tzn. P

value

jest

największe. Analiza trwa do momentu, gdy pozostałe w modelu zmienne

charakteryzują się P

value

poniżej zakładanego poziomu (np. 10%).

STEPWISE

to połączenie powyższych metod. Określa się poziom istotności,

przy którym zmienna jest dołączana bądź usuwana z modelu.

Liczba obserwacji musi być większa od liczby parametrów.

Reszty modelu

(różnica między rzeczywistą a oszacowaną modelem

wartością zmiennej zależnej) powinny spełniać kryteria:

•

reszty posiadały rozkład normalny w każdym punkcie szacowanej

(wyliczonej) wartości zmiennej zależnej,

•

wartość oczekiwana reszt dla każdej oszacowanej wartości

(wyliczonego Y) wynosiła 0,

•

równa wariancja reszt dla wszystkich oszacowanych wartości zmiennej

zależnej Y.

Plik z chomika:

eminem_mathers

Chemometria_2_dod_Regresja wielokrotna.pdf

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: