Chemometria_2_dod_Regresja wielokrotna.pdf
(
840 KB
)
Pobierz
Regresja
wielokrotna
Model dla zależności liniowej:
Y =
a
+
b
1
X
1
+
b
2
X
2
+ ... +
b
n
X
n
Cząstkowe współczynniki regresji wielokrotnej:
b
1
, ... ,
b
n
Zmienne niezależne (przyczynowe): X
1
, ... , X
n
Zmienna zależna (skutkowa): Y
i-ty,
cząstkowy współczynnik regresji opisuje o ile średnio zmieni się wartość
zmiennej Y przy wzroście wartości zmiennej X
i
o jednostkę
przy ustalonych
wartościach pozostałych zmiennych
niezależnych.
Współczynnik zmienności
(R-Square) – informacja o tym, w jakim stopniu
równanie regresji wyjaśnia zmienność zmiennej zależnej. Przyjmuje wartość od 0
do 100%. Im więcej cech zostało umieszczonych w modelu tym wyższe wartości
on przyjmuje.
Poprawiony współczynnik zmienności
(adjusted
R-square)
– zawiera
poprawkę na liczbę zmiennych w modelu. Jeżeli dodanie zmiennej do modelu
nie poprawia jakości wnioskowania, poprawiony współczynnik zmienności
może być mniejszy.
Załóżmy, że
mamy m cech,
więc pełny model wyglądałby:
Y =
a
+
b
1
X
1
+
b
2
X
2
+ ... +
b
m
X
m
Można postawić hipotezę zerową, że:
wszystkie współczynniki cząstkowe są równe 0
przy alternatywnej, że przynajmniej jeden nie jest.
Jednak nawet po odrzuceniu hipotezy o nieistotności modelu nie wszystkie
zmienne przyczynowe (X
1
,..., X
n
) wpływają (w przybliżeniu liniowo) na
zmienną skutkową (Y).
Działaniem statystycznym jest wybór tych
zmiennych przyczynowych, które liniowo wpływają na Y.
Są różne
kryteria wyboru zmiennych przyczynowych
występujących w
modelu, np.:
•
AIC (Akaike’s Information Criterion)
AIC = n·ln(SSE/n) + 2p
•
SBC (Schwarz’s Bayesian Criterion)
SBC = n·ln(SSE/n) + (p)·ln(n)
gdzie:
n jest liczbą obserwacji; p – liczbą parametrów, tj. liczbą cech + 1;
SSE – sumą kwadratów odchyleń dla błędu w wybranym modelu.
Ani AIC ani SBC nie pokazują bezpośrednio, które zmienne powinny być
zawarte w modelu a których tam być nie powinno. Oczywiście można
sprawdzić wszystkie kombinacje (każdy podzbiór cech), tzn. policzyć wybrane
kryterium (np. AIC) i wybrać podzbiór z najniższą wartością (AIC). Jednak
ilość takich kombinacji jest spora (2
n
, więc przy dziesięciu cechach jest 1024
kombinacje, przy 20 – ponad milion).
Dlatego stosuje się metody, które choć
nie dają gwarancji
znalezienia
najlepszego układu cech,
to szybko wskażą
wysoko oceniany układ.
Metody oceniany układu:
Często stosowane są
metody krokowe
– mając dany układ cech dodajemy lub
usuwamy jedną cechę, tj. dodajemy cechę nie występującą obecnie w modelu
którą w danym momencie uważamy za właściwą, lub usuwamy cechę
występującą w modelu, jeżeli uznamy ją w danym momencie za niewskazaną.
FORWARD SELECTION
Jest to metoda, która polega na stopniowym
dołączaniu do modelu kolejnych zmiennych. W pierwszym kroku tworzony
jest model bez zmiennych przyczynowych. W drugim – z jedną zmienną
niezależną, tą, którą charakteryzuje najniższy rzeczywisty poziom istotności z
nią związany (P
value
dla hipotezy, że ta zmienna nie wyjaśnia liniowo błędów
modelu). W następnym kroku tworzony jest na tej samej zasadzie model z
dwiema zmiennymi niezależnymi itd.
Postępowanie trwa tak długo, aż nie zostanie znaleziona już zmienna, dla
której rzeczywisty poziom istotności jest mniejszy niż zakładany (np. 50%).
BACKWARD SELECTION
Jest to metoda, która polega na stopniowym
usuwaniu z modelu kolejnych zmiennych. W pierwszym kroku tworzony jest
model z wszystkim deklarowanymi zmiennymi. Kolejne kroki polegają na
usuwaniu po jednej zmiennej, która najmniej wnosi do modelu, tzn. P
value
jest
największe. Analiza trwa do momentu, gdy pozostałe w modelu zmienne
charakteryzują się P
value
poniżej zakładanego poziomu (np. 10%).
STEPWISE
to połączenie powyższych metod. Określa się poziom istotności,
przy którym zmienna jest dołączana bądź usuwana z modelu.
Liczba obserwacji musi być większa od liczby parametrów.
Reszty modelu
(różnica między rzeczywistą a oszacowaną modelem
wartością zmiennej zależnej) powinny spełniać kryteria:
•
reszty posiadały rozkład normalny w każdym punkcie szacowanej
(wyliczonej) wartości zmiennej zależnej,
•
wartość oczekiwana reszt dla każdej oszacowanej wartości
(wyliczonego Y) wynosiła 0,
•
równa wariancja reszt dla wszystkich oszacowanych wartości zmiennej
zależnej Y.
Plik z chomika:
eminem_mathers
Inne pliki z tego folderu:
Analiza podobienstwa_6_RD.pdf
(1869 KB)
2015_STAT_PL_RD.pdf
(416 KB)
Wektory i macierze_dod_RD.pdf
(827 KB)
Optymalizacja_5_RD.pdf
(1812 KB)
Modelowanie_4_RD.pdf
(1028 KB)
Inne foldery tego chomika:
anatomia
bezpieczeństwo obrotem substancjami chemicznymi i niebezpiecznymi
bezpieczeństwo pracy i egronomia
biochemia
chemia analityczna
Zgłoś jeśli
naruszono regulamin