STAT_E2.pdf

(1699 KB) Pobierz
ENEGR.13 A.Lenarcik, Z.Piasta
Badania częściowe, obciążenia próby, wnioskowanie, błędy
26
Z badaniami przeprowadzanymi z pomocą próby wiąże się wiele niebezpieczeństw. Dobrze ilustruje
to przytoczony niżej przykład [1].
W roku 1936 w Stanach Zjednoczonych rywalizowali o fotel prezydenta kandydat demokratów
F. D. Roosevelt oraz kandydat republikanów A. Landon. Znany tygodnik amerykański
Literary
Digest’s
przeprowadził badania mające na celu wskazać zwycięzcę jeszcze przed wyborami. Prze-
prowadzono ankietę wybierając respondentów z książek telefonicznych oraz list posiadaczy samocho-
dów. Wysłano listy do 10 milionów Amerykanów i odpowiedzi otrzymano od 2 milionów wyborców.
Wynik badań wskazywał na zdecydowane zwycięstwo Landona, co od razu przedstawiono opinii pu-
blicznej. Jakież było zdziwienie, gdy z dużą przewagą wybory wygrał Roosevelt. Na skutek działań
konkurencji tygodnik, który zorganizował błędne badania, szybko zniknął z rynku.
Zastanówmy się, w którym miejscu popełniono błąd? Otóż republikanie amerykańscy, to przede
wszystkim klasa średnia, czyli ludzie bogatsi, związani z własnością. Tymczasem prezydenta Ro-
osevelta wybrała biedniejsza część społeczeństwa – w dużym stopniu pominięta w badaniach. Ten
rodzaj błędu nazywamy
obciążeniem
lub
błędem systematycznym.
Dla lepszego wyjaśnienia tego
błędu wprowadzimy pojęcie
operatu losowania.
Operat jest to dostępny dla badacza podzbiór popu-
lacji, z którego wybierana jest próba. W przykładzie amerykańskim operatem były listy abonentów
telefonicznych oraz listy posiadaczy samochodów. Krytyczna ocena operatu jest ważnym elemen-
tem planowania badań. Zwróćmy uwagę, że na ocenę operatu zasadniczy wpływ ma jego związek z
tematem badań. Wybrany operat może być dobry w jednych badaniach, a zły w innych. Sytuacją
idealną jest niezależność operatu od tematu badań.
Innym i dość częstym powodem błędu systematycznego jest pomijanie osób, które odmawiają
udziału w badaniach. W przykładzie amerykańskim dodatkowym błędem było wykorzystanie in-
formacji jedynie od osób, które odpowiedziały na list. W ten sposób poznano opinie osób bardziej
aktywnych i chętnych do współpracy.
Próbę, która jest dobrym odzwierciedleniem populacji nazywamy
próbą reprezentatywną.
Naj-
lepszym sposobem wyboru takiej próby jest wybór losowy z listy populacji. W praktyce, listy takie
na ogół nie są dostępne, dlatego zwykle musi wystarczyć dobrze dobrany operat. Jeśli uporamy się
z poprawnym doborem próby reprezentatywnej, to jeszcze trzeba zadbać o to, aby unikać obciążeń
spowodowanych np. złym ułożeniem pytań ankiety.
Dopiero, gdy nie popełnimy błędów systematycznych możemy mówić o poprawnym wniosko-
waniu statystycznym. Jednak wyeliminowanie wszystkich błędów sztuki zależnych od organizarora
badań nie daje jeszcze gwarancji poprawnych wyników. Wnioskowanie statystyczne obarczone jest
zawsze błędem losowym, zależnym od wielkości próby. Błąd ten nie może być do końca wyeliminowa-
ny, ale może być istotnie ograniczony poprzez dobór odpowiednio licznej próby. Błąd statystyczny
może być kontrolowany metodami matematycznym i poznanie tych metod jest jednym z celów
wykładu. Dla przykładu: w badaniach opinii publicznej zwykle próba liczy około 1000 osób. Wnio-
skowaniu statystycznemu na podstawie takiej próby towarzyszy błąd rzędu 3%. Aby zmniejszyć
błąd do 1% należy badać próbę złożoną z 10 000 osób.
Przykłady obciążeń próby
Poniższe zadanie przykładowe może się przydać podczas rozmowy zaliczeniowej. Mamy tutaj okazję
sprawdzić, czy potrafimy poprawnie identyfikować przyczyny obciążeń próby. Interesują nas tutaj
obciążenia wskaźnika struktury na etapie doboru próby. Aby analiza obciążenia była możliwa, po-
winny zostać zidentyfikowane następujące elementy:
ENEGR.13 A.Lenarcik, Z.Piasta
1. definicja celu badań,
2. definicja badanej zbiorowości (populacji),
3. opis sposobu doboru próby.
Rozwiązanie polega na odgadnięciu przyczyny i ewentualnie kierunku obciążenia.
27
Zadanie przykładowe [1]
Zidentyfikuj główne źródła obciążenia w każdym z następujących przypadków:
(a) Przeprowadzono badania w celu określenia zakresu posługiwania się gotowymi produktami żyw-
nościowymi (np. mrożony obiad) przez gospodarstwa domowe w pewnej miejscowości. W tym celu
wybrano losową próbkę gospodarstw i odpowiednie dane uzyskano poprzez wywiady telefoniczne
przeprowadzone pomiędzy godziną 8 rano i 15. Osoby nieobecne były pomijane.
(b) Organizacja zainteresowana jest wydatkami przeznaczanymi przez gospodarstwa domowe na
zakupy w małych sklepach osiedlowych. Przedstawiciele organizacji przeprowadzili badania w kilku
dużych supermarketach w godzinach popołudniowych pytając co trzecię osobę opuszczającą super-
market.
(c) Rozgłośnia radiowa przeprowadza sondę w celu znalezienia najlepszych restauracji w danej miej-
scowości. W tym celu prosi słuchaczy o przekazanie własnych propozycji drogą telefoniczną.
(d) Organizacja zajmująca się rolnictwem zamierza przeprowadzić badania na próbce farm w stanie
Teksas. W tym celu zdecydowano się rzucić losowo lotkami w mapę stanu. Następnie wybrano dwie
farmy najbliższe do lokalizacji każdej lotki.
Rozwiązanie przykładowe dla (a)
Cel
: określenie zakresu posługiwania się gotowymi produktami żywnościowymi (np. mrożony obiad).
Zbiorowość:
gospodarstwa domowe w pewnej miejscowości.
Dobór próby:
wybrano losową próbkę gospodarstw i odpowiednie dane uzyskano poprzez wywiady
telefoniczne przeprowadzone pomiędzy godziną 8 rano i 15 (osoby nieobecne były pomijane).
Przyczyny obciążenia:
Jest to błąd wyboru czasu przeprowadzenia badań. Gotowymi produktami
żywnościowymi posługują się raczej osoby pracujące, które zwykle przygotowują posiłki w pośpie-
chu. Ponieważ badania zostały przeprowadzone w godzinach pracy, więc praktycznie pomijano osóby
pracujące, a rozmowy przeprowadzono głównie z kobietami zajmującymi się domem – przygotowu-
jącymi zwykle posiłki ze świeżych produktów. W badaniach tych ocena zakresu posługiwania się
gotowymi produktami została zaniżona.
Wskazówki do (b),(c),(d)
W punkcie (b) mamy ewidentny błąd wyboru miejsca zbierania danych. W punkcie (c) mogą się
zgłaszać telefonicznie przedstawiciele różnych restauracji, aby zachwalać jedynie swoje. Punkt (d)
jest najciekawszy i zasługuje na dłuższe omówienie. Występuje tutaj błąd losowości, który polega na
tym, że nie wszystkie farmy mają jednakową szansę znalezienia się w próbie. Przedstawiony sposób
losowania wyróżnia farmy z obszarów mniej zaludnionych. Wyjaśnimy to na przykładzie. Wyobraź-
my sobie stan jako kwadrat rozdzielony na pół pionową linią. W lewej rzadziej zaludnionej połowie
umieśćmy 20 farm, żaś w prawej gęściej zaludnionej — 80 farm. Prawdopodobieństwo trafienia lotką
w każdą połowę stanu jest równe
1
, zatem prawdopodobieństwo wyboru farmy z obszaru rzadziej
2
1
1
zaludnionego wynosi
1
·
20
=
40
, czyli jest cztery razy większe od prawdopodobieństwa wyboru
2
1
1
farmy
1
·
80
=
160
z obszaru gęściej zaludnionego.
2
Literatura
[1] R. A. Johnson, D. W. Wichern, Businees Statistics — Decision Making with Data, John Wiley
& Sons, Inc., 1997.
ENEGR.13 A.Lenarcik, Z.Piasta
28
Funkcja gęstości
Spójrzmy na poniższy wykres przedstawiający wyniki uzyskiwane podczas matury w roku 2001
/Perspektywy 11(41), listopad 2001/. Danych jest tak dużo, że górna krawędź histogramu układa
się w wykres funkcji. Obserwujemy tutaj możliwość opisu rozkładu ciągłego za pomocą tzw.
funkcji
gęstości
.
Z punktu widzenia wnioskowania statystycznego funkcja gęstości (krócej: gęstość) jest odpowiedni-
kiem histogramu po stronie populacji.
Gęstością może być dowolna funkcja nieujemna o skończonym polu powierzchni pod wykresem.
Każda taka funkcja definiuje pewien rozkład ciągły
1
. Wówczas liczbę danych (częstość) — skoja-
rzoną z przedziałem — określamy analogicznie jak dla histogramu, na podstawie pola powierzchni
nad przedziałem poniżej funkcji gęstości i powyżej osi poziomej.
W ten sam sposób możemy na podstawie gęstości wyznaczyć wartość dystrybuanty w punkcie
x
obliczając pole powierzchni pod wykresem na lewo od
x.
1
Najczęściej funkcję tę mnożymy przez odpowiednio dobraną stałą tak, aby otrzymać pole pod wykresem równe 1.
ENEGR.13 A.Lenarcik, Z.Piasta
29
Przykład
Przypuśćmy, że czas pracy pewnego typu lamp opisany jest gęstością przedstawioną na rysunku.
Odpowiedzmy na pytania:
(a) jaki odsetek lamp pracuje dłużej niż 30 miesięcy?
(b) jaki odsetek lamp pracuje dłużej niż 15 i krócej niż 25 miesięcy?
Zacznijmy od (a). Zaznaczmy interesujący nas przedział na wykresie. Następnie dzieląc cały ob-
szar pod wykresem na cztery jednakowe trójkąty dostrzegamy, że powyżej 30 miesięcy mamy 1/4
wszystkich lamp, czyli 25%.
Aby odpowiedzieć na pytanie, (b) robimy jeszcze dokładniejszy podział na mniejsze trójkąty. Łatwo
odczytujemy, że intersującemu nas przedziałowi odpowiada 7 trójkatów spośród 16, więc szukana
część (wskaźnik struktury) wynosi 7/16 (43,75%).
Gęstość - wartość średnia i wariancja
Wprowadzamy oznaczenie
m
(lub
µ)
dla średniej populacji oraz
σ
dla odchylenia standardowego
populacji.
ENEGR.13 A.Lenarcik, Z.Piasta
30
Analogicznie, jak dla histogramu średnia
m
jest odciętą środka ciężkości obszaru ograniczonego przez
gęstość, zaś wariancja
σ
2
jest momentem bezwładności względem średniej. Zagadnieniem obliczania
tych parametrów zajmiemy się później. Odnotujmy tutaj tylko, że jeżeli wykres funkcji gęstości ma
oś symetrii, to wartość średnia
m
leży dokładnie w środku. Możemy dzięki temu zaoszczędzić sobie
w pewnych przypadkach złożonych obliczeń. W przykładach poniżej mamy po lewej
m
= 2,5 oraz
po prawej
m
= 3.
6
ppppp
p ppppppp pppppp p p p
pp
ppp
pp
ppp
pp
ppp
pp
p pp
pp
p
ppp
pp p
ppp
ppp
pp
p
2
3
6
1
4
-
1
pppppp p
p pppppp p
ppp p p p p p
p p pppp
pp
pp
pp
ppp
pp
pp p
pp
ppp
p
pp
ppp
pp
ppp
pp
pp
p pppppppppp p p
pp
pp
pp
pp
pp
pp
ppp
pp
pp
p
2
3
4
5
-
Dokładna ocena odchylenia standardowego nie jest już tak łatwa. W obu przypadkach możemy
twierdzić, że ochylenie standardowe jest mniejsze od połowy całkowitego rozstępu, czyli po lewej
σ
1,5 i po prawej
σ
2.
Rozkład jednostajny
Najłatwiejszym rozkładem ciągłym jest rozkład opisany przez stałą funkcję gęstości w przedziale
od
a
do
b.
Mamy tutaj
m
=
a+b
,
2
σ
2
=
1
(b
12
a)
2
.
Rozkład normalny
Najczęściej występującym w przyrodzie jest tzw.
rozkład normalny
odkryty przez niemieckiego
uczonego Karola Gaussa, 1777–1855 (patrz banknot 10 marek).
Funkcja gęstości jest w tym przypadku opisana wzorem
(x−m)2
1
f
(x) =
e
2σ2
,
σ
Zgłoś jeśli naruszono regulamin