Sprawdzanie liniowości związku regresyjnego. Test F. W wykładzie podamy sposób sprawdzenia, czy zachodzi liniowy



Pobieranie 53.72 Kb.
Data02.05.2016
Rozmiar53.72 Kb.



Sprawdzanie liniowości związku regresyjnego. Test F.
W wykładzie podamy sposób sprawdzenia, czy zachodzi liniowy związek regresyjny między zmienną objaśnianą y, a którąkolwiek ze zmiennych objaśniających , tzn. odpowiemy na pytanie, czy hipotetyczne równanie regresji jest postaci

.

Dokładniej mówiąc, przedstawimy test statystyczny, nazywany testem F, rozstrzygający która z hipotez



,

nie wszystkie są równe zeru,

jest prawdziwa.

Jeżeli prawdziwa jest hipoteza zerowa , to liniowy związek w hipotetycznym równaniu regresji nie występuje. Kończy to analizę regresji. Należy wtedy szukać innych modeli regresyjnych. W przypadku odrzucenia hipotezy zerowej , mamy statystyczne podstawy do przyjęcia hipotezy alternatywnej, która oznacza, że występuje związek liniowy pomiędzy y, a co najmniej jedną ze zmiennych ze zmiennych . Do przeprowadzenia testu wykorzystamy tzw. analizę wariancji.
5.1 Analiza wariancji. Tablica ANOVA.

Przypomnijmy, obserwacje zmiennej objaśnianej y zapisujemy w postaci



,

gdzie


  • – wartości zmiennych objaśniających,

  • – oszacowania (estymatory) parametrów regresji ,

  • e – reszta, czyli zaobserwowany błąd losowy.

Jeżeli

,

jest wartością teoretyczną zmiennej objaśnianej y, to



.

Średnią zaobserwowanych wartości zmiennej objaśnianej oznaczamy, jak zwykle, przez



,

gdzie n jest liczbą obserwacji.

Następnie definiujemy następujące wielkości:


  1. Całkowita suma kwadratów

;

  1. Suma kwadratów odchyleń regresyjnych

;

  1. Suma kwadratów błędów (reszt)

.

Zauważmy, że prawdziwa jest równość (należy wykonać odpowiednie obliczenia)

SST = SSR + SSE.

Wielkości te przedstawia się w postaci tablicy ANOVA:


ANALIZA WARIANCJI

Źródło

zmienności



Liczba stopni

swobody


Suma kwadratów odchyleń

Średnie kwadratowe odchylenie

Iloraz F

Regresja

k

SSR

MSR =

F =

Błąd losowy

n – (k+1)

SSE

MSE =




Odchylenie

całkowite



n – 1

SST






Omówimy teraz sposoby wyznaczania tablicy ANOVA.



  1. Zapis macierzowy.

Niech będzie wektorem obserwacji zmiennej objaśnianej, a

wektorem wartości teoretycznych. Wektor reszt jest wtedy postaci



.

Sumę kwadratów reszt wyznaczamy ze wzoru

SSE = .

Całkowitą sumę kwadratów SST obliczamy, ze wzoru



,

natomiast sumę kwadratów odchyleń regresyjnych SSR, wykorzystując równość

SSR = SST – SSE.

Następnie wypełniamy tablicę ANOVA.




  1. Przypadek jednej zmiennej objaśniającej.

Przypomnijmy, że analizę regresji w modelu o jednej zmiennej objaśniającej przeprowadza się w oparciu o wartości pięciu statystyk . Tablicę ANOVA wypełniamy korzystając ze wzorów:

SST = ,

SSR = ,

SSE = SST – SSR = .



Przykład 5.1 (Inflacja 2000) (kontynuacja przykładu 4.1). Poprzednio obliczyliśmy:

, , , . Wyznaczyliśmy także prosta regresji z próby;

.

Zatem


SST = 23,17,

SSR = ,

SSE = SST – SSR = .

Tablica ANOVA jest postaci:

ANALIZA WARIANCJI

Źródło

zmienności



Liczba stopni

swobody


Suma kwadratów odchyleń

Średnie kwadratowe odchylenie

Iloraz F

Regresja

1

22,39

MSR = 22,39

F = 203,55

Błąd losowy

7

0,78

MSE = 0,11




Odchylenie

całkowite



8

23,17










  1. Wydruk komputerowy.

Przykład 5.2 (Reklama) (kontynuacja przykładu 2.2).

Korzystając z Excela: Analiza Danych, Regresja z wydruku odczytujemy tablice ANOVA:




ANALIZA WARIANCJI




df

SS

MS

F

Istotność F

Regresja

2

630,5381

315,2691

86,33504

1,17E-05

Resztkowy

7

25,56185

3,651693







Razem

9

656,1











5.2 Test F o zachodzeniu związku liniowego.

Testujemy hipotezy



,

nie wszystkie są równe zeru.

Test będzie oparty o sprawdzian (statystykę testową)



F = .

Jeżeli hipoteza zerowa jest prawdziwa, zmienna losowa F ma rozkład F Fishera o i stopniach swobody.

Przypomnimy teraz podstawowe informacje o testowaniu hipotez statystycznych. W procesie testowania statystycznego możemy popełnić dwa rodzaje błędów:


  1. Błąd pierwszego rodzaju – odrzucenie hipotezy zerowej w przypadku, gdy jest prawdziwa.

  2. Błąd drugiego rodzaju – przyjęcie hipotezy zerowej w przypadku, gdy jest fałszywa.







Stan rzeczy

prawdziwa

prawdziwa

Decyzja


prawdziwa

Decyzja słuszna

Błąd II rodzaju

prawdziwa

Błąd I rodzaju

Decyzja słuszna


Poziomem istotności testu nazywamy prawdopodobieństwo odrzucenia hipotezy zerowej w przypadku, gdy jest ona prawdziwa. Zwykle przyjmuje się poziom istotności lub .

Uwaga. Zamiast mówić "przyjmujemy hipotezę zerową" powinno się mówić "brak jest podstaw do odrzucenia hipotezy zerowej".

Obszarem odrzucenia (obszar krytyczny) hipotezy statystycznej jest taki zbiór liczb, że w przypadku, gdy sprawdzian przyjmuje wartość z tego zbioru, to hipotezę zerową odrzuca się. Obszar krytyczny jest tak wyznaczany, aby prawdopodobieństwo zaobserwowania wartości sprawdzianu należącej do obszaru krytycznego, przy założeniu prawdziwości hipotezy zerowej , było równe poziomowi istotności testu .

W rozważanym teście obszar krytyczny jest półprostą



,

gdzie


  • k jest liczbą zmiennych objaśniających,

  • n jest liczbą obserwacji.

Zatem, jeżeli wartość sprawdzianu F jest większa niż to odrzucamy hipotezę zerową , w przeciwnym razie nie ma podstaw do jej odrzucenia.

Wielkości odczytuje się z tablic krytycznych wartości w rozkładzie F danym poziomie istotności .


Przykład 5.1 (Inflacja 2000) (kontynuacja). Przyjmijmy, że sprawdzamy hipotezę o zachodzeniu związku liniowego na poziomie istotności . W przykładzie tym , . Z tablic wyznaczamy. Obszar krytyczny jest więc postaci.

Obliczamy wartość sprawdzianu



F = .

Ponieważ , więc odrzucamy hipotezę zerową i przyjmujemy alternatywną . Sprawdziliśmy (na poziomie istotności ), że występuje związek liniowy pomiędzy y, a zmienną . Możemy zatem przystąpić do dalszych etapów analizy regresji.


Przykład 5.2 (Reklama). Przyjmijmy, że sprawdzamy hipotezę o zachodzeniu związku liniowego na poziomie istotności . W przykładzie tym , . Z tablic wyznaczamy. Obszar krytyczny jest więc postaci.

Obliczamy wartość sprawdzianu



F = 86,34.

Ponieważ , więc odrzucamy hipotezę zerową i przyjmujemy alternatywną . Sprawdziliśmy (na poziomie istotności ), że występuje związek liniowy pomiędzy y, a co najmniej jedną ze zmiennych ze zmiennych . Możemy zatem przystąpić do dalszych etapów analizy regresji.

Zauważmy, że z wydruku


ANALIZA WARIANCJI




df

SS

MS

F

Istotność F


Regresja

2

630,5381

315,2691

86,33504

1,17E-05

Resztkowy

7

25,56185

3,651693







Razem

9

656,1









możemy odczytać wartość sprawdzianu



F = 86,33506.

Test można także przeprowadzić w oparciu o tzw. istotność F. Jest to najniższy poziom istotności testu przy którym hipoteza zerowa jest odrzucana. Zatem, jeżeli



Istotność F ,

gdzie jest przyjętym poziomem istotności testu, np. lub , to odrzucamy hipotezę zerową .

Z wydruku odczytujemy

Istotność F .

Jest to liczba znacznie mniejsza od przyjmowanych zwykle poziomów istotności, możemy więc spokojnie odrzucić hipotezę zerową i twierdzić, że występuje związek liniowy pomiędzy y, a co najmniej jedną ze zmiennych ze zmiennych .



Szukasz gotowej pracy ?

To pewna droga do poważnych kłopotów.

Plagiat jest przestępstwem !

Nie ryzykuj ! Nie warto !



Powierz swoje sprawy profesjonalistom.




©absta.pl 2016
wyślij wiadomość

    Strona główna