1 średnia ucięta, średnia winsorowska



Pobieranie 79 Kb.
Data02.05.2016
Rozmiar79 Kb.
1.Metody nieparametryczne w statystyce:

1.1.średnia ucięta,



1.2.średnia winsorowska,
2.Estymator gęstości:

2.1histogram,

Zbiór przylegających prostokątów, których postawy są równe rozpiętości przedziałów klasowych.- spoczywają na osi odciętych, a wysokości odpowiadają liczbie obserwacji o wartościach należących do danych przedziałów. Możliwa jest także konstrukcja histogramu, by wysokości prostokątów (słupków) odpowiadały częstościom wyznaczonym przez podzielenie liczby obserwacji o wartościach należących do danego przedziału przez liczbę wszystkich obserwacji. W przypadku zbyt dużej liczby przedziałów (tzn. zby małej szerokości przedziałów) histogram staje się nieczytelny. Natomiast w przypadku zbyt małej liczby przedziałów możemy utracić istotne informacje.

Scałkowany błąd średniokwadratowy estymatora gęstości h nazywamy liczbę:



2.2.estymatory jądrowe.

Jądrem nazywamy funkcję K : R -> [0,∞] takie że:

1)

2) K(0) >= K(X) dla każdego R

3) K – symetryczne względem zera.
Estymatorem jądrowym nazywamy funkcję , gdzie h jest stałą zwaną szerokością pasma dla h>0.

3.Postępowanie statystyczne:

- model statystyczny,

- hipotezy H, K,

- Poziom istotności alfa,

- Statystyka testująca,

- Obszar krytyczny K (p-value) - - Decyzja





3.1. p-value – najmniejszy poziom istotności przy którym dla zaobserwowanej wartości statystyki testowej odrzucilibyśmy hipotezę zerową.
4.Testy nieparametryczne:

4.1.Test znaków (sing test)

gdzie 1(q)=1 gdy q – true lub 0 gdy q false



4.2.Test rangowanych znaków (sing-rang test) – gdy nie możemy założyć symetrii

gdzie - ranga, (Xi-Mo| - uporządkowany rosnąco ciąg


5.Analiza wariancji (ANOVA):

1-stała nieznana wartość dla wszystkich poziomów

2-swoisty wpływ itego poziomu

3-składnik losowy (błąd)



5.1.Jednoczynnikowa analiza wariancji (ANOVA z klasyfikacją pojedynczą):a)próbki niezależne, b)próbki pochodzą z populacji o rozkładach normalnych, 5.1.1test Shapiro-Wilka, - uporządkować próby w nierosnący ciąg i wyznaczyć wartość następującej statystyki:

gdzie indeks sumowania k przyjmuje wartość od 1 do n/2 dla n parzystego, lub od 1 do (n-1)/2 dla n nieparzystego, a współczynniki AK podane są w tablicach statystycznych lub w międzynarodowej normie statystyczne ISO. Właściwą statystyką Shapiro-Wilka jest statystyka

wykres na normalność

c) wariancje są jednorodne



6. TABLICA JEDNOCZYNNIKOWEJ ANOVY


Źródło zmienności

Suma kwad odchyleń

Licz stop swo

Średni kwadrat odchyleń

Statystyka testowa

międzygrupowa (czynnik)

SSA

r-1

MSA



wewnątrzgrupowa (błąd)

SSE

n-r

MSE

Ogół

SST

n-1

x

X

6.1.Średnia dla i-tego poziomu (grupy)



6.2.Średnia ogólna (z wszystkich obserwacji)



6.3.SST Całkowita suma kwadratów odchyleń (opisuje zmienność całkowitą)



6.4. SSE zróżnicowanie wewnątrz poziomów suma kwadratów odchyleń wartości cechy od średniej grupowej



6.5.SSA suma kwadratów odchyleń średnich grupowych od średniej ogólnej (zmienność między grupowa).

SST=SSE+SSA



6.6. MSE i MSA



7. Postępowania ANOVA

ZAŁOŻENIA:

a) niespełnione

test Kruskalla-Wallisa

b) spełnione



ANOVA

c) przyj H -> STOP

d) odrzucamy H -> porównania wielokrotne i≠j

Metoda najmniejsze istotnej różnicy (LSD)



, jeśli to odrzucamy H
8. TABLICA DWUCZYNNIKOWEJ ANOVY



Źródło zmienności

Suma kwadratów odchyleń

Liczba stopni swobody

Średni kwadrat odchyleń

Statystyka testowa

Czynnik A

SSA

r-1

MSA=SSA/r-1



Czynnik B

SSB

s-1

MSB=SSB/s-1



Interakcje

SSAB

(r-1)(s-1)

MSAB=SSAB/(r-1)(s-1_



Błąd

SSE

rs(n-1)

MSE=SSE/RS(n-1)

x

Ogółem

SST

rsn-1

x

X


Średnia ogólna;efekt działania czynnika A na poziomie i; czynnik B na poziomie j; efekt interakcji czynników A i B na poziomach odpowiednio i oraz j; błąd losowy


r - liczba populacji; n – ogólna liczba obserwacji

8.1.Średnia ogólna:

8.2.Średnia dla klatki ij:

8.3.Średnia dla i-tego poziomu czynnika A:

8.4.Średnia dla j-tego poziomu czynnika B:

8.5.Zmienność całkowita:
8.6.Błąd losowy:

8.7.Suma kwadratów odchyleń wynikających z działania czynnika A:

8.8.Suma kwadratów odchyleń wynikających z działania czynnika B:

8.9.Suma kwadratów odchyleń wynikających z interakcji między czynnikami A i B:


9. Analiza regresji:
9.1.Model deterministyczny.

Jest to taki model, w którym zmienna y jest w pełni objaśniana przez zmienną x.



9.2.Etapy postępowania:

a)Ustal założenia i postaci modelu (liniowy, wykładniczy)

b)Wyznacz parametry (współczynniki) modelu

c)Zweryfikuj poprawność modelu (jeśli nie to go toa)

d)Zastosowanie modelu

9.3.Model niedeterministyczny

Założenia modelu:

a)zależność między zmienną objaśnianą Y i zmienną objaśniającą jest liniowa.

b)wartość zmiennej objaśniającej jest ustalona, a cała zmienność ujawniająca się w Y pochodzi od składnika liniowego (błędu) epsilon

c)błędy losowe związane z kolejnymi obserwacjami są niezależne i mają ten sam rozkład normalny o zerowej wartości oczekiwanej.

9.4.Twierdzenie Gaussa – Masłowa:

Estymatory a i b otrzymane metodą najmniejszych kwadratów są najlepszymi, liniowymi, nieobciążonymi estymatorami współczynników regresji a i b.



9.5.Weryfikacja poprawności modelu regresji:

a)współczynnik determinacji R^2,

Współczynnikiem determinacji nazywamy liczbę R^2 = SSR/SST (jaki procent zmienności wyjaśnia model regresyjny) – im więcej procent tym lepiej.

0 <= R^2 <= 1

R^2 = 1 – SSE/SST

b)współczynnik korelacji r


-1 i 1 oznacza liniowość
współczynnik korelacji r Pearsona

c)testy istotności współczynników regresji

d)analiza reszt:

- normalność rozkładu reszt (test Shapiro-Wilkam wykres normalności),

- jednorodność wariancji reszt,

- losowość reszt i niezależność (jeśli reszty mają systematyczny układ to jest źle. Powinny być nieregularne.


9.6.Tablica ANOVY dla analizy regresji.


Źr. zmienn

Sum kwad odch

Licz

stop swob



Średnie kwad. Odchyl.

Iloraz F

Regresja

SSR

1

MSR=

SSR/1


F(1,n-2)

=

MSR/MSE



Błąd

SSE

n-2

MSE=

SSE/(n-2)



Sum

SST

n-1

-

-







9.7. Prognoza wartości zmiennej objaśnianej znając zmienną objaśniającą (predykcja)

Można prognozować wartość zmiennej objaśnianej znając zmienną objaśniającą. Predykcja jest możliwa dla x z przedziału ufności.


9.8.Regresja prosta nieliniowa.

F – nieznana funkcja nieliniowa, możemy zastosować szereg Fouriera lub np. metodę Gasswea-Mullera.


9.9.Sprowadzanie modeli nieliniowych do liniowych

a) model multiplikatywny(potęgowy)




b) model wykładniczy

c) model logarytmiczny

d) model odwrotnościowy

e) model podwójnie odwrotnościowy

f) model postaci



9.10. Metody doboru zmiennych

a) wszystkie możliwe regresje

b) dobór „w przód” (forward selection)

c) eliminacja “wstecz” (backend elimination)

d) krokowa
10. Karty kontrolne

10.1. Rodzaje kart:

a) do oceny alternatywnej:

- p (przy rozkładzie dwumianowym) procentu lub frakcji jednostek niezgodnych

- np (liczby jednostek niezgodnych)

- c (przy rozkładzie Poissona) liczby niezgodności na egzemplarz

- u liczby niezgodności w jednostce

b) do oceny liczbowej

- X – R wartości średniej i rozstępu

- X – S wartości średniej i odchyl. stand

- Karta pojemności rozmiarów (MR)



10.2.Linia centralna- linia na karcie kontrolnej reprezentująca wartość średnią rejestrowanej miary statystycznej, obliczoną na podstawie serii obserwacji w długim czasie lub reprezentująca założoną z góry wartość tej miary.

10.3.Granice kontrolne- granice pomiędzy którymi z bardzo dużym prawdopodobieństwem znajduje się wartość rozpatrywanego parametru statystycznego, jeżeli proces jest w stanie statystycznie ureglowanym.

11. Szeregi czasowe

Jest zbiorem obserwacji zmiennej, uporządkowanych według czasu. Cechy szeregu: uporządkowanie obserwacji zgodnie z upływem czasu. Składniki szeregu czasowego: a) trend, b) wahania sezonowe, c) wahania cyklicznie, d)wahania przypadkowe



11.1.Wygładzanie szeregu czasowe:

a) wygładzanie średnią ruchomą,

- dla nieparzystego okresu wygładzania

- dla parzystego okresu wygładzania

b) model multiplikatywny – modelowanie sezonowe

c) model addytywny



d) wygładzanie wykładnicze



11.2.Trend(T)- ogólna tendencja zmian w kształtowaniu się szeregu czasowego

11.3.Wahaniem sezonowym(S) nazywamy cykliczny schemat dotyczący danych ma okres jeden rok.

11.4.Wahanie cyklicznym(C) nazywamy cykliczny schemat dotyczący danych z okresu innego niż 1 rok.

11.5.Wahania okresowe- charakterystyczne zmiany występujące w poszczególnych stałych okresach oraz nakładające się na te zmiany wahania losowe, w których nie można zaobserwować systematycznych i regularnych zmian. Cykle długie okresy czasu (w nich można zaobserwować wahania poziomu szeregu.)

12.Co to jest problem decyzyjny?

Graficzna prezentacja decyzji ({a1, a2,...,an}), stanów natury


({1, 2,...,n}) oraz prawdopodobieństw stanów natury pi=P(j)

13.Wyznaczyć istotne elementy drzewa decyzyjnego.

-węzeł decyzyjny

-węzeł losowy

-węzeł końcowy

-gałęzie

14.Jak definiujemy straty i możliwości?


Decyzje

1

2

..

n

a1

S11

S12

..

S1n

a2

S21

S22

..

S2n

:

..

..

..

..

an

Sn1

Sn2

..

Snn

Sij=(maxkj)- ij j,i=1,2,..,n

Przy danym stanie natury j strata możliwości i związana z decyzją ai określona jest przez różnicę między maksymalną możliwą wypłatą dla tego stanu natury, a wypłatą ij odpowiadającą j-temu stanowi natury i decyzji ai.



15. Z czym związane są prawdop. aposterioli i jak się je określa?

Dane są prawdop. stanów natury pi=P(j) j=1,2,..,n – prawdop. apriori

Prawdop. pj- można oszacować na podstawie próby wstępnej.

Wtedy I1, I2,...,In – będą wynikami próby wstępnej.

Zakładamy że znane są prawdop. P(I|j) i,j=1,2..m Prawd. warunkowe.

16.Określić oczekiwaną wypłatę przy inf. z próby i oczekiwaną wartość inf. z próby. Oczekiwana wartość inf. z próby: EVSI=EvwSI-EvoSI (EVSI – maksymalna kwota, jaką podejmującemu decyzję opłaca się wydać na dodatkowe badania)gdzie:
EVwSI- oczekiwana wypłata przy inf. z próby, tzn. wypłata odpowiadająca optymalnej decyzji wykorzystującej informację z próby, bez uwzględnienia kosztów pozyskania informacji.
EVoSI- oczekiwana wypłata bez informacji z próby, tzn. oczekiwana wypłata odpowiadająca optymalnej decyzji w sytuacji, gdyby nie była dostępna dodatkowa informacja pochodząca z próby.

17.Jakim testem sprawdzamy hipotezę o równości wariancji.

Testem Barcletta. Podstawą testu jest statystyka:

gdzie

gdzie jest wariancją dla i-tej populacji.

Statystyka ma rozkład chi-kwadrat o (r-1) stopniach swobody.

Obszar krytyczny:

Jeżeli to hipotezę zerową H odrzucamy


18.Jakie hipotezy możemy testować w przypadku gdy hipotezę o równości wartości średnich należy odrzucić.

Możemy zastosować porównania wielokrotne, czyli test Tukeya, gdy średnie nie są takie same.

Niech będzie najmniejszą istotną rożnicą.

kwantyl rozkładu t-studenta

Hipoteza

Jeżeli to H odrzucamy

19.Określić klasyczny model regresji liniowej.

a)Niech(X1,Y1) (X2,Y2) ….(Xn,Yn) będzie n-elementową próbą z rozkładu (X,Y). Zakładamy że: gdzie zmienne losowe spełniają własności: (błędny nieskorelowane).

Obliczamy:

b)Klasyczny model regresji linowej z wieloma niezależnymi składnikami. Niech będzie (k+1) wymiarową zmienną losową. Zakładamy, że:

Dla konkretnej obserwacji:

Zakładamy, że błędy losowe spełniają warunki:



Niech:



Model regresji wielowymiarowej można opisać również macierzami:

20. Kruskala-Wallisa – służy do porównywania więcej niż dwóch grup. Jest testem nieparametrycznym. Weryfikuje hipotezę, że kilka niezależnych prób pochodzi z tej samej populacji. Zakłada, że właściwa, ukryta zmienna ma rozkład ciągły.
21. Test Wilcoxona – służy do porównywania dwóch zmiennych powiązanych. Weryfikuje hipotezę, że obie zmienne mają ten sam rozkład. Nie czynniki żadnych założeń co do kształtu rozkładu obu zmiennych. Stosowany zamiast testu T studenta.

1.Metody nieparametryczne:

1.1.średnia ucięta

1.2.średnia winsorowska,

2.Estymator gęstości:

2.1histogram,

2.2.estymatory jądrowe.

3.Postępowanie statystyczne:

3.1. p-value

4.Testy nieparametryczne:

4.1.Test znaków (sing test)

4.2.Test rangowanych znaków

5.Analiza wariancji (ANOVA):

5.1.Jednoczynnikowa analiza

5.1.1test Shapiro-Wilka,

6. TABLICA 1-czyn ANOVY

6.1.Średnia dla i-tego poziomu

6.2.Średnia ogólna

6.3.SST

6.4. SSE

6.5.SSA

6.6. MSE i MSA

7. Postępowania ANOVA

8. TABLICA 2-czyn ANOVY

8.1.Średnia ogólna:

8.2.Średnia dla klatki ij:

8.3.Średnia dla i-tego poziomu A:

8.4.Średnia dla j-tego poziomu B:

8.5.Zmienność całkowita:

8.6.Błąd losowy:

8.7.SSA

8.8.SSB

8.9.SSAB

9. Analiza regresji:
9.1.Model deterministyczny


9.2.Etapy postępowania

9.3.Model niedeterministyczny

9.4.Twierdzenie Gaussa – Masłowa

9.5.Weryfikacja modelu regresji:

9.6.Tablica ANOVY dla regresji.

9.7. Prognoza wartości zmiennej

9.8.Regresja prosta nieliniowa

9.9.Sprowadzanie do liniowych

9.10. Metody doboru zmiennych

10. Karty kontrolne

10.1. Rodzaje kart

10.2.Linia centralna

10.3.Granice kontrolne

11. Szeregi czasowe

11.1.Wygładzanie szeregu czasowe:

11.2.Trend(T)

11.3.Wahaniem sezonowym(S)

11.4.Wahanie cyklicznym©

11.5.Wahania okresowe

12.Co to jest problem decyzyjny

13. Elementy drzewa decyzyjnego.

14.Jak definiujemy straty i możliwości?

15. Prawdop. aposterioli

16. Oczekiwaną wypłatę przy inf

17. Równość wariancji->Barcletta
18.Jakie hipotezy możemy testować w przypadku
19.Określić klasyczny model regresji liniowej
20. Kruskala-Wallisa
21. Test Wilcoxona


©absta.pl 2016
wyślij wiadomość

    Strona główna