6. Metoda największej wiarygodności



Pobieranie 30.14 Kb.
Data04.05.2016
Rozmiar30.14 Kb.

6.Metoda największej wiarygodności

    1. Funkcja wiarygodności. Iloraz wiarygodności


Wiąże się to z problemem estymacji parametrów. Załóżmy, że jest i=1,..,p interesujących nas parametrów i tworzą one zbiór: . Zbiór p parametrów określa gęstość prawdopodobieństwa dla zmiennych losowych .

Pojedyncze doświadczenie, pomiar wielkości x, oznacza pobranie próby o liczebności 1. Załóżmy, że jedna z takich prób dała w wyniku . Temu pojedynczemu doświadczeniu przypisujemy liczbę:



,

która ma charakter prawdopodobieństwa a posteriori. Mówi ona po uzyskaniu wyniku, jakie było prawdopodobieństwo uzyskania takiego właśnie wyniku, czyli uzyskania wartości takiej, że , gdzie i=1,..,n.

Wykonajmy N niezależnych doświadczeń. Prawdopodobieństwo uzyskania wyniku (seria N wyników, próba N-wymiarowa) dane jest iloczynem prawdopodobieństw:

Iloczyn nosi nazwę funkcji wiarygodności.

Zauważmy: funkcja wiarygodności zdefiniowana jest przez gęstość prawdopodobieństwa a posteriori , jest funkcją próby , j=1,..,N, a wobec tego jest zmienną losową.

Czasami wiadomo, że rozpatrywana populacja parametrów może być należeć tylko do jednego z dwóch zbiorów: (np. liczby parzyste i nieparzyste, rzut monetą). Definiuje się wówczas iloraz wiarygodności:



, który mówi "zbiór parametrów jest Q razy bardziej prawdopodobny niż zbiór ".

Przykład. Rzucamy niesymetryczną monetą, o której wiemy, że może należeć do klasy A (częściej wypada reszka: PO=1/3, PR=2/3) lub do klasy B (częściej wypada orzeł: PO=2/3, PR=1/3). Praktycznie oznacza to, że nie jesteśmy pewni po której stronie wybiliśmy orła – po tej bardziej czy po tej mniej prawdopodobnej.

Próba składająca się z N=5 rzutów badaną monetą dała 1 raz orła i 4 razy reszkę.

Obliczamy funkcje wiarygodności LA,LB oraz iloraz wiarygodności Q:

Wniosek: Q=8 razy bardziej prawdopodobne jest że moneta należy do klasy A niż do klasy B. Z taką monetą możemy stawiać na orła.


    1. Metoda największej wiarygodności


Największą ufnością obdarzymy ten zbiór parametrów , dla którego funkcja wiarygodności osiąga maksymalną wartość. Aby wyznaczyć położenie maksimum należy 1-szą pochodną funkcji wiarygodności L względem parametru przyrównać do zera. Różniczkowanie iloczynu jest niewygodne, zatem wprowadzamy logarytm:

, l nazywamy logarytmiczną funkcją wiarygodności. Położenia maksimum dla l i L są identyczne. Problem wyznaczenia maksimum L sprowadzony został do rozwiązania równania wiarygodności:

- jest to układ p równań dla każdego z p parametrów .

Przykład.

Wartość pewnego parametru możemy poznać drogą N-krotnego pomiaru. Jeśli pomiary dokonywane są tym samym przyrządem, w tych samych warunkach i błędy mają rozkład normalny, to możemy przyjąć, że najlepszym estymatorem wartości rzeczywistej jest średnia arytmetyczna wyników:



Jeśli jednak pomiary dokonywane są z różną dokładnością (np. różne przyrządy), to nie wszystkie są tak samo wiarygodne. Posłużymy się zatem funkcją wiarygodności i wyznaczymy jej maksimum. Założymy, jak poprzednio, że błędy mają rozkład normalny o średniej i wariancji - różnej dla poszczególnych pomiarów . Pojedynczy pomiar to pobranie próby o liczebności 1 z rozkładu Gaussa o średniej i wariancji . Zatem, dla jednego pomiaru prawdopodobieństwo a posteriori uzyskania tego wyniku jest (zgodnie ze znaną postacią funkcji gęstości prawdopodobieństwa dla rozkładu normalnego):





Dla N pomiarów mamy funkcję wiarygodności:

i jej logarytm:



Równanie wiarygodności przyjmuje postać:



Rozwiązaniem tego równania jest estymator największej wiarygodności , który, na podstawie powyższego równania, wynosi:





Wynik najbardziej wiarygodny jest średnią ważoną z N pomiarów o różnych wariancjach. Wagi są równe odwrotnościom wariancji. Druga pochodna , więc istotnie znaleźliśmy maksimum.

Dla estymator największej wiarygodności staje się równy średniej arytmetycznej wyników:


    1. Nierówność informacyjna. Estymatory o minimalnej wariancji


Dobry estymator to taki dla którego wartość obciążenia wynosi zero dla każdej liczebności próby oraz którego wariancja jest jak najmniejsza:

Często musimy szukać kompromisu pomiędzy wymaganiem dotyczącym braku obciążenia oraz minimalnej wariancji . Wielkości i związane są za pomocą nierówności informacyjnej, zwanej nierównością Cramera-Rao:



Powyższe wyrażenie podaje związek pomiędzy obciążeniem parametru , wariancją oraz informacją zawartą w próbie, wyrażoną przez . Gdy obciążenie znika (lub nie zależy od ), wyrażenie upraszcza się:



Funkcja informacyjna , informacja próby ze względu na parametr - to wartość średnia z kwadratu pochodnej logarytmicznej funkcji wiarygodności.

W przypadku wielowymiarowych () estymatorów nieobciążonych () można dojść do następującej zależności:

gdzie macierz M to macierz informacji, macierz informacyjna Fishera.



    1. Prawo kombinacji błędów (uśrednianie błędów w kwadratach)


Powróćmy do problemu wielokrotnego pomiaru tej samej wielkości z różnymi dokładnościami. Równanie wiarygodności o podanej wcześniej postaci:

Nieobciążony estymator największej wiarygodności:



ma również minimalna wariancję, która wynosi:

Ten ostatni wzór znany jest jako prawo kombinacji błędów lub uśrednianie błędów w kwadratach. Można je także uzyskać przez zastosowanie prawa propagacji błędów w stosunku do estymatora .

Jeśli utożsamimy z błędem oraz utożsamimy z błędem j-tego pomiaru , wówczas prawo kombinacji błędów przyjmuje znana ogólnie postać:

Jeśli wszystkie pomiary mają takie same dokładności , to oraz przyjmą znane postaci:



.
    1. Własności asymptotyczne funkcji wiarygodności


Własności:

  1. Estymator wiarygodności jest asymptotycznie nieobciążony, tzn. jest nieobciążony dla .

  2. Funkcja wiarygodności jest asymptotycznie normalna, tzn. jest normalna dla .

Przypomnimy: funkcja wiarygodności jest miarą prawdopodobieństwa, że wartość prawdziwa parametru jest równa:

Skoro funkcja wiarygodności dąży asymptotycznie do rozkładu normalnego, powyższy przedział można interpretować następująco:

Prawdopodobieństwo, że wartość prawdziwa zawarta jest w przedziale wynosi 68.3%.

W zastosowaniach praktycznych stosujemy tę interpretacje dla dużych, lecz skończonych, N.


    1. Jednoczesna estymacja kilku parametrów. Przedziały ufności


Rozważmy logarytmiczną funkcję wiarygodności dla p parametrów , które chcemy estymować równocześnie:

i rozwińmy ją w szereg Taylora w otoczeniu rozwiązania największej wiarygodności



co daje:

Zastosujemy uproszczenia i oznaczenia:



  • Zaniedbamy wyrazy wyższych rzędów.

  • Wszystkie pochodne cząstkowe z definicji (estymator największej wiarygodności został wyznaczony jako rozwiązanie równania powstałego z przyrównania pochodnej do zera)

  • W rozwinięciu w szereg wyraz z podwójną sumą przedstawimy w zapisie macierzowym:





  • Gdy elementy macierzy S dla konkretnej próby możemy zastąpić odpowiednimi wartościami oczekiwanymi:


Powyższe spostrzeżenia prowadzą do następującej postaci funkcji wiarygodności:

Wniosek: Funkcja wiarygodności ma postać p-wymiarowego rozkładu normalnego ze średnią i macierzą kowariancji C równą odwrotności B: .

Zatem, wariancje estymatorów największej wiarygodności to elementy z głównej przekątnej a elementy pozadiagonalne to kowariancje poszczególnych par estymatorów:

Podobnie jak w przypadku jednowymiarowym, pierwiastek kwadratowy z wariancji to odchylenie standardowe:



Podobnie jak w przypadku wielowymiarowego rozkładu normalnego (rozdział 3), w przestrzeni parametrów , opisanych przez normalną (gaussowską) funkcję wiarygodności, określa się elipsoidę kowariancji z warunku .



Przykład

Wyznaczmy estymator największej wiarygodności dla wartości średniej i odchylenia standardowego dla rozkładu normalnego.

Rozwiązanie. Funkcja wiarygodności dana jest wzorem:

, gdzie to jeden z wyników pomiaru wielkości, której średnią chcemy znaleźć.

Następnie z układu równań wiarygodności:



otrzymujemy estymator wartości średniej i estymator odchylenia standardowego :

to średnia arytmetyczna poszczególnych pomiarów,

Wyznaczmy jeszcze macierz kowariancji. Trzeba znaleźć 2-gie pochodne:



, ich wartości dla , utworzyć B i odwrócić:

Elementy diagonalne reprezentują błędy:



Wielkości i nie są skorelowane – elementy pozadiagonalne C są zerowe.



2016-05-04


©absta.pl 2016
wyślij wiadomość

    Strona główna