Funkcja wiarygodności. Iloraz wiarygodności
Wiąże się to z problemem estymacji parametrów. Załóżmy, że jest i=1,..,p interesujących nas parametrów i tworzą one zbiór: . Zbiór p parametrów określa gęstość prawdopodobieństwa dla zmiennych losowych .
Pojedyncze doświadczenie, pomiar wielkości x, oznacza pobranie próby o liczebności 1. Załóżmy, że jedna z takich prób dała w wyniku . Temu pojedynczemu doświadczeniu przypisujemy liczbę:
,
która ma charakter prawdopodobieństwa a posteriori. Mówi ona po uzyskaniu wyniku, jakie było prawdopodobieństwo uzyskania takiego właśnie wyniku, czyli uzyskania wartości takiej, że , gdzie i=1,..,n.
Wykonajmy N niezależnych doświadczeń. Prawdopodobieństwo uzyskania wyniku (seria N wyników, próba N-wymiarowa) dane jest iloczynem prawdopodobieństw:
Iloczyn nosi nazwę funkcji wiarygodności.
Zauważmy: funkcja wiarygodności zdefiniowana jest przez gęstość prawdopodobieństwa a posteriori , jest funkcją próby , j=1,..,N, a wobec tego jest zmienną losową.
Czasami wiadomo, że rozpatrywana populacja parametrów może być należeć tylko do jednego z dwóch zbiorów: (np. liczby parzyste i nieparzyste, rzut monetą). Definiuje się wówczas iloraz wiarygodności:
, który mówi "zbiór parametrów jest Q razy bardziej prawdopodobny niż zbiór ".
Przykład. Rzucamy niesymetryczną monetą, o której wiemy, że może należeć do klasy A (częściej wypada reszka: PO=1/3, PR=2/3) lub do klasy B (częściej wypada orzeł: PO=2/3, PR=1/3). Praktycznie oznacza to, że nie jesteśmy pewni po której stronie wybiliśmy orła – po tej bardziej czy po tej mniej prawdopodobnej.
Próba składająca się z N=5 rzutów badaną monetą dała 1 raz orła i 4 razy reszkę.
Obliczamy funkcje wiarygodności LA,LB oraz iloraz wiarygodności Q:
Wniosek: Q=8 razy bardziej prawdopodobne jest że moneta należy do klasy A niż do klasy B. Z taką monetą możemy stawiać na orła.
Metoda największej wiarygodności
Największą ufnością obdarzymy ten zbiór parametrów , dla którego funkcja wiarygodności osiąga maksymalną wartość. Aby wyznaczyć położenie maksimum należy 1-szą pochodną funkcji wiarygodności L względem parametru przyrównać do zera. Różniczkowanie iloczynu jest niewygodne, zatem wprowadzamy logarytm:
, l nazywamy logarytmiczną funkcją wiarygodności. Położenia maksimum dla l i L są identyczne. Problem wyznaczenia maksimum L sprowadzony został do rozwiązania równania wiarygodności:
- jest to układ p równań dla każdego z p parametrów .
Przykład.
Wartość pewnego parametru możemy poznać drogą N-krotnego pomiaru. Jeśli pomiary dokonywane są tym samym przyrządem, w tych samych warunkach i błędy mają rozkład normalny, to możemy przyjąć, że najlepszym estymatorem wartości rzeczywistej jest średnia arytmetyczna wyników:
Jeśli jednak pomiary dokonywane są z różną dokładnością (np. różne przyrządy), to nie wszystkie są tak samo wiarygodne. Posłużymy się zatem funkcją wiarygodności i wyznaczymy jej maksimum. Założymy, jak poprzednio, że błędy mają rozkład normalny o średniej i wariancji - różnej dla poszczególnych pomiarów . Pojedynczy pomiar to pobranie próby o liczebności 1 z rozkładu Gaussa o średniej i wariancji . Zatem, dla jednego pomiaru prawdopodobieństwo a posteriori uzyskania tego wyniku jest (zgodnie ze znaną postacią funkcji gęstości prawdopodobieństwa dla rozkładu normalnego):
Dla N pomiarów mamy funkcję wiarygodności:
i jej logarytm:
Równanie wiarygodności przyjmuje postać:
Rozwiązaniem tego równania jest estymator największej wiarygodności , który, na podstawie powyższego równania, wynosi:
Wynik najbardziej wiarygodny jest średnią ważoną z N pomiarów o różnych wariancjach. Wagi są równe odwrotnościom wariancji. Druga pochodna , więc istotnie znaleźliśmy maksimum.
Dla estymator największej wiarygodności staje się równy średniej arytmetycznej wyników:
Nierówność informacyjna. Estymatory o minimalnej wariancji
Dobry estymator to taki dla którego wartość obciążenia wynosi zero dla każdej liczebności próby oraz którego wariancja jest jak najmniejsza:
Często musimy szukać kompromisu pomiędzy wymaganiem dotyczącym braku obciążenia oraz minimalnej wariancji . Wielkości i związane są za pomocą nierówności informacyjnej, zwanej nierównością Cramera-Rao:
Powyższe wyrażenie podaje związek pomiędzy obciążeniem parametru , wariancją oraz informacją zawartą w próbie, wyrażoną przez . Gdy obciążenie znika (lub nie zależy od ), wyrażenie upraszcza się:
Funkcja informacyjna , informacja próby ze względu na parametr - to wartość średnia z kwadratu pochodnej logarytmicznej funkcji wiarygodności.
W przypadku wielowymiarowych ( ) estymatorów nieobciążonych ( ) można dojść do następującej zależności:
gdzie macierz M to macierz informacji, macierz informacyjna Fishera.
Prawo kombinacji błędów (uśrednianie błędów w kwadratach)
Powróćmy do problemu wielokrotnego pomiaru tej samej wielkości z różnymi dokładnościami. Równanie wiarygodności o podanej wcześniej postaci:
Nieobciążony estymator największej wiarygodności:
ma również minimalna wariancję, która wynosi:
Ten ostatni wzór znany jest jako prawo kombinacji błędów lub uśrednianie błędów w kwadratach. Można je także uzyskać przez zastosowanie prawa propagacji błędów w stosunku do estymatora .
Jeśli utożsamimy z błędem oraz utożsamimy z błędem j-tego pomiaru , wówczas prawo kombinacji błędów przyjmuje znana ogólnie postać:
Jeśli wszystkie pomiary mają takie same dokładności , to oraz przyjmą znane postaci:
.
Własności asymptotyczne funkcji wiarygodności
Własności:
-
Estymator wiarygodności jest asymptotycznie nieobciążony, tzn. jest nieobciążony dla .
-
Funkcja wiarygodności jest asymptotycznie normalna, tzn. jest normalna dla .
Przypomnimy: funkcja wiarygodności jest miarą prawdopodobieństwa, że wartość prawdziwa parametru jest równa:

Skoro funkcja wiarygodności dąży asymptotycznie do rozkładu normalnego, powyższy przedział można interpretować następująco:
Prawdopodobieństwo, że wartość prawdziwa zawarta jest w przedziale wynosi 68.3%.
W zastosowaniach praktycznych stosujemy tę interpretacje dla dużych, lecz skończonych, N.
Jednoczesna estymacja kilku parametrów. Przedziały ufności
Rozważmy logarytmiczną funkcję wiarygodności dla p parametrów , które chcemy estymować równocześnie:
i rozwińmy ją w szereg Taylora w otoczeniu rozwiązania największej wiarygodności
co daje:
Zastosujemy uproszczenia i oznaczenia:
-
Zaniedbamy wyrazy wyższych rzędów.
-
Wszystkie pochodne cząstkowe z definicji (estymator największej wiarygodności został wyznaczony jako rozwiązanie równania powstałego z przyrównania pochodnej do zera)
-
W rozwinięciu w szereg wyraz z podwójną sumą przedstawimy w zapisie macierzowym:
-
Gdy elementy macierzy S dla konkretnej próby możemy zastąpić odpowiednimi wartościami oczekiwanymi:
Powyższe spostrzeżenia prowadzą do następującej postaci funkcji wiarygodności:
Wniosek: Funkcja wiarygodności ma postać p-wymiarowego rozkładu normalnego ze średnią i macierzą kowariancji C równą odwrotności B: .
Zatem, wariancje estymatorów największej wiarygodności to elementy z głównej przekątnej a elementy pozadiagonalne to kowariancje poszczególnych par estymatorów:
Podobnie jak w przypadku jednowymiarowym, pierwiastek kwadratowy z wariancji to odchylenie standardowe:
Podobnie jak w przypadku wielowymiarowego rozkładu normalnego (rozdział 3), w przestrzeni parametrów , opisanych przez normalną (gaussowską) funkcję wiarygodności, określa się elipsoidę kowariancji z warunku .
Przykład
Wyznaczmy estymator największej wiarygodności dla wartości średniej i odchylenia standardowego dla rozkładu normalnego.
Rozwiązanie. Funkcja wiarygodności dana jest wzorem:
, gdzie to jeden z wyników pomiaru wielkości, której średnią chcemy znaleźć.
Następnie z układu równań wiarygodności:
otrzymujemy estymator wartości średniej i estymator odchylenia standardowego :
to średnia arytmetyczna poszczególnych pomiarów,
Wyznaczmy jeszcze macierz kowariancji. Trzeba znaleźć 2-gie pochodne:
, ich wartości dla , utworzyć B i odwrócić:
Elementy diagonalne reprezentują błędy:
Wielkości i nie są skorelowane – elementy pozadiagonalne C są zerowe.
2016-05-04
|