Twierdzenie Gaussa-Markowa

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Twierdzenie Gaussa-Markowa – twierdzenie statystyki mówiące, że estymator najmniejszych kwadratów jest (o ile jest on stosowalny) najlepszym (tj. mającym najmniejszą wariancję) estymatorem spośród liniowych, nieobciążonych estymatorów liniowego modelu regresji[1].

Twierdzenie[edytuj | edytuj kod]

Niech dany będzie model regresji liniowej, zapisany w notacji macierzowej:

tj.

gdzie są współczynnikami modelu, są zmiennymi objaśniającymi natomiast są zmiennymi losowymi błędu (nazywanymi czasami szumem). W przypadku modelu regresji ze stałą, wprowadza się dodatkowy współczynnik oraz odpowiadającą mu kolumnę jedynek: dla wszelkich .

Założenia twierdzenia Gaussa-Markowa:

  • wartość oczekiwana szumu wynosi 0:
dla wszelkich .
  • szumy są parami nieskorelowane:

Liniowy estymator jest po prostu kombinacją liniową :

,

w której współczynniki nie zależą od , ale mogą zależeć od . Z definicji, estymator jest nieobciążony, gdy

Niech

będzie kombinacją liniową współczynników. Wówczas błąd średniokwadratowy odpowiadający takiemu oszacowaniu wynosi

Z uwagi na to, że rozważane tu estymatory są nieobciążone, błąd średniokwadratowy jest równy wariancji rzeczonej kombinacji liniowej. Najlepszym nieobciążonym estymatorem (ang. BLUE) jest wektor o parametrach którgo błąd średniokwadratowy jest najmniejszy spośród wszystkich wektorów będących kombinacjami liniowymi parametrów. Równoważnie, macierz

jest nieujemnie określona dla każdego liniowego, nieobciążonego estymatora (zob. uwagi o dowodzie). Estymator najmniejszych kwadratów (ang. OLS) to funkcja

zależna od oraz (gdzie oznacza transpozycję macierzy ). Funkcja ta minimalizuje sumę kwadratów błędów przypadkowych, tj.

Twierdzenie Gaussa-Markowa orzeka, że

estymator średniokwadraowy (OLS) jest najlepszym nieobciążonym liniowym estymatorem (BLUE)[2].

Dowód[edytuj | edytuj kod]

Niech będzie dowolnym liniowym etymatorem , gdzie a jest niezerową macierzą. Zakładając nieobciążoność, najlepszy estymator nieobciążony to estymator o minimalnej wariancji. By zakończyć dowód należy wykazać, że wariancja nie jest mniejsza od wariancji , tj. estymatora najmniejszych kwadratów.

Oznacza to, że estymator jest nieobciążony wtedy i tylko wtedy, gdy . W tym wypadku:

Macierz DD' jest nieujemnie określona, dominuje zatem poprzez macierz nieujemnie określoną[3] (zob. uwagi o dowodzie).

Uwaga o dowodzie[edytuj | edytuj kod]

Powyższy dowód opiera się na równoważności warunku

z tym, że najlepszym (tj. mającym minimalną wariancję) estymatorem jest . Zależność taka istotnie zachodzi. Niech będzie dowolnym liniowym, nieobciążonym estymatorem . Wówczas

W tym wypadku, równość zachodzi wtedy i tylko wtedy, gdy . Zachodzi wówczas

Oznacza to, że równość zachodzi wtedy i tylko wtedy, gdy

,

co implikuje jedyność estymatora najmniejszych kwadratów (OLS) jako estymatora BLUE[4].

Przypisy[edytuj | edytuj kod]

Bibliografia[edytuj | edytuj kod]

  • N. H. Bingham, J. M. Fry, Regression: Linear Models in Statistics, Springer Undergraduate Mathematics Series, 2010.
  • A. Sen, M. Srivastava, Regression Analysis Theory, Methods, and Applications, Springer-Verlag, New York, 1990.