Regresja liniowa

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Regresja liniowa – metoda estymowania wartości oczekiwanej zmiennej przy znanych wartościach innej zmiennej lub zmiennych . Szukana zmienna jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Inne zmienne nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.

Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi a niezależnymi, jest funkcja liniowa bądź przekształcenie liniowe (afiniczne) reprezentowane przez macierz w przypadku wielowymiarowym.

Model regresji liniowej[edytuj | edytuj kod]

Niech dany będzie zbiór danych zaobserwowanych . Model regresji liniowej zakłada, że istnieje liniowa (afiniczna) relacja pomiędzy zmienną zależną yi a wektorem regresorów xi. Zależność ta jest modelowana przez uwzględnienie składnika losowego (błędu) εi, który jest zmienną losową. Dokładniej, model ten jest postaci

gdzie T oznacza transpozycję, tj. xiTβ jest iloczynem skalarnym wektorów xi oraz β.

Powyższe n równań można zapisać w sposób macierzowy:

gdzie


Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach. Są to np. odporne metody statystyczne (ang. robust methods), do których należy m.in. regresja medianowa.

Kwartet Anscombe'a

Niedostateczność tej metody w ogólnym przypadku pokazuje m.in. kwartet Anscombe'a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) pomimo znacząco różnego charakteru danych.