Regresja liniowa

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Regresja liniowa – metoda estymowania wartości oczekiwanej zmiennej przy znanych wartościach innej zmiennej lub zmiennych . Szukana zmienna jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Inne zmienne nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.

Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi a niezależnymi, jest funkcja liniowa.

Prosta regresji[edytuj]

Dla jednej zmiennej objaśniającej zagadnienie polega na poprowadzeniu prostej

jak najlepiej dopasowanej do zbioru n punktów doświadczalnych . Celem dopasowania jest przede wszystkim uzyskanie ocen wartości parametrów a i b opisujących prostą, oraz ich niepewności u(a) i u(b).

W ogólnym przypadku zadanie prowadzi do estymacji współczynników modelu statystycznego:

gdzie:

zmienna objaśniana,
zmienne objaśniające,
– współczynniki modelu,
– błąd o wartości oczekiwanej zero.

Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach. Są to np. odporne metody statystyczne (ang. robust methods), do których należy m.in. regresja medianowa.

Kwartet Anscombe'a

Niedostateczność tej metody w ogólnym przypadku pokazuje m.in. kwartet Anscombe'a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) pomimo znacząco różnego charakteru danych.