Regresja liniowa

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Regresja liniowa – w statystyce, metoda estymowania wartości oczekiwanej zmiennej y przy znanych wartościach innej zmiennej lub zmiennych x. Szukana zmienna y jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Inne zmienne x nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.

Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi a niezależnymi, jest funkcja liniowa.

Prosta regresji[edytuj | edytuj kod]

Dla jednej zmiennej objaśniającej zagadnienie polega na poprowadzeniu prostej

y = ax + b\;

jak najlepiej dopasowanej do zbioru n punktów doświadczalnych \{(x_1, y_1),(x_2,y_2), \dots, (x_n,y_n)\}. Celem dopasowania jest przede wszystkim uzyskanie ocen wartości parametrów a i b opisujących prostą, oraz ich niepewności u(a) i u(b).

W ogólnym przypadku zadanie prowadzi do estymacji współczynników modelu statystycznego:

y = a_0+a_1 x_1+a_2 x_2+\dots+ a_k x_k+\varepsilon

gdzie:

Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach. Są to np. odporne metody statystyczne (ang. robust methods), do których należy m.in. regresja medianowa.

Kwartet Anscombe'a

Niedostateczność tej metody w ogólnym przypadku pokazuje m.in. kwartet Anscombe'a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) pomimo znacząco różnego charakteru danych.