Regresja liniowa
Regresja liniowa – w statystyce, metoda estymowania wartości oczekiwanej zmiennej
przy znanych wartościach innej zmiennej lub zmiennych
. Szukana zmienna
jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Inne zmienne
nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.
Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi, a niezależnymi, jest funkcja liniowa.
Prosta regresji [edytuj]
Dla jednej zmiennej objaśniającej zagadnienie polega na poprowadzeniu prostej
jak najlepiej dopasowanej do zbioru n punktów doświadczalnych
. Celem dopasowania jest przede wszystkim uzyskanie ocen wartości parametrów a i b opisujących prostą, oraz ich niepewności u(a) i u(b).
W ogólnym przypadku zadanie prowadzi do estymacji współczynników modelu statystycznego:
gdzie:
to zmienna objaśniana
to zmienne objaśniające
to współczynniki modelu
to błąd o wartości oczekiwanej zero
Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach. Są to np. odporne metody statystyczne (ang. robust methods), do których należy m.in. regresja medianowa.
Niedostateczność tej metody w ogólnym przypadku pokazuje m.in. kwartet Anscombe'a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) pomimo znacząco różnego charakteru danych.


to
to współczynniki modelu
to błąd o