Regresja liniowa

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania
Dwuwymiarowy wykres punktowy, przedstawiający przykładowe obserwacje i dopasowaną linię trendu.
Przykład danych z modelem liniowym dopasowanym metodą najmniejszych kwadratów.

Regresja liniowa – w modelowaniu statystycznym, metody oparte o liniowe kombinacje zmiennych i parametrów dopasowujących model do danych. Dopasowana linia lub krzywa regresji reprezentuje oszacowaną wartość oczekiwaną zmiennej przy konkretnych wartościach innej zmiennej lub zmiennych W najprostszym przypadku dopasowana jest stała lub funkcja liniowa, np.

.

Zmienna jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Zmienne nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.

Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi a niezależnymi jest przekształcenie liniowe (afiniczne) względem parametrów, reprezentowane w przypadku wielowymiarowym przez macierz.

Model regresji liniowej[edytuj | edytuj kod]

Niech dany będzie zbiór danych zaobserwowanych Model regresji liniowej zakłada, że istnieje liniowa (afiniczna) relacja pomiędzy zmienną zależną a wektorem regresorów Zależność ta jest modelowana przez uwzględnienie składnika losowego (błędu) który jest zmienną losową. Dokładniej, model ten jest postaci

gdzie oznacza transpozycję, tj. jest iloczynem skalarnym wektorów oraz

Powyższe równań można zapisać w sposób macierzowy:

gdzie:

Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach. Są to np. odporne metody statystyczne (ang. robust methods), do których należy m.in. regresja medianowa, i algorytmy z regularyzacją.

Kwartet Anscombe’a

Niedostateczność prostych algorytmów w ogólnym przypadku pokazuje m.in. kwartet Anscombe’a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) pomimo znacząco różnego charakteru danych.

Testy oparte o model liniowy[edytuj | edytuj kod]

Wiele klasycznych narzędzi statystycznych opatrzonych własnymi nazwami, takich jak współczynnik korelacji Pearsona, ANOVA czy test Studenta jest szczególnymi przypadkami lub aspektami modelu liniowego. Dotyczy to również licznych testów nieparametrycznych, w których przypadku zamiast surowych wartości zmiennych stosuje się rangi obserwacji[1].

Historycznie, klasyczne narzędzia stanowiły proste, gotowe do użycia modele z dobrze opisanymi właściwościami. W wielu przypadkach wymagają one jedynie obliczenia kilku średnich arytmetycznych, ignorując tym samym większość informacji zawartych w danych. W ortodoksyjnym podejściu częstościowym test realizuje się następnie z reguły przez określenie prawdopodobieństwa danych przy założeniu modelu zerowego: o odpowiedniej dla sytuacji strukturze, ale zakładającego zerowe zależności. Modele zerowe dla klasycznych testów mają dobrze znane rozkłady prawdopodobieństwa, i wykonanie testu polegało na odnalezieniu odpowiedniej wartości w standardowej tabeli w podręczniku[2][3].

Prostota technik pozwoliła na ich łatwe i powszechne stosowanie w epoce niskiej dostępności i mocy komputerów. Zwyczaj ten ukrywa jednak ich strukturalną i poznawczą banalność, i zachęca do zaniedbywania surowych założeń warunkujących ich trafność. Współcześnie statystycy mogą tworzyć i stosować modele oraz testy dużo dokładniej dopasowane do konkretnych zastosowań i ograniczeń[2][3][4][5][6].

Poniższa tabela – oparta o pracę Lindeløva[7] – przedstawia równoważne klasycznym narzędziom modele liniowe, gdzie reprezentuje zmienne typu dummy, przyjmujące wartości 1 lub 0 dla obserwacji należących (lub nie) do konkretnej grupy obserwacji, to funkcja mapująca surowe wartości zmiennych na ich relatywne rangi (w niektórych przypadkach ze znakiem, rozróżniając wartości ujemne i dodatnie), a to wyraz błędu.

Klasyczne testy statystyczne jako szczególne przypadki regresji liniowej
Nazwa zwyczajowa Równoważny model liniowy Opis słowny
test t Studenta dla jednej próby Czy średnia (lub mediana) obserwacji
jest ich dobrym predyktorem?
test Wilcoxona dla jednej próby
test t Studenta dla par obserwacji Czy średnia (lub mediana) różnic obserwacji
jest ich dobrym predyktorem?
test Wilcoxona dla par obserwacji
korelacja r Pearsona Czy model liniowy
jest dobrym predyktorem obserwacji (lub ich rang)?
korelacja Spearmana
test Studenta dla dwóch prób Czy średnie grup
są dobrym predyktorem obserwacji (lub ich rang)?
test Manna-Whitneya-Wilcoxona
jednoczynnikowa ANOVA
test Kruskala-Wallisa
jednoczynnikowa ANCOVA Czy średnie grup oraz ich liniowy model
są dobrym predyktorem obserwacji (lub ich rang)?
dwuczynnikowa ANOVA Czy średnie grup oraz ich iloczynów
są dobrym predyktorem obserwacji?

Przypisy[edytuj | edytuj kod]

  1. W.J. Conover, Ronald L. Iman, Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, „The American Statistician”, 35 (3), 1981, s. 124–129, DOI10.2307/2683975, ISSN 0003-1305, JSTOR2683975 [dostęp 2019-03-29].
  2. a b William W. Rozeboom, The fallacy of the null-hypothesis significance test., „Psychological Bulletin”, 57 (5), 1960, s. 416–428, DOI10.1037/h0042040, ISSN 0033-2909 [dostęp 2019-03-29] (ang.).
  3. a b Gerd Gigerenzer, Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI10.1016/j.socec.2004.09.033 [dostęp 2019-03-29] (ang.).
  4. Andrew Gelman, Analysis of variance – why it is more important than ever, „The Annals of Statistics”, 33 (1), 2005, s. 1–53, DOI10.1214/009053604000001048, ISSN 0090-5364 [dostęp 2019-03-29] (ang.).
  5. 5: Fitting models to data [w:] Russell A. Poldrack, Statistical Thinking for the 21st Century, 2019 [dostęp 2019-03-29].
  6. William W. Rozeboom, Good Science Is Abductive, not Hypothetico-Deductive [w:] Lisa L. Harlow, Stanley A. Mulaik, James H. Steiger (red.), What If There Were No Significance Tests?, 1997.
  7. Jonas Kristoffer Lindeløv, Common statistical tests are linear models (or: how to teach stats), Tabela udostępniona na licencji CC-BY, lindeloev.github.io, 2019 [dostęp 2019-03-29].