Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów – standardowa metoda przybliżania rozwiązań układów nadokreślonych, tzn. zestawu równań, w którym jest ich więcej niż zmiennych. Nazwa „najmniejsze kwadraty” oznacza, że końcowe rozwiązanie tą metodą minimalizuje sumę kwadratów błędów przy rozwiązywaniu każdego z równań.

W statystyce wykorzystuje się ją do estymacji i wyznaczania linii trendu na podstawie zbioru danych w postaci par liczb. Najczęściej jest stosowana przy regresji liniowej, ale może też być stosowana do statystycznego wyznaczania parametrów nieliniowych linii trendu.

Regresja liniowa[edytuj | edytuj kod]

Żądamy minimalizacji funkcji $\chi ^{2},$ która mierzy odchylenie zadanej zależności funkcyjnej od punktów doświadczalnych. W przypadku funkcji liniowej $f(x)=ax+b,$ funkcja $\chi ^{2}$ sprowadza się do

\chi ^{2}(a,b)=\sum _{i=1}^{n}{\frac {(y_{i}-ax_{i}-b)^{2}}{\sigma _{i}^{2}}},

gdzie $\sigma _{i}$ to odchylenie standardowe (niepewność pomiaru) danego punktu pomiarowego (w zmiennej y); czasami używa się notacji $w_{i}=1/\sigma _{i}^{2}.$ Aby znaleźć minima tej funkcji ze względu na parametry a i b, różniczkuje się po a i b, następnie przyrównuje do 0:

{\frac {\partial \chi ^{2}}{\partial b}}=0=-2\sum _{i=1}^{n}{\frac {y_{i}-ax_{i}-b}{\sigma _{i}^{2}}},

{\frac {\partial \chi ^{2}}{\partial a}}=0=-2\sum _{i=1}^{n}{\frac {x_{i}(y_{i}-ax_{i}-b)}{\sigma _{i}^{2}}}.

Można te warunki przepisać w wygodniejszej do liczenia postaci, wprowadzając następujące wielkości

S=\sum _{i=1}^{n}{\frac {1}{\sigma _{i}^{2}}},

S_{x}=\sum _{i=1}^{n}{\frac {x_{i}}{\sigma _{i}^{2}}},

S_{y}=\sum _{i=1}^{n}{\frac {y_{i}}{\sigma _{i}^{2}}},

S_{xx}=\sum _{i=1}^{n}{\frac {x_{i}^{2}}{\sigma _{i}^{2}}},

S_{xy}=\sum _{i=1}^{n}{\frac {x_{i}y_{i}}{\sigma _{i}^{2}}}.

Równania powyższe przepisane w nowych zmiennych po uporządkowaniu mają postać

aS_{x}+bS=S_{y},

aS_{xx}+bS_{x}=S_{xy}.

Rozwiązaniem tego układu równań liniowych jest

a={\frac {S\cdot S_{xy}-S_{x}\cdot S_{y}}{\Delta }}

b={\frac {S_{xx}\cdot S_{y}-S_{x}\cdot S_{xy}}{\Delta }}

\Delta =S\cdot S_{xx}-(S_{x})^{2}.

W celu obliczenia niepewności uzyskanych wartości współczynników, a i b, korzysta się ze wzoru na błąd pośredni (różniczka zupełna) funkcji zależnej od parametrów $f(y_{i})$ $(a(y_{i}),b(y_{i})),$ przyjmując, że niepewność pomiarowa wynika tylko z niepewności zmiennej y.

\sigma _{f}^{2}=\sum _{i=1}^{n}\sigma _{i}^{2}\left({\frac {\partial f}{\partial y_{i}}}\right)^{2}.

Po zastosowaniu tego wzoru do współczynników, a i b (czyli obliczeniu pochodnych, podniesieniu do kwadratu) uzyskuje się wzór na niepewności

\sigma _{a}^{2}={\frac {S}{\Delta }},

\sigma _{b}^{2}={\frac {S_{xx}}{\Delta }}.

Powyższe wzory są poprawne, jeśli w definicji $\chi ^{2}$ (oraz w obliczaniu $S,S_{x},\dots$ itd.) punkty pomiarowe były ważone niepewnościami $\sigma _{i}.$ Jeśli niepewności są nieznane, należy skorzystać ze wzorów na tzw. przypadek klasyczny.

Przypadek klasyczny[edytuj | edytuj kod]

Gdy odchylenie standardowe (niepewność pomiaru) wszystkich punktów pomiarowych jest jednakowe, regresję nazywa się regresją nieważoną (klasyczną lub pierwszego rodzaju), wówczas odchylenie standardowe może być wyłączone przed znak sumowania i upraszcza się we wzorach na współczynniki a, b i inne parametry regresji.

Przyjmując oznaczenia:

S=\sum _{i=1}^{n}1=n,

S_{x}=\sum _{i=1}^{n}x_{i},

S_{y}=\sum _{i=1}^{n}y_{i},

S_{xx}=\sum _{i=1}^{n}x_{i}^{2},

S_{xy}=\sum _{i=1}^{n}x_{i}y_{i},

S_{yy}=\sum _{i=1}^{n}y_{i}^{2},

\Delta =S\cdot S_{xx}-(S_{x})^{2}.

Współczynniki prostej określają wzory:

a={\frac {S\cdot S_{xy}-S_{x}\cdot S_{y}}{\Delta }},

b={\frac {S_{xx}\cdot S_{y}-S_{x}\cdot S_{xy}}{\Delta }}.

Odchylenie standardowe dane jest za pomocą wzorów:

\sigma _{a}^{2}={\frac {\sigma _{y}^{2}}{S-2}}{\frac {S}{\Delta }},

\sigma _{b}^{2}=\sigma _{a}^{2}{\frac {S_{xx}}{S}}={\frac {\sigma _{y}^{2}}{S-2}}{\frac {S_{xx}}{\Delta }},

gdzie $\sigma _{y}^{2}$ to suma odchyleń standardowych wszystkich pomiarów określona na podstawie analizy niepewności pomiarowej lub kwadratów odchyleń punktów od prostej regresji,

\sigma _{y}^{2}=\sum _{i=1}^{n}{(y_{i}-b-ax_{i})^{2}},

lub w postaci sum,

\sigma _{y}^{2}=S_{yy}-aS_{xy}-bS_{y}.

Współczynnik korelacji liniowej Pearsona określa wzór:

r={\frac {SS_{xy}-S_{x}S_{y}}{\sqrt {(S\cdot S_{xx}-S_{x}^{2})(S\cdot S_{yy}-S_{y}^{2})}}}.

Współczynnik, którego wartość mieści się w zakresie od –1 do 1 włącznie, jest bezwymiarowym wskaźnikiem odzwierciedlającym stopień liniowej zależności pomiędzy dwoma zbiorami danych. Wartości –1 i 1 odpowiadają idealnemu ułożeniu punktów na prostej, 0 oznacza brak korelacji między zmiennymi.

Ograniczenia[edytuj | edytuj kod]

Metoda najmniejszych kwadratów jest mało odporna na elementy odstające, czyli nieliczne obserwacje różniące się znacząco od pozostałych. Takie obserwacje przyciągają do siebie linię trendu, co może być niepożądane w niektórych zastosowaniach. Niemniej jednak o ile odstające informacje nie są wynikiem błędnego pomiaru, nie powinny one być usuwane z modelu, ponieważ prowadziłoby to do błędnej estymacji parametrów modelu oraz do niedoszacowania zmienności zmiennej zależnej niewyjaśnionej przez model, a zatem wnioskowanie statystyczne na podstawie takiego modelu byłoby nieprawidłowe. Jeśli wpływ obserwacji odstających jest niepożądany, należy rozważyć zastosowanie innych metod regresji (np. regresji odpornej).

Historia i zastosowania[edytuj | edytuj kod]

Metoda najmniejszych kwadratów została wprowadzona przez Legendre’a w 1805^[1].

Gauss, który twierdził, że używał jej od 1794 r., wsparł ją w 1809 założeniem o rozkładzie błędów normalnym (zwanym też rozkładem Gaussa-Laplace’a). Od Gaussa pochodzi nazwa: Methode der kleinsten Fehlerquadrate (po polsku: metoda najmniejszych kwadratów błędów).

Początkowo była stosowana do obliczeń geodezyjnych, określających wielkość najbardziej prawdopodobną z wielu nie całkiem zgodnych pomiarów. Stała się podstawą teorii błędów pomiarów, używanej początkowo w astronomii i geodezji, obecnie we wszystkich pomiarach fizycznych. Legła też u podstaw statystyki.

Szerokie jej stosowanie wpłynęło na uproszczenie nazwy, która jest nieco myląca, ale międzynarodowa (pl: Metoda najmniejszych kwadratów, de:Methode der kleinsten Quadrate, en: Method of least squares, ru: Mietod najmieńszych kwadratow).

Opiera się na postulacie Legendre’a. W postaci najprostszej postulat ten brzmi tak: wartością najbardziej prawdopodobną, otrzymaną z szeregu wyników tak samo dokładnych pomiarów, jest taka, od której obliczone odchylenia tych wyników, po podniesieniu do drugiej potęgi i zsumowaniu dają wielkość najmniejszą z możliwych. Czyli przyjęcie do obliczenia odchyleń wielkości dowolnej innej, niż najbardziej prawdopodobna, da sumę ich drugich potęg (kwadratów) większą.

Z postulatu Legendre’a wynika, że najbardziej prawdopodobną wielkością z szeregu jednakowo dokładnych pomiarów jednej wielkości jest ich średnia zwykła. W przypadku pomiarów niejednakowo dokładnych postulat ten brzmi podobnie, stosuje się jednak do odchyleń równoważonych „wagami”, tj. wartość ma tym większą wagę im bardziej dokładny jest pomiar. W tym przypadku najbardziej prawdopodobną okazuje się wielkość zwana średnią ważoną. Gdy w zadaniu jest wiele niewiadomych, a nie są dostępne bezpośredniemu pomiarowi, muszą być obliczane jako funkcje wielu innych mierzonych wielkości. Wówczas do obliczeń stosuje się jeszcze bardziej rozwinięty aparat tej metody. Wsparta założeniem o rozkładzie błędów normalnym i nazywana w Polsce rachunkiem wyrównawczym, daje ona też liczbowo określone miary błędności wyników, jako ich tzw. błędy średnie (które są przybliżeniami teoretycznych wielkości statystycznych – odchyleń standardowych).

Leżący u podstaw tej metody postulat Legendre’a nie wynika z żadnej ścisłej matematycznej teorii. Jakkolwiek poczyniono wiele prób, by udowodnić jego słuszność i uzasadnić stosowanie, wszystko spełzło na niczym. Pozostaje nadal tym, czym był od początku – założeniem matematyka o genialnej intuicji.

Geodeta i astronom, Tadeusz Banachiewicz, napisał, że stosuje się metodę minimum sumy kwadratów: nie dlatego, abyśmy uważali ją za matematycznie pewną, ale dlatego, że nikt dotychczas nie wskazał lepszej metody. Inne metody istnieją (np. regresja medianowa, albo metody oparte na głębokości regresji (regression depth)), ale ponieważ wymagają złożonych obliczeń, dlatego nie stały się popularne.