Metoda najmniejszych kwadratów

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Metoda najmniejszych kwadratów – standardowa metoda przybliżania rozwiązań układów nadokreślonych, tzn. zestawu równań, w którym jest ich więcej niż zmiennych. Nazwa „najmniejsze kwadraty” oznacza, że końcowe rozwiązanie tą metodą minimalizuje sumę kwadratów błędów przy rozwiązywaniu każdego z równań.

W statystyce wykorzystuje się ją do estymacji i wyznaczania linii trendu na podstawie zbioru danych w postaci par liczb. Najczęściej jest stosowana przy regresji liniowej, ale może też być stosowana do statystycznego wyznaczania parametrów nieliniowych linii trendu.

Regresja liniowa[edytuj | edytuj kod]

Żądamy minimalizacji funkcji \chi^2, która mierzy odchylenie zadanej zależności funkcyjnej od punktów doświadczalnych. W przypadku funkcji liniowej f(x) = ax + b, funkcja \chi^2 sprowadza się do

\chi^2(a, b) = \sum_{i=1}^n {(y_i - a x_i - b)^2 \over \sigma_i^2},

gdzie \sigma_i to odchylenie standardowe (niepewność pomiaru) danego punktu pomiarowego (w zmiennej y); czasami używa się notacji w_i = 1/\sigma_i^2. Aby znaleźć minima tej funkcji ze względu na parametry a i b, różniczkuje się po a i b i przyrównuje do 0:

{\partial \chi^2 \over \partial b} = 0 = -2 \sum_{i=1}^n {y_i - a x_i - b \over \sigma_i^2},
{\partial \chi^2 \over \partial a} = 0 = -2 \sum_{i=1}^n {x_i(y_i - a x_i - b) \over \sigma_i^2}.

Można te warunki przepisać w wygodniejszej do liczenia postaci, wprowadzając następujące wielkości

S = \sum_{i=1}^n {1 \over \sigma_i^2},
S_x = \sum_{i=1}^n {x_i \over \sigma_i^2},
S_y = \sum_{i=1}^n {y_i \over \sigma_i^2},
S_{xx} = \sum_{i=1}^n {x_i^2 \over \sigma_i^2},
S_{xy} = \sum_{i=1}^n {x_i y_i \over \sigma_i^2}.

Równania powyższe przepisane w nowych zmiennych po uporządkowaniu mają postać

aS_x + bS = S_y ,
aS_{xx} + bS_x = S_{xy} .

Rozwiązaniem tego układu równań liniowych jest

a = \frac {S\cdot S_{xy} - S_x\cdot S_{y}} {\Delta}
b = \frac {S_{xx}\cdot S_y-S_x\cdot S_{xy}} {\Delta}
\Delta = S \cdot S_{xx} - (S_x)^2.

W celu obliczenia niepewności uzyskanych wartości współczynników a i b, korzysta się ze wzoru na błąd pośredni (różniczka zupełna) funkcji zależnej od parametrów f(y_i) (a(y_i), b(y_i)), przyjmując, że niepewność pomiarowa wynika tylko z niepewności zmiennej y.

\sigma_f^2 = \sum_{i=1}^n \sigma_i^2 \left( {\partial f \over \partial y_i} \right)^2.

Po zastosowaniu tego wzoru do współczynników a i b (czyli obliczeniu pochodnych, podniesieniu do kwadratu) uzyskuje się wzór na niepewności

\sigma_a^2 = \sigma_{y1}^2 \frac S \Delta,
\sigma_b^2 = \sigma_{y1}^2 \frac {S_{xx}} \Delta,

Gdzie \sigma_{y1}^2 to odchylenie standardowe zmiennej y (dla jednego pomiaru), które może być oszacowane na podstawie odchyleń punktów od prostej.

 \sigma_{y1}^2 = \frac 1 {n -2} \sum_{i=1}^n {(y_i -b - ax_i)^2}

Przypadek klasyczny[edytuj | edytuj kod]

Gdy odchylenie standardowe (niepewność pomiaru) wszystkich punktów pomiarowych jest jednakowe, regresję nazywa się regresją nieważoną (klasyczną lub pierwszego rodzaju), wówczas odchylenie standardowe może być wyłączone przed znak sumowania i upraszcza się we wzorach na współczynniki a, b i inne parametry regresji.

Przyjmując oznaczenia:

S = \sum_{i=1}^n 1 = n,
S_x = \sum_{i=1}^n x_i,
S_y = \sum_{i=1}^n y_i,
S_{xx} = \sum_{i=1}^n x_i^2,
S_{xy} = \sum_{i=1}^n x_i y_i,
S_{yy} = \sum_{i=1}^n y_i^2,
\Delta = S \cdot S_{xx} - (S_x)^2.

Współczynniki prostej określają wzory:

a = \frac {S \cdot S_{xy} - S_x\cdot S_{y}}{\Delta},
b = \frac {S_{xx} \cdot S_y - S_x\cdot S_{xy}}{\Delta}.

Odchylenie standardowe dane jest za pomocą wzorów:

\sigma_a^2 = \frac S {S -2} \frac {\sigma_y^2} \Delta,
\sigma_b^2 = \sigma_a^2 \frac {S_{xx}} S,

gdzie \sigma_y^2 to suma odchyleń standardowych wszystkich pomiarów określona na podstawie analizy niepewności pomiarowej lub kwadratów odchyleń punktów od prostej regresji,

\sigma_y^2 = \sum_{i=1}^n {(y_i - b - ax_i)^2},

lub w postaci sum,

\sigma_y^2 = S_{yy} - a S_{xy} - bS_y.

Współczynnik korelacji liniowej Pearsona określa wzór:

r = \frac{S S_{xy} - S_xS_y}{\sqrt {(S \cdot S_{xx} - S_x^2)(S\cdot S_{yy} - S_y^2)}}.

Współczynnik, którego wartość mieści się w zakresie od –1 do 1 włącznie, jest bezwymiarowym wskaźnikiem odzwierciedlającym stopień liniowej zależności pomiędzy dwoma zbiorami danych. Wartości –1 i 1 odpowiadają idealnemu ułożeniu punktów na prostej, 0 oznacza brak korelacji między zmiennymi.

Ograniczenia[edytuj | edytuj kod]

Metoda najmniejszych kwadratów zawsze daje wynik o najmniejszej sumie kwadratów błędów. Nie ma jednak gwarancji, że wynik ten ma jakikolwiek praktyczny sens. W szczególności, jeśli w danych występuje dużo elementów odstających, rezultaty mogą nie mieć nic wspólnego z rzeczywistą linią trendu czy zależnością między zjawiskami opisywanymi przez zmienne losowe.

Metoda najmniejszych kwadratów dostosowuje się bowiem do punktów najbardziej oddalonych od średniej, które mogą wprowadzić największy błąd. Jeśli mamy w danych pojedynczą zakłócającą obserwację (outlier) bardzo oddaloną od reszty, przyciągnie ona do siebie linię trendu. Takie zjawisko jest niestety częste w realnych danych, nie należy więc stosować metody najmniejszych kwadratów bez sprawdzenia (choćby na wykresie rozrzutu) braku elementów odstających i ich usunięcia.

Historia i zastosowania[edytuj | edytuj kod]

Metoda najmniejszych kwadratów została wprowadzona przez Legendre’a w 1805.

Gauss, który twierdził, że używał jej od 1794 r., wsparł ją w 1809 założeniem o rozkładzie błędów normalnym (zwanym też rozkładem Gaussa-Laplace’a). Od Gaussa pochodzi nazwa: Methode der kleinsten Fehlerquadrate (po polsku: metoda najmniejszych kwadratów błędów).

Początkowo była stosowana do obliczeń geodezyjnych, określających wielkość najbardziej prawdopodobną z wielu nie całkiem zgodnych pomiarów. Stała się podstawą teorii błędów pomiarów, używanej początkowo w astronomii i geodezji, obecnie we wszystkich pomiarach fizycznych. Legła też u podstaw statystyki.

Szerokie jej stosowanie wpłynęło na uproszczenie nazwy, która jest nieco myląca, ale międzynarodowa (pl: Metoda najmniejszych kwadratów, de:Methode der kleinsten Quadrate, en: Method of least squares, ru: Mietod najmieńszych kwadratow).

Opiera się na postulacie Legendre’a. W postaci najprostszej postulat ten brzmi tak: wartością najbardziej prawdopodobną, otrzymaną z szeregu wyników tak samo dokładnych pomiarów, jest taka, od której obliczone odchylenia tych wyników, po podniesieniu do drugiej potęgi i zsumowaniu dają wielkość najmniejszą z możliwych. Czyli przyjęcie do obliczenia odchyleń wielkości dowolnej innej, niż najbardziej prawdopodobna, da sumę ich drugich potęg (kwadratów) większą.

Z postulatu Legendre’a wynika, że najbardziej prawdopodobną wielkością z szeregu jednakowo dokładnych pomiarów jednej wielkości jest ich średnia zwykła. W przypadku pomiarów niejednakowo dokładnych postulat ten brzmi podobnie, stosuje się jednak do odchyleń równoważonych „wagami”, tj wartość ma tym większą wagę im bardziej dokładny jest pomiar. W tym przypadku najbardziej prawdopodobną okazuje się wielkość zwana średnią ważoną. Gdy w zadaniu jest wiele niewiadomych, a nie są dostępne bezpośredniemu pomiarowi, muszą być obliczane jako funkcje wielu innych mierzonych wielkości. Wówczas do obliczeń stosuje się jeszcze bardziej rozwinięty aparat tej metody. Wsparta założeniem o rozkładzie błędów normalnym i nazywana w Polsce rachunkiem wyrównawczym, daje ona też liczbowo określone miary błędności wyników, jako ich tzw. błędy średnie (które są przybliżeniami teoretycznych wielkości statystycznych – odchyleń standardowych).

Leżący u podstaw tej metody postulat Legendre’a nie wynika z żadnej ścisłej matematycznej teorii. Jakkolwiek poczyniono wiele prób, by udowodnić jego słuszność i uzasadnić stosowanie, wszystko spełzło na niczym. Pozostaje nadal tym, czym był od początku – założeniem matematyka o genialnej intuicji.

Geodeta i astronom, Tadeusz Banachiewicz, napisał, że stosuje się metodę minimum sumy kwadratów: nie dlatego, abyśmy uważali ją za matematycznie pewną, ale dlatego, że nikt dotychczas nie wskazał lepszej metody. Tak naprawdę lepsze metody istnieją (np. regresja medianowa, albo metody oparte na głębokości regresji (regression depth)), ale nie są tak proste obliczeniowo, więc się nie przyjęły.

Zobacz też[edytuj | edytuj kod]

Linki zewnętrzne[edytuj | edytuj kod]