Współczynnik korelacji Pearsona

Z Wikipedii, wolnej encyklopedii
(Przekierowano z Korelacja Pearsona)
Skocz do: nawigacji, wyszukiwania
Przykładowe wykresy danych (x, y) i odpowiadające im wartości współczynnika korelacji liniowej Pearsona

Współczynnik korelacji liniowej Pearsonawspółczynnik określający poziom zależności liniowej między zmiennymi losowymi. Został opracowany przez Karla Pearsona.

Wzory matematyczne[edytuj | edytuj kod]

Niech x i y będą zmiennymi losowymi o ciągłych rozkładach. x_i, y_i oznaczają wartości prób losowych tych zmiennych (i=1, 2, ..., n), natomiast \overline{x}, \overline{y} - wartości średnie z tych prób, tj. \overline{x} = \frac{1}{n}\sum_{i=1}^n x_i, \overline{y} = \frac{1}{n}\sum_{i=1}^n y_i.

Wówczas estymator współczynnika korelacji liniowej definiuje się następująco:

r_{xy} = \frac{\sum_{i=1}^n (x_i - \overline{x})(y_i - \overline{y})}{\sqrt{\sum_{i=1}^n (x_i - \overline{x})^2} \sqrt{\sum_{i=1}^n (y_i - \overline{y})^2}},

r_{xy} \in [-1, 1].

Ogólnie współczynnik korelacji liniowej dwóch zmiennych jest ilorazem kowariancji i iloczynu odchyleń standardowych tych zmiennych:

r_{XY} = \frac{\mathrm{cov}(X, Y)}{\sigma_X\sigma_Y}

W szczególności dla zmiennych losowych o dyskretnych rozkładach ma on postać

r_{XY} = \frac{\mathrm{cov}(X, Y)}{\sigma_X\sigma_Y} = \frac{\left(\sum_{i=1}^n\sum_{j=1}^mP(X=x_i,Y=y_j)x_iy_j\right)  - \overline{X}\;\overline{Y} }{\sqrt{\left(\sum_{i=1}^nP(X=x_i)x_i^2\right)-\overline{X}^2 }\sqrt{\left(\sum_{i=1}^mP(Y=y_i)y_i^2\right) -\overline{Y}^2} }

Wartość współczynnika korelacji mieści się w przedziale domkniętym [-1, 1]. Im większa jego wartość bezwzględna, tym silniejsza jest zależność liniowa między zmiennymi. r_{xy} = 0 oznacza brak liniowej zależności między cechami, r_{xy} = 1 oznacza dokładną dodatnią liniową zależność między cechami, natomiast r_{xy} =-1 oznacza dokładną ujemną liniową zależność między cechami, tzn. jeżeli zmienna x rośnie, to y maleje i na odwrót.

Współczynnik korelacji liniowej można traktować jako znormalizowaną kowariancję. Korelacja przyjmuje zawsze wartości w zakresie [-1, 1], co pozwala uniezależnić analizę od dziedziny badanych zmiennych.

Poziomy korelacji i ich interpretacja[edytuj | edytuj kod]

Korelacje Ujemne Dodatnie
Słabe −0,5 do 0,0 0,0 do 0,5
Silne −1,0 do −0,5 0,5 do 1,0

Korelacje można interpretować jako silne, słabe, ujemne[1][2]. Interpretacja taka jest jednak arbitralna i nie możemy jej traktować zbyt ściśle. Na przykład współczynnik równy 0,9 dla socjologów i ekonomistów oznacza silną korelację, a dla fizyków posługujących się wysokiej klasy pomiarami przy badaniu praw przyrody oznacza korelację słabą[2]. Z drugiej strony poziom korelacji ma wpływ na czas życia korelacji[1].

Ograniczenia stosowalności[edytuj | edytuj kod]

  • podatny na obserwacje skrajne.
  • interpretacja jest oczywista tylko dla wielowymiarowego rozkładu normalnego (jest wtedy estymatorem elementu macierzy współczynników tego rozkładu).

Zobacz też[edytuj | edytuj kod]

Przypisy

  1. 1,0 1,1 A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1, Wydawnictwo Niezalezne: 5–21, December 2010, ISBN 978-83-915272-9-0
  2. 2,0 2,1 Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)