Współczynnik determinacji: Różnice pomiędzy wersjami

[wersja przejrzana]

Usunięta treść Dodana treść

Jednokolumnowy

Wersja z 23:58, 28 mar 2019

Współczynnik determinacji R² – jedna z historycznych miar jakości dopasowania modelu do danych uczących. Jego dopełnieniem jest współczynnik zbieżności, $\varphi ^{2}=1-R^{2}$ . Występuje obecnie w wielu wariantach stosujących różnorodne poprawki. Jego pierwotne opracowanie przypisuje się m.in. publikacji Sewalla Wrighta z 1921, która opiera się z kolei m.in. na artykule K. Pearsona z 1897^[1].

Współczynnik determinacji nie jest uznawany współcześnie za dobrą miarę dopasowania, i wykorzystuje się go głównie w celach pomocniczych. Lepszymi narzędziami do tego celu są np. kryteria informacyjne AIC, BIC, czy sprawdzian krzyżowy. Już Wright nie przedstawiał R² jako wyczerpującej miary dopasowania modelu do badanego zjawiska, szczególnie nie w sensie wyjaśnienia przyczynowego. Współczynnik determinacji opisuje jedynie oszacowaną na podstawie próby macierz wielokrotnej korelacji obecnych w modelu zmiennych, przy założeniu prawdziwości modelu. Ignoruje dopasowanie modelu do danych spoza próby, oraz problem zmiennych ubocznych. Maksymalizacja tej miary prowadzi do nadmiernego dopasowania modelu do danych uczących^[2]^[3]^[4]^[5]. Schmueli uznaje w tym kontekście tradycję opisywania korelacji zmiennych jako ich wzajemnego „wyjaśniania” – co może sugerować wyjaśnienie przyczynowe – za szczególnie zwodniczą^[6].

Współczynnik determinacji

Informuje o tym, jaka część zmienności (wariancji) zmiennej objaśnianej w próbie pokrywa się z korelacjami ze zmiennymi zawartymi w modelu. Jest on więc miarą stopnia, w jakim model pasuje do próby. Współczynnik determinacji przyjmuje wartości z przedziału [0;1] jeśli w modelu występuje wyraz wolny, a do estymacji parametrów wykorzystano metodę najmniejszych kwadratów. Jego wartości najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość R² jest bliższa jedności. Wyraża się on wzorem:

R^{2}={\frac {\sum \limits _{t=1}^{n}({\hat {y}}_{t}-{\overline {y}})^{2}}{\sum \limits _{t=1}^{n}(y_{t}-{\overline {y}})^{2}}},

gdzie:

y_{t}

– rzeczywista wartość zmiennej Y w momencie t,

{\hat {y}}_{t}

– wartość teoretyczna zmiennej objaśnianej (na podstawie modelu),

{\overline {y}}

– średnia arytmetyczna empirycznych wartości zmiennej objaśnianej.

Współczynnik zbieżności

Współczynnik zbieżności $\varphi ^{2}$ określa, jaka część zaobserwowanej w próbie zmienności zmiennej objaśnianej nie pasuje do modelu (mieści się w jego błędzie). Współczynnik zbieżności przyjmuje wartości z przedziału [0;1]; wartości te najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość $\varphi ^{2}$ jest bliższa zeru. Wyraża się on wzorem:

\varphi ^{2}=1-R^{2},

lub też

\varphi ^{2}={\frac {\sum \limits _{t=1}^{n}(y_{t}-{\hat {y}}_{t})^{2}}{\sum \limits _{t=1}^{n}(y_{t}-{\overline {y}})^{2}}}

gdzie ${\hat {y}}_{t},$ $y_{t}$ oraz ${\overline {y}}$ są określone jak w części poprzedniej.

↑ SewallS. Wright SewallS., Correlation and causation, „Journal of agricultural research”, 20 (7), 1921, s. 557–585 .
↑ Norman H.N.H. Anderson Norman H.N.H., JamesJ. Shanteau JamesJ., Weak inference with linear models., „Psychological Bulletin”, 84 (6), 1977, s. 1155–1170, DOI: 10.1037/0033-2909.84.6.1155, ISSN 0033-2909 [dostęp 2019-03-28] (ang.).
↑ Michael H.M.H. Birnbaum Michael H.M.H., The devil rides again: Correlation as an index of fit., „Psychological Bulletin”, 79 (4), 1973, s. 239–242, DOI: 10.1037/h0033853, ISSN 1939-1455 [dostęp 2019-03-28] (ang.).
↑ JamesJ. Shanteau JamesJ., Correlation as a deceiving measure of fit, „Bulletin of the Psychonomic Society”, 10 (2), 1977, s. 134–136, DOI: 10.3758/BF03329303, ISSN 0090-5054 [dostęp 2019-03-28] (ang.).
↑ Andrej-NikolaiA.N. Spiess Andrej-NikolaiA.N., NatalieN. Neumeyer NatalieN., An evaluation of R2 as an inadequate measure for nonlinear models in pharmacological and biochemical research: a Monte Carlo approach, „BMC Pharmacology”, 10 (1), 2010, DOI: 10.1186/1471-2210-10-6, ISSN 1471-2210, PMID: 20529254, PMCID: PMC2892436 [dostęp 2019-03-28] (ang.).
↑ GalitG. Shmueli GalitG., To Explain or to Predict?, „Statistical Science”, 25 (3), 2010, s. 289–310, DOI: 10.1214/10-STS330, ISSN 0883-4237 [dostęp 2019-03-28] (ang.).

[1] SewallS. Wright SewallS., Correlation and causation, „Journal of agricultural research”, 20 (7), 1921, s. 557–585 .

[2] Norman H.N.H. Anderson Norman H.N.H., JamesJ. Shanteau JamesJ., Weak inference with linear models., „Psychological Bulletin”, 84 (6), 1977, s. 1155–1170, DOI: 10.1037/0033-2909.84.6.1155, ISSN 0033-2909 [dostęp 2019-03-28] (ang.).

[3] Michael H.M.H. Birnbaum Michael H.M.H., The devil rides again: Correlation as an index of fit., „Psychological Bulletin”, 79 (4), 1973, s. 239–242, DOI: 10.1037/h0033853, ISSN 1939-1455 [dostęp 2019-03-28] (ang.).

[4] JamesJ. Shanteau JamesJ., Correlation as a deceiving measure of fit, „Bulletin of the Psychonomic Society”, 10 (2), 1977, s. 134–136, DOI: 10.3758/BF03329303, ISSN 0090-5054 [dostęp 2019-03-28] (ang.).

[5] Andrej-NikolaiA.N. Spiess Andrej-NikolaiA.N., NatalieN. Neumeyer NatalieN., An evaluation of R2 as an inadequate measure for nonlinear models in pharmacological and biochemical research: a Monte Carlo approach, „BMC Pharmacology”, 10 (1), 2010, DOI: 10.1186/1471-2210-10-6, ISSN 1471-2210, PMID: 20529254, PMCID: PMC2892436 [dostęp 2019-03-28] (ang.).

[6] GalitG. Shmueli GalitG., To Explain or to Predict?, „Statistical Science”, 25 (3), 2010, s. 289–310, DOI: 10.1214/10-STS330, ISSN 0883-4237 [dostęp 2019-03-28] (ang.).

[1]

[2]

[3]

[4]

[5]

[6]

@@ Linia 1: / Linia 1: @@
-'''Współczynnik determinacji R²''' – jedna z podstawowych [[Miara (matematyka)|miar]] [[Jakość|jakości]] dopasowania [[Model statystyczny|modelu]]. Powiązany z tym współczynnikiem jest '''współczynnik zbieżności'''.
+'''Współczynnik determinacji R²''' – jedna z historycznych [[Miara (matematyka)|miar]] [[Jakość|jakości]] dopasowania [[Model statystyczny|modelu]] do danych uczących. Jego dopełnieniem jest '''współczynnik zbieżności''', '''<math>\varphi^2 = 1- R^2</math>'''. Występuje obecnie w wielu wariantach stosujących różnorodne poprawki. Jego pierwotne opracowanie przypisuje się m.in. publikacji [[Sewall Wright|Sewalla Wrighta]] z 1921, która opiera się z kolei m.in. na artykule [[Karl Pearson|K. Pearsona]] z 1897<ref>{{Cytuj |autor = Sewall Wright |tytuł = Correlation and causation |czasopismo = Journal of agricultural research |data = 1921 |wolumin = 20 |numer = 7 |s = s. 557–585 |url = https://www.ssc.wisc.edu/soc/class/soc952/Wright/Wright_Correlation%20and%20Causation.pdf}}</ref>.
-:: 0,0 – 0,5 – dopasowanie niezadowalające
+Współczynnik determinacji nie jest uznawany współcześnie za dobrą miarę dopasowania, i wykorzystuje się go głównie w celach pomocniczych. Lepszymi narzędziami do tego celu są np. kryteria informacyjne [[Kryterium informacyjne Akaikego|AIC]], [[Bayesowskie kryterium informacyjne Schwarza|BIC]], czy [[sprawdzian krzyżowy]]. Już Wright nie przedstawiał R² jako wyczerpującej miary dopasowania modelu do badanego zjawiska, szczególnie nie w sensie [[Wnioskowanie przyczynowe|wyjaśnienia przyczynowego]]. Współczynnik determinacji opisuje jedynie oszacowaną na podstawie próby macierz wielokrotnej [[Zależność zmiennych losowych|korelacji]] obecnych w modelu zmiennych, przy założeniu prawdziwości modelu. Ignoruje dopasowanie modelu do danych spoza próby, oraz problem zmiennych ubocznych. Maksymalizacja tej miary prowadzi do [[Nadmierne dopasowanie|nadmiernego dopasowania]] modelu do danych uczących<ref>{{Cytuj |autor = Norman H. Anderson, James Shanteau |tytuł = Weak inference with linear models. |czasopismo = Psychological Bulletin |data = 1977 |data dostępu = 2019-03-28 |issn = 0033-2909 |wolumin = 84 |numer = 6 |s = 1155–1170 |doi = 10.1037/0033-2909.84.6.1155 |url = http://content.apa.org/journals/bul/84/6/1155 |język = en}}</ref><ref>{{Cytuj |autor = Michael H. Birnbaum |tytuł = The devil rides again: Correlation as an index of fit. |czasopismo = Psychological Bulletin |data = 1973-4 |data dostępu = 2019-03-28 |issn = 1939-1455 |wolumin = 79 |numer = 4 |s = 239–242 |doi = 10.1037/h0033853 |url = http://doi.apa.org/getdoi.cfm?doi=10.1037/h0033853 |język = en}}</ref><ref>{{Cytuj |autor = James Shanteau |tytuł = Correlation as a deceiving measure of fit |czasopismo = Bulletin of the Psychonomic Society |data = 1977-8 |data dostępu = 2019-03-28 |issn = 0090-5054 |wolumin = 10 |numer = 2 |s = 134–136 |doi = 10.3758/BF03329303 |url = http://link.springer.com/10.3758/BF03329303 |język = en}}</ref><ref>{{Cytuj |autor = Andrej-Nikolai Spiess, Natalie Neumeyer |tytuł = An evaluation of R2 as an inadequate measure for nonlinear models in pharmacological and biochemical research: a Monte Carlo approach |czasopismo = BMC Pharmacology |data = 2010-12 |data dostępu = 2019-03-28 |issn = 1471-2210 |wolumin = 10 |numer = 1 |doi = 10.1186/1471-2210-10-6 |pmid = 20529254 |pmc = PMC2892436 |url = http://link.springer.com/10.1186/1471-2210-10-6 |język = en}}</ref>. Schmueli uznaje w tym kontekście tradycję opisywania korelacji zmiennych jako ich wzajemnego „wyjaśniania” – co może sugerować wyjaśnienie przyczynowe – za szczególnie zwodniczą<ref>{{Cytuj |autor = Galit Shmueli |tytuł = To Explain or to Predict? |czasopismo = Statistical Science |data = 2010-8 |data dostępu = 2019-03-28 |issn = 0883-4237 |wolumin = 25 |numer = 3 |s = 289–310 |doi = 10.1214/10-STS330 |url = http://projecteuclid.org/euclid.ss/1294167961 |język = en}}</ref>.
-:: 0,5 – 0,6 – dopasowanie słabe
-:: 0,6 – 0,8 – dopasowanie zadowalające
-:: 0,8 – 0,9 – dopasowanie dobre
-:: 0,9 – 1,0 – dopasowanie bardzo dobre
 == Współczynnik determinacji ==
-Informuje o tym, jaka część zmienności ([[wariancja]]) [[Zmienna objaśniana|zmiennej objaśnianej]] została wyjaśniona przez [[Model statystyczny|model]]. Jest on więc miarą stopnia, w jakim model wyjaśnia kształtowanie się zmiennej objaśnianej. Można również powiedzieć, że współczynnik determinacji opisuje tę część zmienności objaśnianej, która wynika z jej zależności od uwzględnionych w modelu [[Zmienna objaśniająca|zmiennych objaśniających]]. Współczynnik determinacji przyjmuje [[wartości]] z [[przedział (matematyka)|przedziału]] [0;1] jeśli w modelu występuje wyraz wolny, a do estymacji parametrów wykorzystano metodę najmniejszych kwadratów. Jego wartości najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość R² jest bliższa jedności. Wyraża się on wzorem:
+Informuje o tym, jaka część zmienności ([[wariancja|wariancji]]) [[Zmienna objaśniana|zmiennej objaśnianej]] w próbie pokrywa się z korelacjami ze zmiennymi zawartymi w [[Model statystyczny|modelu]]. Jest on więc miarą stopnia, w jakim model pasuje do próby. Współczynnik determinacji przyjmuje wartości z [[przedział (matematyka)|przedziału]] [0;1] jeśli w modelu występuje wyraz wolny, a do estymacji parametrów wykorzystano metodę najmniejszych kwadratów. Jego wartości najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość R² jest bliższa jedności. Wyraża się on wzorem:
 : <math>R^2 = \frac{\sum\limits_{t=1}^n (\hat y_t - \overline{y})^2}{\sum\limits_{t=1}^n (y_t - \overline{y})^2},</math>
 gdzie:
-: <math>y_t</math> – rzeczywista [[wartości|wartość]] zmiennej Y w momencie t,
+: <math>y_t</math> – rzeczywista wartość zmiennej Y w momencie t,
-: <math>\hat y_t</math> – [[wartości|wartość]] teoretyczna [[Zmienna objaśniana|zmiennej objaśnianej]] (na podstawie modelu),
+: <math>\hat y_t</math> – wartość teoretyczna [[Zmienna objaśniana|zmiennej objaśnianej]] (na podstawie modelu),
 : <math>\overline{y}</math> – [[średnia arytmetyczna]] empirycznych wartości zmiennej objaśnianej.
 == Współczynnik zbieżności ==
-Współczynnik zbieżności <math>\varphi^2</math> określa, jaka część zmienności zmiennej objaśnianej '''nie''' została wyjaśniona przez model. Można również powiedzieć, że współczynnik zbieżności opisuje tę część zmienności zmiennej objaśnianej, która wynika z jej zależności od innych czynników niż uwzględnione w modelu. Współczynnik zbieżności przyjmuje wartości z przedziału [0;1]; wartości te najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość <math>\varphi^2</math> jest bliższa zeru. Wyraża się on wzorem:
+Współczynnik zbieżności <math>\varphi^2</math> określa, jaka część zaobserwowanej w próbie zmienności zmiennej objaśnianej '''nie''' pasuje do modelu (mieści się w jego błędzie). Współczynnik zbieżności przyjmuje wartości z przedziału [0;1]; wartości te najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość <math>\varphi^2</math> jest bliższa zeru. Wyraża się on wzorem:
 : <math>\varphi^2 = 1- R^2,</math>