Wielkość efektu

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

W statystyce, wielkość efektu to ilościowa miara siły zjawiska (np. różnica między grupą kontrolną a grupą eksperymentalną) obliczana na podstawie danych[1]. Z uwagi na różnorodność typów danych i zastosowanej metodologii istnieje wiele rodzajów wielkości efektu mierzących różne aspekty badania. Miara ta uzupełnia wnioskowanie statystyczne, obok p - wartości, nie stawiając hipotezy o rzeczywistym związku pomiędzy zmiennymi. Ponadto, jest wykorzystywana w meta-analizach, podsumowujących studia z danego obszaru nauki. Również analiza mocy wybranego testu oraz planowanie wielkości próby wymagają podania założonej wielkości efektu. Na podstawie tej wartości wykonywane są dalsze obliczenia (wielkość próby, poziom istotności).

Przykładowo: wyniki niedawno przeprowadzonych badań (Kramer, Guillory, Hancock, 2014) pokazały, że kiedy zredukowano ilość postów o pozytywnie emocjonalnym wydźwięku wyświetlanych w sekcji "news feed" użytkownika portalu społecznościowego Facebook, status użytkownika zawierał mniej pozytywnych wyrazów (d Cohena = 0.02) i więcej negatywnych słów (d Cohena = 0.001). Ponieważ wielkości efektu (d=0.02, d=0.001) są bardzo bliskie zero, to opisane zjawisko można uznać za słabe. Przy czym, usunięcie pozytywnych słów (d = 0.02) jest 20 razy silniejsze niż wzrost liczby negatywnych słów (d = 0.001). Obliczanie wielkości efektu na podstawie danych powoduje, że istnieje wiele rodzajów wielkości efektów, w zależności od samych danych, od zastosowanej metodologii oraz przedmiotu zainteresowania badacza.

Podanie wielkości efektu jest nie tylko dobrą praktyką naukowca, ale też elementem koniecznym w publikacjach badań naukowych[2]. Dodatkowo, raportując wielkość efektu, należy podać miernik, jaki użyto do obliczenia tej wartości (np. d Cohena, r Pearsona)[1]

Znaczenia pojęcia wielkości efektu[edytuj | edytuj kod]

W zależności od kontekstu, możemy posługiwać się trzema znaczeniami pojęcia wielkości. Zwykle nie prowadzi to do nieporozumień, ale należy zdawać sobie sprawę z istnienia sposobów ujęcia terminu "wielkość efektu".

Wielkość efektu jako wymiar[edytuj | edytuj kod]

Wielkość efektu rozumiana jako wymiar jest abstrakcyjnym pojęciem dotyczącym typu informacji, który interesuje badawcza w zjawisku[1]. Jednocześnie nie jest związana z żadną konkretną operacjonalizacją, ani jednostką. Przykładowo wielkością efektu jako wymiar może być zmienność, która sama w sobie nie wyraża się żadnym równanie, ani też nie posiada jednostki, ale można ją ująć jako odchylenie standardowe, wariancję czy rozstęp.

Miernik (wskaźnik) wielkości efektu[edytuj | edytuj kod]

Miernik, inaczej: wskaźnik, wielkości efektu, to równanie, za pomocą którego obliczana jest wielkość efektu. Raportując wielkość efektu w pracy badawczej, należy podać jaki indeks zastosowano.

Wartość wielkości efektu[edytuj | edytuj kod]

Wartość wielkości efektu jest liczbą obliczoną na podstawie danych poprzez konkretne równanie matematyczne opisujące interesujący badacza wymiar wielkości efektu (np. zmienność). Wartość ta wskazuje na siłę zjawiska. Przykładowo, weźmy pod uwagę standaryzowaną różnicę pomiędzy średnimi (miernik wielkości efektu). Jest to operacjonalizacja tego, jak się różnią grupa kontrolna i grupa badawcza. Wartość standaryzowanej różnicy pomiędzy średnimi może wynieść d Cohena = 0.62. Ta liczba to dokładnie jest wartość wielkości efektu.

Typy wielkości efektu[edytuj | edytuj kod]

Wielkość efektu oparta na wyjaśnianej wariancji[edytuj | edytuj kod]

Ten typ wielkości efektu szacuje ilość wariancji wyjaśnionej przez model w eksperymencie.

Współczynnik korelacji Pearsona r[edytuj | edytuj kod]

Współczynnik korelacji Pearsona r wprowadzony przez Karla Pearsona jest szeroko wykorzystywaną miarą wielkości efektu dla danych ilościowych powiązanych ze sobą związkiem - na przykład, badając związek pomiędzy wagą urodzenia a długością życia. Współczynnik korelacji może być również użyty, kiedy zmienne są binarne. Współczynnik korelacji r Pearsona przyjmuje wartości z przedziału od -1 do 1. Wartość -1 wskazuje na idealną, liniową, negatywną zależność. Wartość +1 oznacza idealną, liniową, dodatnią zależność. Cohen podaje wskazówki interpretacji wielkości efektu dla nauk społecznych [3] [4]:

Wielkość efektu r
Mała 0.10
Średnia 0.30
Duża 0.50
Współczynnik determinacji[edytuj | edytuj kod]

Związany z wielkością efektu jest współczynnik determinacji r², liczony jako kwadrat współczynnika korelacji r Pearsona. W przypadku dwóch zmiennych, jest to miara proporcji zmienności (wariancji) dzielonej przez te zmienne. Współczynnik determinacji r² przyjmuje wartości z przedziału od 0 do 1. Ponieważ są to wartości zawsze dodatnie, to na jego podstawie nie można wyciągnąć wniosku o kierunku korelacji pomiędzy zmiennymi.

Eta-kwadrat, η²[edytuj | edytuj kod]

Eta-kwadrat (η²) opisuje stosunek wariancji zmiennej zależnej wyjaśnioną przez zmienną niezależną (predyktor), przy stałych wartościach pozostałych zmiennych niezależnych (predyktorów). η² jest odpowiednikiem r² i jest obciążonym estymatorem wariancji wyjaśnionej przez model w populacji (czyli oszacowuje jedynie wielkość efektu w próbie). Podobnie jak r², wraz każda dodatkowa zmienna powoduje wzrost wartości η². Ponadto, ta wielkość efektu podaje jedynie zmienność w próbie, nie zaś w populacji, co oznacza, że zawsze przeszacowuje wielkość efektu w populacji, jednak obciążenie maleje wraz ze wzrostem elementów w próbie.

\eta^2 = \frac{SSB}{SST} .
SSB to międzygrupowa suma kwadratów, a SST to całkowita suma kwadratów.
Omega-kwadrat ω²[edytuj | edytuj kod]

Mniej obciążonym estymatorem wyjaśnionej wariancji w populacji jest ω²[5][6][7].

\omega^2 = \frac{SS_\text{treatment}-df_\text{treatment} * MS_\text{error}}{SS_\text{total} + MS_\text{error}} .

Forma tego wzoru jest ograniczona do między-osobniczej analizy z równą liczbą elementów w komórkach (brzmi bez sensu). Ponieważ jest mniej obciążony (ale nie nieobciążony), ω² jest bardziej pożądany niż η². Jednakże, może być go trudniej obliczyć przy bardziej złożonych analizach.

f² Cohena[edytuj | edytuj kod]

f² Cohena jest jedną z miar wielkości efektu używanych w kontekście F-testu w ANOVA albo w regresji wielokrotnej. Jego obciążenie (czyli przeszacowanie wielkości efektu dla ANOVA) zależy od obciążenia miar wyjaśnianej zmienności (np. R², ω², η²).

f^2 = {R^2 \over 1 - R^2}

gdzie R² jest współczynnikiem korelacji wielorakiej.

Podobnie, f² może być zdefiniowane jako

f^2 = {\eta^2 \over 1 - \eta^2} or f^2 = {\omega^2 \over 1 - \omega^2}
dla modeli opisanych przez powyższe miary wielkości efektu[8]

Wielkość efektu oparta na średnich albo na dystansie między średnimi[edytuj | edytuj kod]

Wielkość efektu θ oparta na średnich zwykle wykorzystuje standaryzowaną różnicę między dwiema próbami[9] gdzie μ1 jest wartością oczekiwaną dla jednej populacji, a μ2 jest wartością oczekiwaną dla drugiej populacji oraz σ jest odchyleniem standardowym albo dla obu populacji, albo dla jednej z nich.

W praktyce, powyższe wartości są nieznane dla całej populacji i muszą być oszacowywane na podstawie próby. W ten sposób powstało wiele wersji wielkości efektu opartych na różnicy między średnimi w zależności od tego, jakich estymatorów użyto.

Podany wzór opisujący wielkość efektu przypomina obliczanie statystyki t w teście t-Studenta, z tą różnicą, że w statystyce t używany jest czynnik \sqrt{n}. To oznacza, że dla danej wielkości efektu, poziom istotności wzrasta wraz ze wzrostem próby. W przeciwieństwie do statystyki t, wielkość efektu oszacowuje parametr w populacji, zatem wielkość próby nie ma na nią wpływu.

d Cohena[edytuj | edytuj kod]

d Cohena jest zdefiniowane jako różnica pomiędzy średnimi podzielona przez odchylenie standardowe w próbie

d=\frac{\bar{x}_1 - \bar{x}_2}{s}

d Cohena jest często używany w szacowaniu wielkości próby obok pożądanej mocy testu przy założonym poziomie istotności. Mniejsze d Cohena oznacza konieczność zwiększenia liczności próby, i na odwrót.

Jakub Cohen nie określił dokładnie co znaczy odchylenie standardowe s we wzorze, ponieważ zdefiniował to jako standardowe odchylenie w próbach (zakładając, że są równe). Inni autorzy obliczają standardowe odchylenie bardziej jawnie zgodnie z definicją odchylenia standardowego w obu niezależnych próbach:

s = \sqrt{\frac{(n_1-1)s^2_1 + (n_2-1)s^2_2}{n_1+n_2-2}}
s_1^2 = \frac{1}{n_1-1} \sum_{i=1}^{n_1} (x_{1,i} - \bar{x}_1)^2

Ta definicja d Cohena jest nazwana estymatorem największej wiarygodności przez Hedgesa i Olkina. Jest pokrewna do g Hedgesa z uwagi na czynnik skalujący (poniżej).

Δ Glassa[edytuj | edytuj kod]

W 1976 Gene V.Glass zaproponował estymator wielkości efektu, który wykorzystuje jedynie odchylenie standardowe w drugiej próbce.

\Delta = \frac{\bar{x}_1 - \bar{x}_2}{s_2}

Druga próbka może oznaczać grupę kontrolną. Według Glassa, jeśli porównujemy kilka grup do grupy kontrolnej, to lepszym rozwiązaniem jest użycie odchylenia standardowego pochodzącego z grupy kontrolnej po to, aby wielkości efektu nie różniły się ze względu na różne wariancje mając ten sam licznik (różnica w średnich). Przy spełnieniu założenia o równości wariancji we wszystkich próbach, odchylenie standardowe σ dla wszystkich obserwacji jest dokładniejszym estymatorem.

g Hedgesa[edytuj | edytuj kod]

W 1981 roku Larry Hedges zaproponował inny miernik wielkości efektu, g Hedgesa, opartą na standaryzowanej różnicy

g = \frac{\bar{x}_1 - \bar{x}_2}{s^*}

W tym wzorze odchylenie standardowe dla całej próby s^* jest obliczanie nieco inną metodą niż w d Cohena. Początkowo, można było obliczać odchylenie standardowe dla całej próby w ten sposób:

s^* = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}}.

Jednakże, estymator dla wielkości efektu w populacji θ jest estymatorem obciążonym. Obciążenie można zmniejszyć poprzez pomnożenie przez czynnik

g^* = J(n_1+n_2-2) \,\, g \, \approx \, \left(1-\frac{3}{4(n_1+n_2)-9}\right) \,\, g

Hedges i Olkin odnoszą się do powyższego mniej obciążonego estymatora g^* jako d, ale nie jest to ta sama wielkość efektu co d Cohena. Dokładna forma czynnika korygującego obciążenie J() zawiera w sobie funkcję gamma.

J(a) = \frac{\Gamma(a/2)}{\sqrt{a/2 \,}\,\Gamma((a-1)/2)}.

Ψ, Standaryzowana średnia kwadratowa[edytuj | edytuj kod]

Jest to estymator wielkości efektu używany w przypadku porównań wielokrotnych np. ANOVA[8], analogiczny do d albo g. Najprostszy wzór na Ψ, używany w przypadku jednoczynnikowej ANOVA:

\Psi = \sqrt{\left(\frac{1}{k-1}\right)\frac{\Sigma(\bar{x}_j-\bar{X})^2}{MS_{error}}}

Wzory uogólnione dla wieloczynnikowego modelu również znajdują się w literaturze[8].

Rozkład wielkości efektu opartej na średnich[edytuj | edytuj kod]

Jeśli dane mają rozkład normalny, to skalowane g Hedgesa, \sqrt{n_1 n_2/(n_1+n_2)}\,g, ma niecentralny rozkład t-Studenta z parametrem niecentralności \sqrt{n_1 n_2/(n_1+n_2)}\,g oraz (n1 + n2 − 2) stopniami swobody. Podobne, skalowana Δ Glassa ma niecentralny rozkład z n2 − 1 stopniami swobody. Przy użyciu powyższych rozkładów, jest możliwe obliczenie wartości oczekiwanej i wariancji wielkości efektu. W przypadku odpowiednio dużych prób używane są aproksymacje dla wariancji. Nieobciążonym estymatorem wariancji g Hedgesa jest[9]:86

\hat{\sigma}^2(g^*) = \frac{n_1+n_2}{n_1 n_2} + \frac{(g^*)^2}{2(n_1 + n_2)}.

Wielkość efektu dla zmiennych kategorialnych (dyskretnych)[edytuj | edytuj kod]

 \phi = \sqrt{ \frac{\chi^2}{N}} 

 \phi_c = \sqrt{ \frac{\chi^2}{N(k - 1)}} 

Phi (φ) V Craméra (φc)

Popularnie używane miary związku dla test chi-kwadrat to współczynnik Phi oraz V Craméra (V Craméra czasami jest nazywane phi Craméra i zapisywane jako φc). Współczynnik Phi jest związany z punktowo-dwuseryjną korelacją oraz z d Cohena i oszacowuje rozmiar związku pomiędzy dwoma zmiennymi (2x2). Natomiast V Craméra może być użyty ze zmiennymi o większej ilości kategorii. Phi może być obliczone na podstawie pierwiastka kwadratowego statystyki chi-kwadrat podzielonej przez wielkość próby. Podobnie, V Craméra jest obliczane poprzez podzielenie pierwiastka kwadratowego statystyki chi-kwadrat przez wielkość próby i mniejsza z liczb: wierszy lub kolumn (tabela powyżej). Phic jest interkorelacją między dwoma zmiennymi dyskretnymi i może być obliczana dla każdej liczby wierszy i kolumn[10]. Jednakże, podobnie tak jak wartości chi_kwadrat mają tendencję do wzrostu wraz z liczbą komórek, im większa różnica między liczbą kolumn c a liczbą wierszy r, tym bliższa 1 jest wartość V Craméra bez znaczącej korelacji między zmiennymi.

V Craméra jest stosowana jako miara dobroci dopasowania (np. wówczas, gdy c=1). W tym przypadku funkcjonuje jako miara tendencji ku pewnej wartości. W takich przypadkach, należy użyć wartości r jako k, aby zachować V w przedziale [0,1]. W przeciwnym wypadku, użycie c zredukuje równanie na wielkość efektu do równania na Phi.

Iloraz szans[edytuj | edytuj kod]

Iloraz szans (odds ratio, OR) to miara wielkości efektu odpowiednia wówczas, kiedy pytanie badawcze dotyczy stopnia związku pomiędzy dwoma zmiennymi binarnymi (zero-jedynkowymi). Rozważmy następujący przykład. W grupie kontrolnej, na każdych dwóch studentów przystępujących do egzaminu i zaliczających przedmiot przypada jeden student, któremu nie powiodło się. W tym przypadku szansa zaliczenia egzaminu to dwa do jednego (lub 2/1 = 2). W grupie badanej, na jednego studenta, który nie zaliczył egzamin, przypada sześciu studentów, którzy pomyślnie przeszli sprawdzian. W tym przypadku szansa zaliczenia egzaminu to sześć do jednego (albo 6/1=6). W ten sposób, wielkością efektu jest tutaj stosunek szansy zaliczenia egzaminu w grupie badanej, która trzy razy większa od szansy zaliczenia w grupie kontrolnej (ponieważ 6 podzielone przez 2 to 3). Zatem, iloraz szans to 3. Powyższa statystyka jest mierzona na innej skali niż d Cohena, w związku z czym powyższa wartość 3 jest nieporównywalna do d Cohena równej 3.

Ryzyko względne[edytuj | edytuj kod]

Ryzyko względne, zwane również pod nazwa iloraz ryzyk, jest ryzykiem (prawdopodobieństwem) zdarzenia względem innych niezależnych zmiennych. Ta miara wielkości efektu różni się od ilorazu szans z uwagi na to, że porównuje prawdopodobieństwa, zamiast szans, ale asymptotycznie zbliża się do ilorazu szans dla małych prawdopodobieństw. Używają przykładu powyżej, prawdopodobieństwo zaliczenia egzaminu w grupie kontrolnej i badanej jest odpowiednio: 2/3 (0.67) oraz 6/7 (0.86). Wielkość efektu jest obliczana w bardzo podobny sposób - poprzez prawdopodobieństwo. Zatem, ryzyko względne wynosi 1.28. Ze względu na raczej wysokie prawdopodobieństwo zaliczenia egzaminu, otrzymujemy dużą różnicę pomiędzy ryzykiem względnym a ilorazem szans. Gdybyśmy jednak zastosowali mniejsze prawdopodobieństwa porażki w równaniu, zamiast sukcesu, to wówczas różnica pomiędzy tymi dwoma wartościami wielkości efektu nie byłaby taka duża.

Pomimo, że obie miary wielkości efektu są użyteczne, to różnią się pod względem statystycznych zastosowań. W badaniach medycznych, iloraz szans jest często wykorzystywany w badaniach kontrolnych (case-control study). Ryzyko względne jest używane w próbach zrandomizowanych albo w badaniach kohortowych. Kiedy przypadki pojawienia się choroby są rzadkie w populacji (przyjmuje się około mniej niż 10%), wówczas iloraz szans jest uważany za dobry estymator ilorazu ryzyka. Jeśli jednak, przypadki choroby są częstsze, iloraz szans i iloraz ryzyk zaczynają się różnić, w tym sensie, że iloraz szans niedoszacowuje albo przeszacowuje iloraz ryzyk, kiedy estymator jest mniejszy lub większy od 1. Kiedy estymatory występowania choroby są dostępne, są metody przełożenia ilorazu szans na iloraz ryzyk.

Wielkość efektu rozumiana potocznie[edytuj | edytuj kod]

Tak jak nazwa wskazuje, w rozumieniu potocznym wielkość efektu służy do opisania wielkości efektu tak, aby osoby z małym statystycznym doświadczeniem mogły zrozumieć to pojęcie. Ta wielkość efektu jest terminem ukutym przez Kennetha McGrawa i S.P. Wonga i jest używana do zilustrowania różnicy pomiędzy dwoma grupami.

Kerby zauważa, że podstawą do zrozumienia wielkości efektu w potocznym rozumieniu tego pojęcia jest "para", zdefiniowana jako wyniki w jednej grupie obserwacji sparowane z wynikami w drugiej grupie obserwacji. Na przykład, jeśli w badaniach mamy 10 osób w grupie badanej i 10 osób w grupie kontrolnej, to liczba par wynosi 100. Potocznie rozumiana wielkość efektu porządkuje wszystkie wszystkie, porównuje pary i w rezultacie podaje procent par wspierających hipotezę. Jako przykład, rozważmy leczenie chronicznej choroby takiej jak artetyzm, a zmienną wynikową oceniająca mobilność i ból osoby badanej. Rozważmy też, 10 osób w grupie leczenie i 10 osób w grupie kontrolnej. Liczba par wynosi 100. Rezultaty uzyskane na podstawie próby mogą być następujące:"Porównując pacjentów z grupy badanej do pacjentów z grupy kontrolnej, uzyskano 80 na 100 par, w których wynik osoby z grupy badanej wykazywał poprawę po leczeniu".

Taka wartość parametru z próby jest nieobciążonym estymatorem parametru z populacji[11]. Parametr z populacji w rozumieniu potocznym może być podawany pod względem par wybranych losowo z populacji. McGraw i Wong używają przykładu porównania wzrostu między kobietami a mężczyznami, opisując wartość populacyjnego parametru w rozumieniu potocznym następująco:"W jakiejkolwiek losowo wybranej parze młodego mężczyzny i młodej kobiety, prawdopodobieństwo wyższego wzrostu młodego mężczyzny wynosi 0.92, i prosto rzecz ujmuąc, na 92 z 100 ślepych randek mężczyzna jest wyższy niż kobieta" (p.381).

Rangowo-dwuseryjna korelacja[edytuj | edytuj kod]

Rangowo-dwuseryjna korelacja jest wielkością efektu związaną z wielkością efektu potocznie rozumianą. Miara została wprowadzona przez Curetona jako wielkość efektu dla testu U Manna-Whitneya. Oznacza to, że mając dwie grupy, wyniki zostają przekonwertowane na rangi. Wzór na prostą różnicę Kerby'ego (poniżej) pozwala obliczyć rangowo- dwuseryjną korelację na podstawie potocznie rozumianej wielkości efektu, Niech f będzie proporcją par przemawiających na rzecz hipotezy (potocznie rozumiana wielkość efektu). Niech u będzie proporcją par zaprzeczających hipotezie. Rangowo-dwuseryjna korelacja r jest prostą różnicą pomiędzy dwoma proporcjami r = f - u Innymi słowami, korelacja jest tutaj różnicą pomiędzy wielkością efektu rozumianą potocznie a jej dopełnieniem. Przykładowo, niech, w potocznym ujęciu wielkość efektu wynosi 60%, zatem rangowo-dwuseryjna korelacja wynosi 60%-40%, stąd otrzymujemy, r = 0.2. Wzór Kerby'ego jest kierunkowy - wskazuje kierunek zależności. Dodatnie wartości przemawiają na rzecz hipotezy.

Nie-kierunkowy wzór dla rangowo-dwuseryjnej korelacji został zaproponowany przez Wendta i przyjmuje tylko dodatnie wartości[12]. Korzyścią ze stosowania wzoru Wendta jest to, że można go szybko obliczyć na postawie informacji zawartych w opublikowanym artykule. Wzór ten wykorzystuje jedynie wartość statystyki U z testu Manna Whitneya oraz liczebność próby z obu grup.

r = \frac{1 - 2U}{n_1 n_2}.

Następny przykład pokazuje działanie wzoru. Rozważmy badanie zdrowia 20 seniorów, spośród których 10 jest w grupie kontrolnej a 10 w grupie badanej. Stąd mamy 100 par. Program zdrowotny przewiduje, że dieta, ćwiczenia i suplementacja poprawiają pamięć, co jest mierzone wystandaryzowanym testem. Test U Manna Whitneya pokazje, że osoby starsze w grupie eksperymentalnej charakteryzują się lepszą pamięcią w 70 na 100 par i gorszą pamięcią w pozostałych parach. Statystyka U Manna Whitneya jest mniejsza z 70 i 30, zatem U = 30. Korelacja pomiędzy pamięcią a leczeniem według wzoru Kerby'ego wynosi r = (70/100) - (30/100) = 0.4. Korelacja według wzoru Wendta wynosi r = 1 - (2*30)/10*10 = 0.4

"Mała", "średnia", "duża" wielkość efektu[edytuj | edytuj kod]

Uznanie wielkości efektu za "małą", "średnią", czy "dużą" zależy od kontekstu badania i definicji operacyjnej wielkości efektu. Zaproponowane przez Cohena kryteria są wszechobecne w wielu obszarach nauki. Analiza mocy i planowanie wielkości próby wymagają założenia wielkości efektu w populacji. Wielu badaczy traktuje kryteria Cohena jako domyślne hipotezy alternatywne. To podejście jest krytykowane, zdaniem Russela V. Lentha - są to "T-shirtowe wielkości efektu". [13]

Jest trudno dość do tej samej wielkości próby, jaka została użyta we wcześniejszych badaniach, gdzie wielkość efektu była duża, średnia, albo mała. Metodą jest wykorzystywanie standaryzowanej wielkości efektu jako celu. Pomyślmy o "średniej" wielkości efektu. Wybierzemy wówczas to samo n (ilość elementów próbie) bez względu na rzeteleność narzędzia, albo specyfikę jednostek badanych. Mianowicie, wiele poważnych apektów zagadnienia jest pomijanych. "Średni" nic nie mówi!

d Cohena w zakresie 0.2 do 0.3 może oznaczać "małą" wielkość efektu, około 0.5 oznacza "średnią", a od 0.8 oznacza "dużą" wielkość efektu, przy czym d Cohena może osiągać wartości większe od jedności.

Cohen w swoich artykułach [3] uprzedził zastrzeżenia Lentha:

Terminy "mały", "średni", "duży" są względne, nie tylko wobec siebie, ale również wobec obszaru nauki behawioralnych, a nawet specyfiki badania lub użytej w nim metody. W obliczu tej względności, istnieje pewne niebezpieczeństwo w proponowaniu zwyczajowych definicji dla tych terminów w kontekście analizy mocy. Ryzyko to niemniej jest tolerowane ponieważ wierzymy, że narażając się na nie więcej zdobędziemy niż stracimy poprzez stworzenie jakiegoś źródła odniesienia w przypadku, gdy nie istnieją inne sposoby oszacowania wielkości efektu. (s.25)

W idealnym świecie, badacze interpretowaliby istotność swoich wyników w odniesieniu do znaczącego kontekstu albo przez zmierzenie swojego wkładu w wiedzę. Jeśli to niemożliwe, kryteria Cohena są ostatnią deską ratunku. [2]

Niedawno wydany przez U.S. Dept. of Education raport mówi, że "Wszechobecne, masowe wykorzystanie kryteriów Cohena do oceny wielkości efektu poza obszarami związanych z naukami behawioralnymi jest niewłaściwe i mylące". W raporcie nie znalazły się inne źródła interpretacji wielkości efektu.

Przypisy

  1. 1,0 1,1 1,2 Ken Kelley. On Effect Size. „Psychological Methods”. 17 (2). s. 137 - 152. DOI: 10.1037/a0028086. 
  2. 2,0 2,1 Leland Wilkinson. Statistical methods in psychology journals: Guidelines and explanations. „American Psychologist”. 54 (8), s. 594-604, 1999. DOI: 10.1037/0003-066X.54.8.594. 
  3. 3,0 3,1 Jacob Cohen: Statistical Power Analysis for the Behavioral Sciences (second ed.). Lawrence Erlbaum Associates, 1988, s. 590.
  4. Jacob Cohen. A power primer. „Psychological Bulletin”. 112 (1). s. 155 - 159. DOI: 10.1037/0033-2909.112.1.155. 
  5. Bortz, 1999, p. 269f.;
  6. Bühner & Ziegler (2009, p. 413f)
  7. Tabachnick & Fidell (2007, p. 55)
  8. 8,0 8,1 8,2 Steiger, J. H. 2004. Beyond the F test: Effect size confidence intervals and tests of close fit in the analysis of variance and contrast analysis. Psychological Methods 9:(2) 164-182. http://www.statpower.net/Steiger%20Biblio/Steiger04.pdf
  9. 9,0 9,1 Larry V. Hedges, Ingram Olkin: Statistical Methods for Meta-Analysis. Orlando: Academic Press, 1985, s. 78. ISBN 0-12-336380-2.
  10. Sheskin, David J. (1997). Handbook of Parametric and Nonparametric Statistical Procedures. Boca Raton, Fl: CRC Press.
  11. Grissom RJ. Statistical analysis of ordinal categorical status after therapies. „Journal of Consulting and Clinical Psychology”. 62 (2), s. 281–284, 1994. DOI: 10.1037/0022-006X.62.2.281. 
  12. H.W. Wendt. Dealing with a common problem in social science: A simplified rank-biserial coefficient of correlation based on the U statistic. „European Journal of Social Psychology”. 2 (4), s. 463-465, 1999. DOI: 10.1002/ejsp.2420020412. 
  13. Russell V. Lenth: Java applets for power and sample size. Division of Mathematical Sciences, the College of Liberal Arts or The University of Iowa. [dostęp 2008-10-08].