Rozkład Studenta

Rozkład Studenta, rozkład t Studenta
	Gęstość prawdopodobieństwa;
	Dystrybuanta;
Parametry	stopni swobody (liczba rzeczywista)
Nośnik
Gęstość prawdopodobieństwa
Dystrybuanta	; gdzie jest funkcją hipergeometryczną
Wartość oczekiwana (średnia)	w przeciwnym wypadku nieokreślona
Mediana
Moda
Wariancja	w przeciwnym wypadku nieokreślona
Współczynnik skośności
Kurtoza
Entropia	funkcja digamma; funkcja beta;
Funkcja tworząca momenty	(nieokreślona)
Odkrywca	William Sealy Gosset (1908)

Rozkład Studenta, rozkład t Studenta, rozkład t – ciągły rozkład prawdopodobieństwa stosowany często w statystyce w procedurach testowania hipotez statystycznych i przy ocenie niepewności pomiaru. Przy opracowaniu wyników pomiarów często powstaje zagadnienie oszacowania przedziału, w którym leży, z określonym prawdopodobieństwem, rzeczywista wartość mierzona, jeśli dysponujemy tylko wynikami n pomiarów, dla których możemy wyznaczyć takie parametry, jak średnia ${\overline {X}}$ i odchylenie standardowe $s$ lub wariancja $s^{2}$ („z próby”), nie znamy natomiast odchylenia standardowego $\sigma$ w populacji. Zagadnienie to rozwiązał w 1908 r. William Sealy Gosset (pseudonim Student) podając funkcję zależną od wyników pomiarów $X_{i},$ a niezależną od $\sigma .$

Definicja[edytuj | edytuj kod]

Rozkład Studenta z $n$ stopniami swobody jest rozkładem zmiennej losowej $T$ postaci:

T={\frac {U}{\sqrt {Z}}}{\sqrt {n}}

gdzie:

$U$ jest zmienną losową mającą standardowy rozkład normalny $N(0,1)$
$Z$ jest zmienną losową o rozkładzie chi kwadrat o $n$ stopniach swobody
$U$ i $Z$ są niezależne.

Gęstość prawdopodobieństwa[edytuj | edytuj kod]

Zmienna losowa $T$ określona powyżej ma gęstość prawdopodobieństwa opisaną wzorem:

f(t,n)={\frac {\Gamma ({\frac {n+1}{2}})}{\Gamma ({\frac {n}{2}}){\sqrt {n\pi }}}}\left(1+{\frac {t^{2}}{n}}\right)^{-{\frac {n+1}{2}}}

gdzie $\Gamma (x)$ to funkcja gamma.

Dowód. Niech $U$ i $Z$ będą takie jak wyżej. Zmienna $Y={\sqrt {Z}}$ ma rozkład chi o $n$ stopniach swobody, a więc gęstość $Y$ wyraża się wzorem

f_{Y}(y)={\frac {2^{1-{\frac {n}{2}}}y^{n-1}e^{-{\frac {y^{2}}{2}}}}{\Gamma ({\frac {n}{2}})}}.

Rozważmy zmienną

X={\frac {1}{\sqrt {n}}}Y.

Wówczas

{\frac {\partial Y}{\partial X}}={\sqrt {n}}

a zatem całkując przez podstawienie obserwujemy, że

{\begin{aligned}f_{X}(x)&=f_{Y}({\sqrt {n}}x){\Big |}{\frac {\partial Y}{\partial X}}{\Big |}\\&={\frac {2^{1-{\frac {n}{2}}}}{\Gamma \left({\frac {n}{2}}\right)}}({\sqrt {n}}x)^{n-1}e^{-{\frac {({\sqrt {n}}x)^{2}}{2}}}{\sqrt {n}}\\&={\frac {2^{1-{\frac {n}{2}}}}{\Gamma \left({\frac {n}{2}}\right)}}n^{\frac {n}{2}}x^{n-1}e^{-{\frac {n}{2}}x^{2}}.\end{aligned}}

Zmienna $T$ ma zatem rozkład $U/X.$ Jej gęstość jest więc postaci

{\begin{aligned}f_{T}(t)&=\int \limits _{-\infty }^{\infty }|x|f_{U}(xt)f_{X}(x)\,\mathrm {d} x=\int \limits _{0}^{\infty }xf_{U}(xt)f_{X}(x)\,\mathrm {d} x\\&=\int \limits _{0}^{\infty }x{\frac {1}{\sqrt {2\pi }}}e^{-{\frac {(xt)^{2}}{2}}}{\frac {2^{1-{\frac {n}{2}}}}{\Gamma \left({\frac {n}{2}}\right)}}n^{\frac {n}{2}}x^{n-1}e^{-{\frac {n}{2}}x^{2}}\,\mathrm {d} x\\&={\frac {n^{\frac {n}{2}}}{\sqrt {2\pi }}}{\frac {2^{1-{\frac {n}{2}}}}{\Gamma \left({\frac {n}{2}}\right)}}\int \limits _{0}^{\infty }x^{n}e^{-{\frac {1}{2}}(n+t^{2})x^{2}}\,\mathrm {d} x.\end{aligned}}

Niech $m=x^{2}.$ Wówczas powyższa całka przyjmuje postać

\int \limits _{0}^{\infty }x^{n}e^{-{\frac {1}{2}}(n+t^{2})m}{\frac {\mathrm {d} m}{2x}}={\frac {1}{2}}\int \limits _{0}^{\infty }m^{\frac {n-1}{2}}e^{-{\frac {1}{2}}(n+t^{2})m}\mathrm {d} m\qquad (*).

Gęstość $f(m;k,\theta )$ rozkładu gamma wyraża się wzorem

f(m;k,\theta )={\frac {m^{k-1}e^{-{\frac {m}{\theta }}}}{\theta ^{k}\Gamma (k)}}.

Oznacza to, że

k-1={\frac {n-1}{2}}\Rightarrow k^{*}={\frac {n+1}{2}},\qquad {\frac {1}{\theta }}={\frac {1}{2}}(n+t^{2})\Rightarrow \theta ^{*}={\frac {2}{(n+t^{2})}}

a stąd

(*)={\frac {1}{2}}(\theta ^{*})^{k^{*}}\Gamma (k^{*})={\frac {1}{2}}{\Big (}{\frac {2}{n+t^{2}}}{\Big )}^{\frac {n+1}{2}}\Gamma \left({\frac {n+1}{2}}\right)=2^{\frac {n-1}{2}}n^{-{\frac {n+1}{2}}}\Gamma \left({\frac {n+1}{2}}\right)\left(1+{\frac {t^{2}}{n}}\right)^{-{\frac {1}{2}}(n+1)}.

Ostatecznie

f_{T}(t)={\frac {1}{\sqrt {2\pi }}}{\frac {2^{1-{\frac {n}{2}}}}{\Gamma \left({\frac {n}{2}}\right)}}n^{\frac {n}{2}}2^{\frac {n-1}{2}}n^{-{\frac {n+1}{2}}}\Gamma \left({\frac {n+1}{2}}\right)\left(1+{\frac {t^{2}}{n}}\right)^{-{\frac {1}{2}}(n+1)}={\frac {\Gamma [(n+1)/2]}{{\sqrt {n\pi }}\Gamma (n/2)}}\left(1+{\frac {t^{2}}{n}}\right)^{-{\frac {1}{2}}(n+1)}.

Własności[edytuj | edytuj kod]

Powyższy wzór określa całą rodzinę rozkładów prawdopodobieństwa zależną od parametru $n$ – liczby stopni swobody rozkładu Studenta. Rozkłady te są symetryczne, jednomodalne, dla dużych wartości $n$ zmierzają do standardowego rozkładu normalnego $N(0,1).$ Dla małych $n$ różnią się jednak od rozkładu normalnego: rozkład Studenta o $n$ stopniach swobody ma skończone momenty tylko do rzędu $n-1,$ w szczególności dla $n=1$ rozkład Studenta jest identyczny z rozkładem Cauchy’ego i nie posiada żadnych skończonych momentów (nie istnieje nawet wartość średnia).

Własności te ilustruje poniższy wykres przedstawiający gęstości rozkładu Studenta dla kilku wartości liczby stopni swobody $n$ w zestawieniu z gęstością standardowego rozkładu normalnego $N(0,1).$

rozkłady Studenta porównane z rozkładem normalnym

Zastosowania[edytuj | edytuj kod]

Zastosowania rozkładu Studenta w metrologii i statystyce opierają się w większości na następujących dwóch twierdzeniach:

Niech zmienne losowe $X_{1},X_{2},\dots ,X_{n}$ mają jednakowy rozkład prawdopodobieństwa, który jest rozkładem normalnym o średniej $m$ i wariancji $\sigma ^{2}$ oraz niech zmienna $t$ będzie określona wzorem:
$t={\frac {{\overline {X}}-m}{s}}\cdot {\sqrt {n}}$

gdzie ${\overline {X}}$ jest wartością średnią z próby, zaś $s$ – odchyleniem standardowym z próby.

Wówczas zmienna $t$ ma rozkład Studenta o $\nu =n-1$ stopniach swobody (niezależny od wartości wariancji w populacji $\sigma ^{2}$ ).
Jeżeli dwie próby o liczebnościach $n_{1}$ oraz $n_{2},$ wartościach średnich ${\overline {X}}_{1}$ oraz ${\overline {X}}_{2}$ i wariancjach wyznaczonych z próby $s_{1}^{2}$ oraz $s_{2}^{2}$ zostały wylosowane z populacji mających taki sam rozkład normalny, to zmienna $t$ określona wzorem:
$t={\frac {{\overline {X}}_{1}-{\overline {X}}_{2}}{\sqrt {n_{1}s_{1}^{2}+n_{2}s_{2}^{2}}}}{\sqrt {{\frac {n_{1}n_{2}}{n_{1}+n_{2}}}(n_{1}+n_{2}-2)}}$

ma rozkład Studenta o $\nu =n_{1}+n_{2}-2$ stopniach swobody.

Rozkład t jest stosowany w estymacji przedziałowej, w testach parametrycznych, w szczególności dla wartości średnich i dla wariancji oraz w testach istotności parametrów statystycznych – gdy mamy do czynienia z próbami małymi (najczęściej arbitralnie przyjmuje się, że próba jest mała gdy jej liczebność $n\leqslant 30$ ).

W metrologii rozkład Studenta wykorzystywany jest m.in. przy estymacji odchylenia standardowego (dla pojedynczego pomiaru oraz wartości oczekiwanej). Dla dużych prób (n > 30) praktycznie pokrywa się z rozkładem normalnym, dla mniejszych estymator odchylenia należy pomnożyć przez wartość krytyczną rozkładu Studenta dla liczby stopni swobody $\nu =n-1$ i przyjętego poziomu istotności $\alpha .$

Najczęściej potrzebne są w zastosowaniach kwantyle rozkładu Studenta, to znaczy takie wartości $t_{\alpha },$ że $P(t>t_{\alpha })=\alpha$ lub $P(|t|<t_{\alpha })=\alpha .$ Wartości te podają tablice rozkładu Studenta.

Bibliografia[edytuj | edytuj kod]

Zieliński R., Tablice statystyczne, PWN, Warszawa 1972.

Linki zewnętrzne[edytuj | edytuj kod]

VassarStats. vassarstats.net. [zarchiwizowane z tego adresu (2016-03-04)]. Wykresy gęstości, wartości krytyczne i in. obliczane dla podanej przez użytkownika liczby stopni swobody.
Earliest Known Uses of Some of the Words of Mathematics (S). [dostęp 2009-05-27]. (ang.). (O historii terminu „Rozkład Studenta”)
Distribution Calculator Kalkulator obliczający prawdopodobieństwa i wartości krytyczne dla rozkładu normalnego, Studenta, chi-kwadrat oraz F
Kalkulator rozkładu – polski kalkulator online szacujący wartość statystyki t Studenta dla zadanej liczby stopni swobody
Tablice podstawowych rozkładów rachunku prawdopodobieństwa

Rozkłady ciągłe	arcusa sinusa beta Cauchy’ego chi chi kwadrat Dirichleta Erlanga F Snedecora Fishera-Tippetta gamma jednostajny ciągły Laplace’a logarytmicznie normalny logistyczny normalny (wielowymiarowy normalny) Pareta Rayleigha Studenta trójkątny Voigta Weibulla wykładniczy
Rozkłady dyskretne	Benforda dwumianowy Rozkład dwupunktowy dzeta geometryczny hipergeometryczny jednostajny dyskretny Rozkład jednopunktowy Panjera Pascala (ujemny dwumianowy) Poissona zero-jedynkowy

Rozkład Studenta, rozkład t Studenta
Gęstość prawdopodobieństwa
Dystrybuanta
Parametry	$\nu >0$ stopni swobody (liczba rzeczywista)
Nośnik	$x\in (-\infty ;+\infty )$
Gęstość prawdopodobieństwa	${\frac {\Gamma ({\frac {\nu +1}{2}})}{{\sqrt {\nu \pi }}\,\Gamma ({\frac {\nu }{2}})}}\left(1+{\frac {x^{2}}{\nu }}\right)^{-({\frac {\nu +1}{2}})}$
Dystrybuanta	${\begin{matrix}{\frac {1}{2}}+x\Gamma \left({\frac {\nu +1}{2}}\right)\cdot \\[0.5em]{\frac {\,_{2}F_{1}\left({\frac {1}{2}},{\frac {\nu +1}{2}};{\frac {3}{2}};-{\frac {x^{2}}{\nu }}\right)}{{\sqrt {\pi \nu }}\,\Gamma ({\frac {\nu }{2}})}}\end{matrix}}$ gdzie $_{2}F_{1}$ jest funkcją hipergeometryczną
Wartość oczekiwana (średnia)	$0{\text{ dla }}\nu >1,$ w przeciwnym wypadku nieokreślona
Mediana	$0$
Moda	$0$
Wariancja	${\frac {\nu }{\nu -2}}{\text{ dla }}\nu >2,$ w przeciwnym wypadku nieokreślona
Współczynnik skośności	$0{\text{ dla }}\nu >3$
Kurtoza	${\frac {6}{\nu -4}}{\text{ dla }}\nu >4$
Entropia	${\begin{matrix}{\frac {\nu +1}{2}}\left[\psi ({\frac {1+\nu }{2}})-\psi ({\frac {\nu }{2}})\right]\\[0.5em]+\ln {\left[{\sqrt {\nu }}B({\frac {\nu }{2}},{\frac {1}{2}})\right]}\end{matrix}}$ $\psi {:}$ funkcja digamma $B{:}$ funkcja beta
Funkcja tworząca momenty	(nieokreślona)
Odkrywca	William Sealy Gosset (1908)