Przedział ufności

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Przedział ufności jest podstawowym narzędziem estymacji przedziałowej. Pojęcie to zostało wprowadzone do statystyki przez polsko-amerykańskiego matematyka Jerzego Spławę-Neymana.

Definicja[edytuj | edytuj kod]

Niech cecha X ma rozkład w populacji z nieznanym parametrem θ. Z populacji wybieramy próbę losową (X1, X2, ..., Xn). Przedziałem ufności o współczynniku ufności 1 − α nazywamy taki przedział 1, θ2), który spełnia warunek:

P(\theta_1 < \theta < \theta_2) = 1 - \alpha

gdzie θ1 i θ2 są funkcjami wyznaczonymi na podstawie próby losowej.

Podobnie jak w przypadku estymatorów definicja pozwala na dowolność wyboru funkcji z próby, jednak tutaj kryterium wyboru najlepszych funkcji narzuca się automatycznie – zazwyczaj będziemy poszukiwać przedziałów najkrótszych.

Współczynnik ufności 1 − α jest wielkością, którą można interpretować w następujący sposób: jest to prawdopodobieństwo wyznaczenia takiego przedziału, że rzeczywista wartość parametru θ w populacji znajdzie się w tym przedziale. Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza dokładność estymacji parametru. Im mniejsza wartość 1 − α, tym większa dokładność estymacji, ale jednocześnie tym większe prawdopodobieństwo popełnienia błędu. Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a ryzykiem błędu. W praktyce przyjmuje się zazwyczaj wartości: 0,99; 0,95 lub 0,90, zależnie od parametru.

Przykłady przedziałów ufności[edytuj | edytuj kod]

Ponieważ szukamy jak najkrótszych przedziałów ufności, dlatego przy wyznaczaniu przedziału staramy się wykorzystać jak najwięcej dostępnych informacji o rozkładzie cechy w populacji. Jeśli np. cecha ma rozkład normalny z odchyleniem standardowym σ, to zastosowanie wzoru na przedział ufności dla nieznanego σ również da poprawny wynik, jednak przedział otrzymany tą metodą będzie szerszy, czyli mniej dokładny. Z kolei wzory ogólniejsze, np. dla nieznanego rozkładu, często korzystają z rozkładów granicznych estymatorów i dlatego wymagają dużej liczebności próby.

Przedział ufności dla średniej[edytuj | edytuj kod]

Znane odchylenie standardowe[edytuj | edytuj kod]

Cecha ma w populacji rozkład normalny N(m, σ), przy czym odchylenie standardowe σ jest znane. Przedział ufności dla parametru m tego rozkładu ma postać:

P \left( \overline{X} - u_{\alpha} \frac{\sigma}{\sqrt{n}} < m < \overline{X} + u_{\alpha} \frac{\sigma}{\sqrt{n}} \right) = 1 - 2\alpha

lub równoznacznie:

P\left( \overline{X} - u_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} < m < \overline{X} + u_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right) = 1 - \alpha

gdzie:

  • n to liczebność próby losowej
  • \overline{X} oznacza średnią z próby losowej
  • σ to odchylenie standardowe populacji
  • u_{\alpha} jest statystyką, spełniającą warunek:
P(- u_{\alpha} < U < u_{\alpha}) = 1 - \alpha, gdzie U jest zmienną losową o rozkładzie normalnym N(0, 1).
  • u_{\frac{\alpha}{2}} oraz u_{1 - \frac{\alpha}{2}} to kwantyle rzędów odpowiednio \frac{\alpha}{2} i 1 - \frac{\alpha}{2} rozkładu N(0, 1).

Nieznane odchylenie standardowe[edytuj | edytuj kod]

Cecha ma w populacji rozkład normalny N(m, σ), przy czym odchylenie standardowe σ jest nieznane. Przedział ufności dla parametru m tego rozkładu ma postać:

P \left( \overline{X} - t_{1 - \frac{\alpha}{2}} \frac{S}{\sqrt{n-1}} < m < \overline{X} + t_{1 - \frac{\alpha}{2}} \frac{S}{\sqrt{n-1}} \right) = 1 - \alpha

gdzie:

  • n to liczebność próby losowej
  • \overline{X} oznacza średnią z próby losowej
  • S to odchylenie standardowe z próby

Zwykle stosuje się ten wzór dla małej próby (n<30). Tak naprawdę działa on dla każdej wielkości próby, jednak dla dużych prób można przybliżyć rozkład t Studenta rozkładem normalnym, co jest łatwiejsze do wyliczenia a dające niemal takie same wartości (patrz niżej).

Nieznane odchylenie standardowe – Duża próba (n>30)[edytuj | edytuj kod]

Cecha ma w populacji rozkład normalny N(m, σ), przy czym odchylenie standardowe σ jest nieznane, a próba jest duża (n>30). Granica 30 jest czysto umowna, im n jest większe, tym wzór dokładniejszy. Przedział ufności dla parametru m tego rozkładu ma postać:

P \left( \overline{X} - u_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} < m < \overline{X} + u_{1-\frac{\alpha}{2}} 
 \frac{S}{\sqrt{n}} \right) = 1 - \alpha

gdzie:

  • n to liczebność próby losowej dzielona peze x
  • \overline{X} oznacza średnią z próby losowej
  • S to odchylenie standardowe z próby
  • u_{1-\frac{\alpha}{2}} jest statystyką ze zmienną losową o rozkładzie normalnym N(0, 1).

Przedział ufności dla wariancji[edytuj | edytuj kod]

Poniższy wzór pozwala wyznaczyć przedział ufności dla wariancji w populacji o rozkładzie normalnym N(m, σ)

P \left( \frac{nS^2}{\chi^{2}_{1 - \frac{\alpha}{2}, n - 1}} < \sigma^2 < \frac{nS^2}{\chi^{2}_{\frac{\alpha}{2}, n - 1}} \right)= 1 - \alpha

gdzie:

  • n to liczebność próby losowej
  • S to odchylenie standardowe z próby
  • \chi^{2}_{\frac{\alpha}{2}, n - 1} i \chi^{2}_{1 - \frac{\alpha}{2}, n - 1} to statystyki spełniające odpowiednio równości:
P \left( \chi^2 \ge \chi^{2}_{\frac{\alpha}{2}, n - 1} \right) = \frac{\alpha}{2}
P \left( \chi^2 \ge \chi^{2}_{1 - \frac{\alpha}{2}, n - 1} \right) = 1 - \frac{\alpha}{2}

gdzie \chi^2 ma rozkład chi-kwadrat z n - 1 stopniami swobody

Podobnie jak poprzednio zwykle stosuje się ten wzór dla małej próby (n<30), choć również działa on dla każdej wielkości próby.

Duża próba (n>30)[edytuj | edytuj kod]

Poniższy wzór pozwala wyznaczyć przedział ufności dla wariancji w populacji o rozkładzie normalnym N(m, σ) dla dużej próby, czyli umownie dla n>30.

P \left( \frac{S}{1+ \frac{u_{\alpha}}{\sqrt{2n}}} < \sigma < \frac{S}{1 - \frac{u_{\alpha}}{\sqrt{2n}}} \right)= 1 - \alpha

gdzie:

  • n to liczebność próby losowej
  • S to odchylenie standardowe z próby
  • u_{\alpha} jest statystyką, spełniającą warunek:
P(- u_{\alpha} < U < u_{\alpha}) = 1 - \alpha

gdzie U jest zmienną losową o rozkładzie normalnym N(0, 1).

Przedział ufności dla odsetka (wskaźnik struktury)[edytuj | edytuj kod]

Poniższy wzór pozwala wyznaczyć przedział ufności dla odsetka w populacji o rozkładzie normalnym N(m, σ)

P \left( \frac{m}{n}-u_{\alpha} \sqrt{\frac{\frac{m}{n}(1-\frac{m}{n})}{n}} < p < \frac{m}{n}+u_{\alpha} \sqrt{\frac{\frac{m}{n}(1-\frac{m}{n})}{n}} \right)= 1 - \alpha

gdzie:

  • n to liczebność próby losowej
  • m to liczebność wybranej grupy z próby
  • u_{\alpha} jest statystyką, spełniającą warunek:
P(- u_{\alpha} < U < u_{\alpha}) = 1 - \alpha gdzie U jest zmienną losową o rozkładzie normalnym N(0, 1).

Przedział ufności dla współczynnika korelacji[edytuj | edytuj kod]

Poniższy wzór pozwala wyznaczyć przedział ufności dla współczynnika korelacji w populacji o rozkładzie normalnym N(m, σ). Tak jak poprzednio działa on dla dowolnej próby choć jest zwykle stosowany tylko dla prób małych, n<30.

P \left( Z-u_{\alpha} \frac{1}{\sqrt{n-3}} < \rho < Z+u_{\alpha} \frac{1}{\sqrt{n-3}} \right)= 1 - \alpha

gdzie:

  • n to liczebność próby losowej
  • u_{\alpha} jest statystyką, spełniającą warunek:
P(- u_{\alpha} < U < u_{\alpha}) = 1 - \alpha gdzie U jest zmienną losową o rozkładzie normalnym N(0, 1).
  • Z=  \frac{1}{2}\ln\frac{1+r}{1-r}
  • r to współczynnik korelacji

Duża próba (n>30)[edytuj | edytuj kod]

Poniższy wzór pozwala wyznaczyć przedział ufności dla współczynnika korelacji w populacji o rozkładzie normalnym N(m, σ)

P \left( r-u_{\alpha} \frac{1-r^2}{\sqrt{n}} < \rho < r+u_{\alpha} \frac{1-r^2}{\sqrt{n}} \right)= 1 - \alpha

gdzie:

  • n to liczebność próby losowej
  • u_{\alpha} jest statystyką, spełniającą warunek:
P(- u_{\alpha} < U < u_{\alpha}) = 1 - \alpha gdzie U jest zmienną losową o rozkładzie normalnym N(0, 1).
  • r to współczynnik korelacji

Przedział ufności dla współczynnika α1[edytuj | edytuj kod]

Poniższy wzór pozwala wyznaczyć przedział ufności dla współczynnika α1 w populacji o rozkładzie normalnym N(m, σ)

P \left( a_{1}-t_{\alpha} \frac{s_{u}}{\sqrt{\sum_{i=1}^{n}(X_{i}-\overline{X})^2}} < \alpha_{1} < a_{1}+t_{\alpha} \frac{s_{u}}{\sqrt{\sum_{i=1}^{n}(X_{i}-\overline{X})^2}} \right)= 1 - \alpha

gdzie:

Minimalna liczebność próby[edytuj | edytuj kod]

Jeśli chcemy oszacować parametr z określoną dokładnością d, możemy, po odpowiednich przekształceniach wzorów na przedziały ufności, wyznaczyć liczebność próby losowej potrzebną do osiągnięcia zakładanej dokładności.

Przykład: Wiemy, że wzrost Wikipedystów ma rozkład normalny z odchyleniem standardowym 25,28 cm (dane chyba nieprawdziwe). Obliczmy ilu Wikipedystów wystarczy zmierzyć, aby z prawdopodobieństwem 95% wyznaczyć średni wzrost Wikipedysty z dokładnością do 5 cm.

Jeśli chcemy uzyskać dokładność 5 cm, należy zadbać o to, aby połowa długości przedziału ufności była mniejsza lub równa niż 5 cm. Ze wzoru na przedział ufności dla rozkładu normalnego o znanym odchyleniu standardowym wynika, że dokładność estymacji powinna spełniać zależność:

d \ge u_{\alpha} \frac{\sigma}{\sqrt{n}}

Przekształcamy podaną nierówność uzyskując pożądany wzór na liczebność próby:

n \ge \frac{u_\alpha^2 \sigma^2}{d^2}

Podstawiając do wzoru wartości σ = 25,28; d = 5 cm; uα = 1,96 (wartość obliczona na podstawie tablic rozkładu normalnego), uzyskujemy minimalną wielkość próby na poziomie 99 Wikipedystów.

Zobacz też[edytuj | edytuj kod]