Twierdzenie de Moivre'a-Laplace'a

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania
Wraz ze wzrostem liczby prób \scriptstyle n wykres rozkładu dwumianowego co raz bardziej przypomina wykres krzywej Gaussa.

Twierdzenie de Moivre'a-Laplace'a – dwa twierdzenia rachunku prawdopodobieństwa nazywane lokalnym i całkowym (integralnym) wskazujące związek rozkładu dwumianowego (Bernoulliego) z rozkładem normalnym; można traktować go jako szczególny przypadek centralnego twierdzenia granicznego.

Przypadek symetryczny pochodzi z wydrukowanej w 1730 roku pracy Miscellanea analytica de seriebus et quadraturis („Rozmaite analityka o szeregach i kwadraturach”)[1] od Abrahama de Moivre'a, a niesymetryczny – z opublikowanego w trzy lata później dodatku Miscelaneis analyticis supplementum z 1733 roku; szerszej publiczności twierdzenia zaprezentowane zostały w drugim wydaniu dzieła The Doctrine of Chances: or, a method for calculating the probabilities of events in play („Doktryna szans: lub, metoda obliczania prawdopodobieństw zdarzeń w grze”) z 1738 roku. Twierdzenie w pełnej ogólności udowodnił Pierre Simon de Laplace w pracy Théorie analytique des probabilités („Analityczna teoria prawdopodobieństw”) z 1812 roku, który nie miał w zwyczaju powoływać się na źródła – z tego powodu do XX wieku prace Moivre'a były szerzej nieznane[2].

Twierdzenia de Moivre'a-Laplace'a[edytuj | edytuj kod]

Oznaczenia
Niech \scriptstyle B(n, p) oznacza rozkład dwumianowy dla procesu Bernoulliego, w którym prawdopodobieństwo osiągnięcia dokładnie \scriptstyle k sukcesów o prawdopodobieństwie \scriptstyle p w \scriptstyle n próbach dane jest wzorem
B_k(n, p) = \mathbb P(S_n = k) = \tbinom{n}{k} p^k q^{n-k},
gdzie \scriptstyle q = 1 - p jest prawdopodobieństwem porażki, a \scriptstyle S_n oznacza liczbę sukcesów; ponadto niech \scriptstyle \mu = np oraz \scriptstyle \sigma = \sqrt{npq} oznaczają odpowiednio wartość oczekiwaną i odchylenie standardowe tego rozkładu.
Rozpatrywana będzie unormowana wersja powyższego rozkładu, tzn. jego wartość oczekiwana będzie równa zeru, a jego wariancja (odchylenie standardowe) będzie jednostkowa, czyli zamiast liczby sukcesów \scriptstyle S_n rozważana będzie jej unormowana wersja \scriptstyle S_n^* = \frac{S_n - \mu}{\sigma}. W związku z tym niżej stosowane będą również następujące oznaczenia: \scriptstyle h = \frac{1}{\sigma} to szerokość przedziału klasowego, \scriptstyle k^* = \frac{k - \mu}{\sigma} to unormowane odchylenie liczby sukcesów od średniej; wygodnie będzie zakładać, że \scriptstyle k nie musi być naturalne – w szczególności \scriptstyle k_\pm = k \pm \frac12, skąd \scriptstyle k^*_\pm = k \pm \frac12h.
Funkcja \scriptstyle \varphi(t) = \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{t^2}{2}\right) będzie oznaczać gęstość unormowanego rozkładu normalnego \scriptstyle N(0, 1) o dystrybuancie \scriptstyle \Phi, podczas gdy \scriptstyle \varphi_*(t) = h \varphi(t^*) = \frac{1}{\sigma \sqrt{2\pi}} \exp\left(-\frac{(t - \mu)^2}{2\sigma^2}\right) będzie oznaczać gęstość rozkładu normalnego \scriptstyle N(\mu, \sigma) o dystrybuancie \scriptstyle \Phi_*(x) = \Phi(x^*).
Twierdzenie lokalne
Jeżeli \scriptstyle h |k^*| \max(p, q) \leqslant \frac12, to
B_k(n, p) = h \varphi(k^*) \cdot e^{R(n, k)},
gdzie
\bigl|R(n, k)\bigr| \leqslant \tfrac{3}{4} |k^*| h + \tfrac{1}{3} |k^*|^3 h + \tfrac{1}{3n}.
W szczególności \scriptstyle R(n, k) \to 0 dla \scriptstyle n, k \to \infty, czyli
\mathbb P(S_n = k) \sim \varphi_*(k).
Twierdzenie całkowe
Jeżeli \scriptstyle h \max\bigl(|a^*|, |b^*|\bigr) \max(p, q) \leqslant \frac12, to
\mathbb P(a \leqslant S_n \leqslant b) = \Big(\Phi\!\left(b^*_+\right) - \Phi\!\left(a^*_-\right)\!\!\Big) \cdot e^{D(n, a, b)},
gdzie
\bigl|D(n, a, b)\bigr| \leqslant \max_{k \in \{a, b\}} \Big(\tfrac{5}{4} |k^*| h + \tfrac{1}{3} |k^*|^3 h\Big) + \tfrac{1}{3n} + \tfrac{1}{8} h^2.
W szczególności \scriptstyle D(n, a, b) \to 0 dla \scriptstyle n \to \infty oraz \scriptstyle a, b zmieniających się tak, by \scriptstyle h (a^*)^3,\ h (b^*)^3 \to 0, jest wtedy
\mathbb P(a \leqslant S_n \leqslant b) \sim \Phi_*(b_+) - \Phi_*(a_-);
zachodzi również następujące, mniej dokładne, ale prostsze, a przez to częściej stosowane, przybliżenie:
\mathbb P(a \leqslant S_n \leqslant b) \sim \Phi_*(b) - \Phi_*(a).

W zastosowaniach najczęściej spotyka się następujący wniosek z twierdzenia całkowego:

Wniosek
Jeżeli \scriptstyle a^*, b^* są stałe, to
\mathbb P(a^* \leqslant S_n^* \leqslant b^*) \sim \Phi\!\left(b_+^*\right) - \Phi\!\left(a_-^*\right).

Przykłady[edytuj | edytuj kod]

Liczebność próby
Twierdzenie de Moivre'a-Laplace'a można wykorzystać do określenia minimalnej liczebności próby losowej z danej populacji w danym badaniu mającym na celu jak najbardziej miarodajne oszacowanie danej obserwacji, która zachodzi z pewnym prawdopodobieństwem, bądź nie (tj. zachodzącej zgodnie z rozkładem zero-jedynkowym). Przykładowo: w badaniu przesiewowym choroby, która jest na tyle rzadka, że nie choruje na nią więcej niż \scriptstyle 0{,}5% populacji, przy czym błąd ma być mniejszy niż \scriptstyle 0{,}001 z prawdopodobieństwem \scriptstyle 0{,}95, w celu wskazania chorych z ustaloną pewnością należałoby wybrać próbę co najmniej \scriptstyle 19\,112-osobową[3].
Reguła 3σ
Opierając się na twierdzeniu całkowym można się spodziewać, że reguła trzech sigm sformułowana dla rozkładu normalnego zachodzi również dla procesu Bernoulliego. Jedną z jej wersji jest
\mathbb P\bigl(S_n \in (\mu - 3\sigma, \mu + 3\sigma)\bigr) \geqslant 0{,}997,
o ile \scriptstyle \mu - 3\sigma > 0 oraz \scriptstyle \mu + 3\sigma < n, co można krótko zapisać \scriptstyle n > 9\max\left(\frac{p}{q}, \frac{q}{p}\right)[4].

Przypisy

  1. W pracy, którą autor przekazał jedynie kilku znajomym, pojawia się wzór postaci \scriptstyle n! \sim C \sqrt n n^n e^{-n}, gdzie \scriptstyle \ln C = 1 - \frac{1}{12} + \frac{1}{360} - \frac{1}{1260} + \frac{1}{1680} - \dots, który posłużył do wyprowadzenia opisanych w tym artykule twierdzeń, znany obecnie jako wzór Stirlinga, przy czym James Stirling zauważył jedynie, że \scriptstyle C = \sqrt{2\pi}, o czym autor wspomina w drugim wydaniu tej pracy 1933 roku z dwoma dodatkami.
  2. Szczegóły można znaleźć w artykułach Raymonda Clare Archibalda i Karla Pearsona z 1926 roku zebranych w tej pracy.
  3. Skoro \scriptstyle p oznacza prawdopodobieństwo zapadnięcia jednostki na daną chorobą, a \scriptstyle \frac{S_n}{n} jest oszacowaniem procenta chorych w populacji, to \scriptstyle \mathbb P\bigl(\left|\frac{S_n}{n} - p\right| \leqslant 0{,}001\bigr) \geqslant 0{,}95, skąd \scriptstyle \mathbb P\bigl(|S_n^*| \leqslant 0{,}001 \sqrt{\frac{n}{pq}}\bigr) \geqslant 0{,}95. W tablicach statystycznych można znaleźć, iż \scriptstyle \Phi(1{,}96) = 0{,}975 (gdyż wtedy \scriptstyle \Phi(1{,}96) - \Phi(-1{,}96) = 0{,}95), dlatego \scriptstyle n powinno spełniać warunek \scriptstyle \sqrt n \geqslant 1{,}96 \cdot 1000 \sqrt{pq}, a ponieważ \scriptstyle p \leqslant 0{,}005, to \scriptstyle pq przyjmuje największą wartość dla \scriptstyle p = 0{,}005, zatem \scriptstyle n \geqslant 19\,112.
  4. Dla przypadku symetrycznego \scriptstyle p = q = \frac12 oznacza to, że \scriptstyle n \geqslant 10; w przypadku \scriptstyle n = 10 prawdopodobieństwo wynosi \scriptstyle \frac{1022}{1024} \approx 0{,}99805; liczbę \scriptstyle 0{,}997 wzięto zapewne od popularnego oszacowania dla rozkładu normalnego, dla którego \scriptstyle \Phi(3) - \Phi(-3) = 0{,}9973\dots\,. Twierdzenie to można wzmacniać korzystając z wyników w rodzaju nierówności Bernsteina.