Estymator Kaplana-Meiera

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Estymator Kaplana-Meiera – używany w statystycznej analizie przeżycia estymator prognozujący funkcję przeżycia. W badaniach medycznych może być użyty np. do przewidywania frakcji pacjentów, którzy przeżyją określony czas po operacji. Ekonomista może szacować czas jaki ludzie pozostają bezrobotni po utracie pracy. Inżynier może mierzyć czas do awarii urządzenia.

Wykres estymaty Kaplana-Meiera funkcji przeżycia składa się z szeregu poziomych odcinków, schodzących coraz niżej (funkcja schodkowa). Coraz większa próba statystyczna powoduje powstanie coraz większej liczby coraz krótszych odcinków, w granicy dążąc do prawdziwej funkcji przeżycia.

Przykład wykresu estymaty Kaplana-Meiera dla dwóch prób pacjentów

Ważną zaletą estymatora Kaplana-Meiera jest branie pod uwagę obserwacji cenzorowanychbraków danych od pewnego momentu czasu, różnego dla każdego obserwowanego obiektu (np. w przypadku odejścia pacjenta ze szpitala, utraty kontaktu z badanym, itp.).

W statystyce medycznej typowe zastosowanie może obejmować podział pacjentów na grupy różniące się tylko jedną cechą, np. występowaniem określonego genu, albo podawaniem innego leku. Na wykresie pacjenci z grupy B umierają znacznie szybciej niż z grupy A. Po dwóch latach 80% pacjentów z grupy A ciągle żyje, a z grupy B mniej niż połowa.

Obliczanie[edytuj | edytuj kod]

Niech S(t) będzie prawdopodobieństwem, że element populacji przeżyje co najmniej t. Uporządkujmy N-elementową próbę z tej populacji według czasu przeżycia:

t_1 \le t_2 \le t_3 \le \cdots \le t_N.

Z każdym t_i związana jest liczba n_i tych, o których wiemy że dożyli do tego momentu oraz d_i, liczba śmierci w momencie t_i. Warto zauważyć, że odległości pomiędzy kolejnymi momentami t_i zwykle nie będą stałe. Na przykład jeśli rozpatrujemy 10 przypadków, ze śmiercią w dniu 3, utratą kontaktu (obserwacja cenzorowana) w dniu 9 i kolejną śmiercią w dniu 11, to wówczas:

t_1=3, n_1=10, d_1=1\;
t_2=11, n_2=8, d_2=1\;

Estymator Kaplana-Meiera to nieparametryczny estymator największej wiarygodności S(t). Jest to iloczyn postaci:

\hat S(t) = \prod\limits_{t_i<t} {\frac{n_i-d_i}{n_i}}

Alternatywną, używaną niekiedy definicją jest:

\hat S(t) = \prod\limits_{t_i \le t} {\frac{n_i-d_i}{n_i}}

Definicje różnią się tylko warunkiem na czas. W pierwszej estymator jest funkcją lewostronnie ciągłą a w drugiej funkcją prawostronnie ciągłą.

Niech T będzie zmienną losową mierzącą czas życia a F(t) jej dystrybuantą. Wówczas:

 S(t) = P[T>t] = 1-P[T \le t] = 1-F(t)

Stąd definicja z ciągłością prawostronną może być preferowana, gdy chcemy uzyskać prawostronnie ciągłą estymatę dystrybuanty.

Wariancja[edytuj | edytuj kod]

Stworzono wiele różnych wzorów dla celów estymacji wariancji estymatora Kaplana-Meiera. Jednym z najczęściej używanych jest wzór Greenwooda:

 \widehat{\operatorname{Var}}( \widehat S(t) ) = \widehat S(t)^2 \sum\limits_{t_i<t} {\frac{{d_i}}{{n_i}({n_i-d_i})}}.

Porównywanie estymat[edytuj | edytuj kod]

W niektórych przypadkach potrzebne jest porównanie dwóch różnych krzywych przeżycia otrzymanych z estymatora Kaplana-Meiera. Można to zrobić na wiele sposobów, w szczególności:

Bibliografia[edytuj | edytuj kod]

  1. Kaplan, E.L.; Meier, Paul. "Nonparametric estimation from incomplete observations." J. Am. Stat. Assoc. 53, 457-481 (1958)
  2. Kaplan, E.L na temat tej pracy w "This week's citation classic". Current Contents 24, 14 (1983). Dostępne w UPenn jako PDF.
  3. Greenwood M. The natural duration of cancer. Reports on Public Health and Medical Subjects. London: Her Majesty's Stationery Office 1926;33:1-26.

Linki zewnętrzne[edytuj | edytuj kod]