Przejdź do zawartości

Przedział predykcji

Z Wikipedii, wolnej encyklopedii

Przedział predykcji – wyznaczone na podstawie zebranych danych oszacowanie zakresu, w którym z ustalonym prawdopodobieństwem (równym ) będzie mieścić się nowa obserwacja pochodząca z badanej populacji. Przedziały predykcji to narzędzie wnioskowania statystycznego. Są one używane przede wszystkim, ale nie wyłącznie, w analizie regresji.

Przedział predykcji na podstawie próby losowej

[edytuj | edytuj kod]

Załóżmy, że z populacji, co do której w przybliżeniu możemy założyć rozkład normalny, pobrano -elementową prostą próbę losową. W takiej sytuacji przedział predykcji dla nowej obserwacji pochodzącej z tej samej populacji można wyznaczyć na podstawie wzoru[1]:

,

gdzie to średnia z próby, to odchylenie standardowe z próby, zaś to kwantyl rzędu rozkładu t Studenta z stopniami swobody.

Warto zauważyć, że przedział predykcji jest zwykle dużo szerszy niż analogiczny przedział ufności dla średniej wyrażony podobnym wzorem: . Jest tak dlatego, że przedział ufności stanowi oszacowanie średniej, a przedział predykcji oszacowanie pojedynczej nowej wartości z populacji.

Przedział predykcji w regresji prostej

[edytuj | edytuj kod]

Korzystając z modelu regresji prostej (regresji liniowej z jedną zmienną objaśniającą), można prognozować wartość zmiennej objaśnianej dla nowej obserwacji pochodzącej z populacji na podstawie wzoru[2]:

gdzie to wartość zmiennej objaśniającej nowej obserwacji, to prognoza punktowa zmiennej objaśnianej, to liczba obserwacji wykorzystanych do zbudowania modelu (liczebność próby), to średnia wartość zmiennej objaśniającej w próbie, to kwantyl rzędu rozkładu t Studenta z stopniami swobody, zaś to pierwiastek ze średniego kwadratu różnicy reszt :

Przedział predykcji w regresji wielorakiej

[edytuj | edytuj kod]

Dla modelu regresji wielorakiej przedział predykcji możemy wyznaczyć, stosując wzór[3]:

,

gdzie to wektor zmiennych objaśniających nowej obserwacji (z elementem równym jeden odpowiadającym wyrazowi wolnemu, zwykle na pierwszej pozycji), to prognoza punktowa zmiennej objaśnianej, to liczba obserwacji wykorzystanych do zbudowania modelu (liczebność próby), to liczba zmiennych objaśniających, to macierz układu zawierająca kolumnę jedynek odpowiadającą wyrazowi wolnemu oraz wartości zmiennych objaśniających (w kolumnach) dla obserwacji (w wierszach), to kwantyl rzędu rozkładu t Studenta z stopniami swobody, zaś to pierwiastek ze średniego kwadratu różnicy reszt wyznaczonego za pomocą wzoru:

.

Zobacz też

[edytuj | edytuj kod]

Przypisy

[edytuj | edytuj kod]
  1. Ron N. Forthofer, Eun Sul Lee, Mike Hernandez, Biostatistics: a guide to design, analysis, and discovery, wyd. 2nd ed, Burlington, MA: Elsevier Academic Press, 2007, s. 169–212, ISBN 978-0-12-369492-8 [dostęp 2024-07-28].
  2. Linear Regression, [w:] Ronald N. Forthofer, Eun Sul Lee, Mike Hernandez, Biostatistics (Second Edition), Elsevier, 2007, s. 349–386, DOI10.1016/b978-0-12-369492-8.50018-2, ISBN 978-0-12-369492-8 [dostęp 2024-07-28].
  3. Chapter 9 - REGRESSION, [w:] Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and Scientists (Fourth Edition), Elsevier, 2009, s. 353–439, DOI10.1016/b978-0-12-370483-2.00014-x, ISBN 978-0-12-370483-2 [dostęp 2024-07-28].