Heteroskedastyczność

Z Wikipedii, wolnej encyklopedii

Heteroskedastyczność (lub heteroscedastyczność[1]) – pojęcie z zakresu statystyki odnoszące się do ciągu lub wektora zmiennych losowych. Własność ta jest zaprzeczeniem posiadania przez taki ciąg lub wektor własności homoskedastyczności, tzn. przynajmniej jedna zmienna losowa z ciągu różni się od innych wariancją lub jej wariancja jest nieskończona. Heteroskedastyczność rozważa się w kontekście modeli ekonometrycznych, szczególnie przy estymacji metodą najmniejszych kwadratów, ze względu na jedno z założeń Klasycznego Modelu Regresji Liniowej, mówiącego o homoskedastyczności wariancji składnika losowego. Możemy wyróżnić heteroskedastyczność addytywną, gdy wariancja składnika losowego jest funkcją afiniczną zmiennych wpływających na jej wielkość, oraz heteroskedastyczność multiplikatywną, gdy wariancja przyjmuje postać wykładniczą.

Przyczyny[edytuj | edytuj kod]

Na wystąpienie heteroskedastyczności może mieć wpływ zarówno niepoprawna forma funkcyjna modelu, jak i ominięcie istotnych zmiennych. Przykładem jest model popytu, kiedy zainteresowanie danym produktem uzależniane jest jedynie od jego ceny. Wówczas wpływ cen pozostałych produktów oraz wielkość dochodu będzie uwzględniona w wielkości składnika losowego. Kolejnym istotnym czynnikiem mogącym wywołać heteroskedastyczność jest jakość zbioru danych. W tym przypadku wariancja błędu losowego może w istotny sposób wynikać z błędnych obserwacji. Sytuacja ta może mieć miejsce podczas opracowywania modelu wzrostu PKB. Wówczas bazowanie na danych z krajów postsowieckich czy Afryki może wiązać się z licznymi błędami i skutkować niepożądanym charakterem wariancji. Częstym powodem braku homoskedastyczności jest po prostu natura badanego zjawiska. Zauważyć to można podczas analizy wagi ciała. W grupie dzieci zaraz po urodzeniu wariancja jest niewielka, natomiast 10 lat później można się spodziewać, iż będzie ona znacznie wyższa. Ponadto wystąpienie heteroskedastyczności jest bardzo prawdopodobne w przypadkach, kiedy wysoka wartość zmiennej zależnej jest warunkiem koniecznym, ale niewystarczającym do osiągania wysokiej wartości zmiennej zależnej. Heteroskedastyczność częściej występuje w przypadku danych przekrojowych niż szeregów czasowych.

Skutki[edytuj | edytuj kod]

W przypadku występowania heteroskedastyczności uzyskane estymatory są nieobciążone i zgodne, ale nieefektywne. Obciążone mogą być natomiast estymatory wariancji składnika losowego, co wiąże się zazwyczaj z niedoszacowaniem średnich błędów estymatorów parametrów, nieprawidłowymi przedziałami ufności, a w konsekwencji prowadzi do błędnego wnioskowania statystycznego.

Testy na obecność heteroskedastyczności[edytuj | edytuj kod]

Nieformalnym sposobem na sprawdzenie istnienia heteroskedastyczności jest analiza graficzna reszt z modelu. Istnieje jednak wiele formalnych testów pozwalających zbadać hipotezę o istnieniu heteroskedastyczności:

Sposoby likwidacji heteroskedastyczności[edytuj | edytuj kod]

  • Dodanie nowych zmiennych wyjaśniających przyczyny niejednorodnej wariacji zmiennej zależnej przy niskich lub wysokich wartościach zmiennej niezależnej,
  • Transformacja zmiennej zależnej poprzez:
    • podzielenie zmiennej zależnej przez zmienna niezależną,
    • pomnożenie zmiennej zależnej przez zmienna niezależną,
    • logarytmowanie zmiennych,
    • pierwiastkowanie zmiennych,
  • Podział zbioru na podgrupy o jednorodnej wariancji,
  • Stosowanie specjalnych modeli ARCH.

Ponadto można zastosować następujące metody (nie likwidują heteroskedastyczności, ale minimalizują jej wpływ na poprawność oszacowań parametrów)

  • Ważona metoda najmniejszych kwadratów,
  • Odporny estymator White’a macierzy kowariancji.

Zobacz też[edytuj | edytuj kod]

Przypisy[edytuj | edytuj kod]

  1. Nazwa, z angielskiego „heteroskedasticity” lub „heteroscedasticity” pochodzi od dwóch greckich słów: hetero-, „różny”. oraz -skedannumi, „rozpraszać”; choć właściwa angielska pisownia sugeruje tłumaczenie 'kappa' jako 'k' w przypadku pojęć greckiego pochodzenia, to funkcjonuje także nazwa pisana przez 'c', używana chociażby w pracach Goldfelda i Quandta oraz Chowa

Bibliografia[edytuj | edytuj kod]

  • J. Huston McCulloch. On Heteroskedasticity. „Econometrica”. 53 (2). s. 483. 
  • Christopher Dougherty: Introduction to Econometrics. Oxford University Press, 2011, s. 280-299.