Metoda zmiennych instrumentalnych

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania
Graf skierowany z czterema elementami: instrument I wpływa przyczynowo na objaśnienie X, które wpływa z kolei na skutek Y. Towarzyszy im zakłócenie Z, wpływające i na X, i Y.
Model przyczynowy związku zmiennej objaśniającej X i objaśnianej Y, w obecności zmiennej zakłócającej Z, i zmiennej instrumentalnej I.

Metoda zmiennych instrumentalnychquasi-eksperymentalna technika statystycznej analizy danych we wnioskowaniu przyczynowym, która pozwala na przeciwdziałanie błędom estymacji wprowadzanym przez zmienne zakłócające, dzięki temu że pomocniczo wykorzystuje zmienność zewnętrznych czynników wolnych od ich wpływu – tzw. zmiennych instrumentalnych[1][2].

Bezpośredni związek przyczynowy zmiennej objaśniającej i objaśnianej może być trudny do wyodrębnienia, jeśli w modelu przyczynowym zjawiska obecne są skorelowane z nimi obiema zmienne zakłócające. Obserwowana współzmienność (korelacja) może być w skrajnych przypadkach wręcz zupełnie „pozorna” – to znaczy, może istnieć naprawdę, ale wynikać w całości z przyczynowego wpływu zmiennych zakłócających, a nie postulowanej zmiennej objaśniającej. Jest to charakterystyczny przykład tzw. problemu pominiętych zmiennych[1][2][3].

Prawidłowo wybrana zmienna instrumentalna jest silnie związana ze zmienną objaśniającą, ale niezależna od zmiennych zakłócających. Pozwala dzięki temu na zidentyfikowanie i odizolowanie tej części współzmienności badanych czynników, która jest warunkowo niezależna od zakłóceń. Omija konieczność realizowania – nie zawsze możliwego z powodów praktycznych lub etycznych – randomizowanego eksperymentu kontrolnego. Stosowne zmienne instrumentalne mogą także pomóc w analizie danych z eksperymentów, w których doszło do nielosowego wykruszania się uczestników[1][2].

Przykład[edytuj | edytuj kod]

Przegląd historii techniki dokonany przez Angrista i Kruegera przypisał jej pierwsze zastosowanie i matematyczny opis Phillipowi i Sewallowi Wrightowi w latach 1920 w pracy dla Brookings Institution (ówcz. Institute of Economics) poświęconej oszacowaniu elastyczności podaży i popytu produktów rolniczych. Nazwę narzędzia wprowadził w 1945 statystyk Olav Reiersøl[2]. Pearl uznaje jednak za wcześniejsze użycie i interesujący przykład metody pochodzące z ok. 1854 analizy lekarza Johna Snowa dotyczące epidemii cholery w Londynie[3].

W czasie epidemii cholery w 1854 mechanizmy odpowiedzialne za szerzenie się chorób były jeszcze bardzo słabo znane. Popularna pozostawała teoria miazmy, doszukująca się przyczyn większości zaraz w morowym powietrzu. Choć w przypadku niektórych patogenów przewidywania i zalecenia płynące z tej teorii okazywały się skuteczne, cholera przenosi się głównie przez zanieczyszczoną wodę pitną, i wymaga zupełnie innych interwencji. Powierzchowna analiza danych nie ułatwiała jednak dostrzeżenia prawdziwych zależności, bo chorobie tej faktycznie towarzyszyła często zaduch i bieda[3][4].

Snow zauważył, że choć nie jest w stanie bezpośrednio powiązać ognisk cholery z jakością wody (a tym bardziej w sposób, który jednoznacznie odróżniałby ją od jakości powietrza), to może spróbować zidentyfikować rożne kategorie jakości wody poprzez porównanie firm wodociągowych. Odkrył dzięki temu, że konkurujące ze sobą firmy dostarczają wodę do większości dzielnic miasta – niezależnie od „jakości powietrza”, biedy, i innych postulowanych alternatywnych wyjaśnień – i jedna z nich jest szczególnie związana z występowaniem cholery. Okazało się, że jej ujęcie wody leży w niewielkiej odległości w dół Tamizy od dużego odpływu ścieków miejskich[3][4].

Opis matematyczny[edytuj | edytuj kod]

W standardowej regresji liniowej metodą najmniejszych kwadratów (ang. OLS), jeśli to macierz obserwacji zmiennych objaśniających, a to wektor błędu oszacowania, estymator efektu[1][2]:

jest nieobciążony i odpowiada asymptotycznie prawdziwemu efektowi przyczynowemu tylko jeśli spełniony jest szereg założeń – między innymi o braku korelacji i (tj. o braku systematycznego efektu zmiennych zakłócających)[1].

Aby uzyskać mniej obciążoną wartość parametru technika zmiennych instrumentalnych wprowadza dodatkową macierz obserwacji instrumentów (ang. IV), które są wysoce skorelowane z ale nie z

O ile korelacja instrumentu i błędu jest rzeczywiście zerowa, a wymiary macierzy i pozwalają na pełną wzajemną identyfikację, to estymator zmiennych instrumentalnych i hipotetyczny parametr są asymptotycznie równe:

Możliwe są także warianty, w których liczba instrumentów jest mniejsza lub większa od liczby zmiennych objaśniających, oraz nieparametryczne wersje metody.

Interpretacja i zastrzeżenia[edytuj | edytuj kod]

W przypadku słabej identyfikacji instrumentów czy heterogeniczności efektów precyzja uzyskanego oszacowania może być niska, i nie uprawniać do generalizacji na populacje różne od występujących w badaniu[1][5].

Przypisy[edytuj | edytuj kod]

  1. a b c d e f 4. Instrumental Variables in action [w:] Joshua Angrist, Jörn-Steffen Pischke, Mostly harmless econometrics: an empiricist’s companion, Princeton: Princeton University Press, 2009, ISBN 978-0-691-12034-8, OCLC 231586808 [dostęp 2019-03-22].
  2. a b c d e Joshua D Angrist, Alan B Krueger, Instrumental Variables and the Search for Identification: From Supply and Demand to Natural Experiments, „Journal of Economic Perspectives”, 15 (4), 2001, s. 69–85, DOI10.1257/jep.15.4.69, ISSN 0895-3309 [dostęp 2019-03-22] (ang.).
  3. a b c d 7. Beyond Adjustment: The Conquest of Mount Intervention [w:] Judea Pearl, Dana Mackenzie, The book of why: the new science of cause and effect, wyd. First edition, New York, NY , 15 maja 2018, sekcja „The curious case(s) of Dr. Snow”, ISBN 978-0-465-09760-9, OCLC 1003311466 [dostęp 2019-03-22].
  4. a b Nieeksperymentalne ustalenie przyczyny – studium przypadku [w:] Paweł Kawalec, Przyczyna i wyjaśnianie: studium z filozofii i metodologii nauk, Lublin: KUL, 2006, ISBN 83-7363-362-6, OCLC 162507559 [dostęp 2019-03-24].
  5. Guido W. Imbens, Joshua D. Angrist, Identification and Estimation of Local Average Treatment Effects, „Econometrica”, 62 (2), 1994, s. 467–475, DOI10.2307/2951620, ISSN 0012-9682, JSTOR2951620 [dostęp 2019-03-22].