Próba reprezentatywna

Próba reprezentatywna – część populacji pozwalająca w przybliżeniu opisać całość populacji. Próba nie spełniająca tego warunku nazywana jest niereprezentatywną lub obciążoną.

Statystyka zajmuje się opisem populacji statystycznej. Jedynym sposobem na uzyskanie kompletnej wiedzy na temat badanej populacji jest zbadanie każdej jednostki należącej do populacji. Jednak w wielu sytuacjach zbadanie każdej jednostki populacji jest niemożliwe z przyczyn zasadniczych (np. kontrola jakości produkcji) lub niezwykle kosztowne (np. zbadanie opinii wszystkich obywateli Polski). Aby rozwiązać ten praktyczny problem wypracowano naukowe, oparte na logice i matematyce, zasady wnioskowania statystycznego pozwalające na podstawie próby wnioskować o całej populacji. Podstawowa zasada wnioskowania statystycznego mówi, że aby wnioskowanie o populacji na podstawie próby było poprawne próba badawcza musi być próbą reprezentatywną dla populacji na temat której chcemy formułować wnioski. Badanie wykonane na próbie reprezentatywnej nazywa się badaniem reprezentacyjnym.

Należy pamiętać, że badaną populacją w sensie statystycznym może być też część demograficznej populacji Polski. Na przykład badanie wykonane wyłącznie na reprezentatywnej próbie mężczyzn jest reprezentatywne, ale wyłącznie dla populacji mężczyzn mieszkających w Polsce. Ponadto, jeżeli chce się uzyskać wyniki reprezentatywne dla określonej populacji to niekoniecznie trzeba dobrać próbę reprezentatywną dokładnie dla tej populacji. Można równie dobrze dobrać próbę reprezentatywną dla populacji szerszej. Gdy dysponuje się próbą populacji szerszej niż rozważana można na potrzeby analiz wykluczyć elementy próby nienależące do rozważanej populacji (choć wymaga to wiedzy na temat każdej zbadanej jednostki, czy należy ona do rozważanej populacji) lub w trakcie realizacji badania „odsiewać” jednostki nienależące do populacji badanej. Przykładem mogłoby być badanie kierowców w Polsce. Jeżeli wylosowana zostanie próba reprezentatywna mieszkańców Polski, a dopiero na etapie realizacji badania na podstawie odpowiedzi respondentów na pytania wykluczane z próby zostaną osoby nieposiadające prawa jazdy, to powstała w ten sposób próba byłaby próbą reprezentatywną dla populacji kierowców mieszkających w Polsce. Podobnie w próbie Polaków można by wyodrębnić osoby posiadające prawo jazdy i przeprowadzić na nich analizy. Wyniki uzyskane na takiej podpróbie byłyby reprezentatywne dla populacji kierowców w Polsce.

Postulat reprezentatywności można realizować na różne sposoby. Poniżej prezentowane są główne podejścia w tej kwestii.

Reprezentatywność proceduralna

Podstawowym sposobem realizacji postulatu reprezentatywności próby jest uzyskanie próby losowanej. O próbie losowej mówi się, iż realizuje ona postulat reprezentatywności proceduralnej. Próba reprezentatywna proceduralnie to próba dobrana w taki sposób że:

dla każdej jednostki należącej do populacji określone i znane jest prawdopodobieństwo wylosowania do próby,
dla każdej jednostki należącej do populacji prawdopodobieństwo to jest różne od zera.

Należy zwrócić uwagę, iż aby zrealizować te postulaty prawie zawsze (wyjątkiem jest próba dobrana w sposób systematyczny) konieczne jest posiadanie kompletnej listy jednostek należących do populacji.

Tylko postulaty reprezentatywności proceduralnej pozwalają na udowodnienie twierdzeń matematycznych pozwalających określić wielkość błędu statystycznego. Dlatego wyłącznie próba dobrana w sposób losowy pozwala na wnioskowanie na temat populacji w sposób ścisły (tj. ze znanym prawdopodobieństwem popełnienia błędu I rodzaju).

Jeżeli dobór próby nie realizuje postulatów reprezentatywności proceduralnej, to dobrana zgodnie z nim próba nie jest próbą losową.

Poziom realizacji próby

Poziomem realizacji próby nazywa się odsetek jednostek wylosowanych do próby, które udało się objąć procedurą badawczą. W przypadku badań na próbach osób poziom realizacji 50% oznacza, że udało się przeprowadzić wywiad tylko z połową osób wylosowanych do próby. Reszta osób wylosowanych np. mogła nie zostać zastana w miejscu zamieszkania lub odmówiła udziału w badaniu. Należy zwrócić uwagę, iż klasyczne zasady wnioskowania statystycznego dotyczą wyłącznie prób zrealizowanych w pełni, czyli takich, w których każda jednostka wylosowana do próby została zbadana, a zatem cechujących się poziomem realizacji wynoszącym 100%. Jeżeli próba nie została zrealizowana w 100% konieczne jest uwzględnienie tego przy określaniu rozmiaru błędu statystycznego.

Schemat doboru próby

Najprostszym rodzajem próby losowej jest próba prosta zależna (inaczej bezzwrotna). Jest to próba:

dobrana w sposób bezzwrotny: każda jednostka może uczestniczyć w badaniu tylko raz (tj. w procesie losowania po wylosowaniu z populacji nie jest „zwracana” i nie może po raz kolejny zostać wylosowana do tej samej próby),
prosta: dla wszystkich jednostek prawdopodobieństwo wylosowania do próby jest takie samo (np. gdy losowane jest 25 jednostek spośród 100 prawdopodobieństwo takie wynosiłoby 0,25).

Klasyczny sposób wyznaczania rozmiaru błędu statystycznego zakłada prosty schemat doboru próby. Jeżeli zaś schemat doboru próby nie był prosty wskazane jest uwzględnienie tego przy wyliczaniu wielkości błędu statystycznego.

Zazwyczaj wykorzystywane są jednak bardziej złożone schematy losowego doboru próby związane ze zróżnicowanym prawdopodobieństwem wylosowania poszczególnych jednostek, takie jak dobór warstwowy, zespołowy, systematyczny oraz inne.

Próba losowa a ogólnopolskie próby osób

Przykładowo w badaniu preferencji wyborczych badaną populację tworzą obywatele Polski posiadający czynne prawo wyborcze, natomiast próba losowa to na przykład tysiąc losowo wybranych członków tej populacji. Nie należy mylić próby losowej z próbą uzyskaną w sposób niekontrolowany, przypadkowy. Próbą losową nazwać można tylko próbę ściśle realizującą powyższe postulaty reprezentatywności proceduralnej. Warto zwrócić uwagę, iż w przypadku wielu często stosowanych technik pozyskiwania ogólnopolskich prób osób postulaty te w oczywisty sposób nie są zrealizowane:

w przypadku prób internetowych mających badać preferencje ogółu Polaków (np. sonda na stronie internetowej) wiele osób należących do badanej populacji ma zerowe prawdopodobieństwo wylosowania do próby (nie korzysta z internetu lub danej witryny) lub prawdopodobieństwo wzięcia udziału w badaniu nie jest znane,
w przypadku prób telefonicznych mających badań preferencje ogółu Polaków (uzyskanych przez losowe generowanie numerów telefonicznych) prawdopodobieństwo udziału danej jednostki w badaniu nie jest znane (ponieważ nie wiemy jak często odbiera ona telefon, ani ile posiada numerów telefonicznych),
w przypadku prób ulicznych mających badać preferencje ogółu Polaków wiele osób należących do badanej populacji nie przechodzi daną ulicą, a zatem posiada zerowe prawdopodobieństwo udziału w próbie.

Sprawia to, że próby telefoniczne, internetowe i uliczne nie są próbami reprezentatywnymi proceduralnie, tj. nie są próbami losowymi. Agencje badawcze podejmują różne wysiłki mające na celu uczynienie z tego typu prób próbę losową, np. przez zadawanie pytań o liczbę posiadanych telefonów itp., pozwala to jednak tylko na częściowe i niepewne ustalenie prawdopodobieństwa udziału w badaniu każdego respondenta.

Innym problemem związanym z ogólnopolskimi próbami osób jest poziom realizacji. W przypadków prób osób w zasadzie nie zdarza się, aby próba została w pełni zrealizowana, gdyż bardzo dużej części respondentów nie udaje się zastać w miejscu zamieszkania lub nie wyrażają oni zgody na udział w badaniu. Rzutuje to na dokładność wyników uzyskiwanych w takich próbach.

System PESEL posiada w założeniu kompletną listę obywateli Polski wraz z danymi pozwalającymi na realizację badania ankietowego. Wyłącznie losowanie prób z systemu PESEL umożliwia uzyskanie losowej ogólnopolskiej próby osób, gdyż system ten stanowi niemal kompletną listę jednostek należących do populacji obywateli Polski, a zatem pozwala na realizację postulatów reprezentatywności proceduralnej, gdyż umożliwia dokonanie losowania z prawdopodobieństwem wylosowania określonym dla każdej jednostki i różnym od zera.

Reprezentatywność przedmiotowa

Innym sposobem realizacji postulatu reprezentatywności jest reprezentatywność przedmiotowa. Próba dobrana zgodnie z postulatem reprezentatywności przedmiotowej to próba kwotowa. Jest to taka próba, w której zachowana jest struktura kluczowych cech właściwa dla populacji.

Próba kwotowa powstaje przez określenie listy cech, ze względu na które próba powinna mieć strukturą zbliżoną do populacyjnej i dobranie jednostek do badania w taki sposób, aby struktura próby była zbliżona do populacyjnej. Aby to osiągnąć projektuje się strukturę próby kwotowej, a później rekrutuje się odpowiednią liczbę jednostek o określonych konfiguracjach cech.

Przykład próby kwotowej

Załóżmy, że badacz chce dobrać próbę osób i określił, że ze względu na temat realizowanego badania kluczowe zmienne dla uzyskanych wyników to płeć i kategoria miejscowości zamieszkania (wieś/miasto). W celu dobrania próby kwotowej z dostępnych statystyk publicznych pozyskał on informację o rozkładzie łącznym obu cech i ustalił jaką liczbę osób o danych cechach powinien zbadać w celu uzyskania 100-osobowej próby kwotowej:

kobiety mieszkające na wsi – GUS 2011: 19,7% – 20 respondentów,
mężczyźni mieszkający na wsi – GUS 2011: 19,6% – 19 respondentów,
kobiety mieszkające w miastach – GUS 2011: 31,9% – 32 respondentów,
mężczyźni mieszkający w miastach – GUS 2011: 28,9% – 29 respondentów.

Posiadając takie dane badacz złożył ankieterom odpowiednie dyspozycje i uzyskał reprezentatywną przedmiotową próbą badawczą, tj. próbę kwotową. Warto zwrócić uwagę, że jeżeli pomylił się co do tego, że płeć i kategoria miejscowości zamieszkania są kluczowe dla jego przedmiotu badania to uzyskane wyniki mogą być błędne.

Cechy kontrolowane w próbie kwotowej

Najczęściej stosowany zbiór cech w doborze ogólnopolskich kwotowych prób osób to wykształcenie, wiek, płeć oraz kategoria wielkości miejscowości zamieszkania. Badania socjologiczne skłaniają do przekonania, iż cechy te należą do determinujących w największej mierze opinie i doświadczenia respondentów. Jednak na pewno nie są to cechy w pełni określające opinie respondentów, dlatego wnioski z takich badań są możliwe do podważenia.

Rozważmy prosty przykład: badacz realizując badanie kontrolował wiek, wykształcenie i płeć. Nie kontrolował zaś przy rekrutowaniu respondentów pozostawania w stanie bezrobocia. Jeżeli by okazało się, że cecha ta ma związek z opiniami respondentów, a jednocześnie respondenci cechujący się określoną wartością tej cechy (bezrobotni) częściej brali udział w badaniu, niż wynikałoby to z udziału tej kategorii w populacji, to wyniki badania byłyby skrzywione. W tym przykładzie jest ryzyko skrzywienia wyników jest bardzo prawdopodobne: osoby bezrobotne mają więcej czasu, a przez to chętniej biorą udział w badaniach, niż osoby pracujące, a zatem wśród zbadanych stanowiły by więcej niż wynikałoby to z odsetka, jaki stanowią w populacji. Jednocześnie, posiadając szczególną sytuację życiową mają one inne opinie, co sprawia, że w hipotetycznym badaniu uzyskane wyniki okazały by się skrzywione, gdyż bezrobotni byliby w nim nadreprezentowani. Oznaczałoby to, że w takim badaniu oszacowany odsetek osób popierających podniesienie zasiłków dla bezrobotnych mógłby okazać się przeszacowany, czyli większy niż w rzeczywistości cechujący populację.

Należy zwrócić uwagę, iż listy cech, ze względu na które kontrolowany jest udział respondentów w próbie kwotowej, nie można dowolnie zwiększać, gdyż:

brak jest odpowiednich danych populacyjnych na temat rozkładu tych cech,
gdy liczba cech i ich kategorii wzrasta coraz trudniejsze jest rekrutowanie osób o bardzo złożonej konfiguracji cech,
zaokrąglenia do całości odsetków cechujących populację w celu określenia liczby osób o danej konfiguracji cech do zbadania powodują coraz większą sumę błędów wraz ze wzrostem liczby zmiennych kontrolowanych przy doborze próby kwotowej.

Ponadto dodać należy, że dowolnie duży zbiór zmiennych ze względu na które dobieramy respondentów nie gwarantuje badaczowi zgodności uzyskanych wyników z cechującymi populację, gdyż zawsze możliwe są do wyobrażenia cechy respondentów nieznane badaczowi, a mające wpływ na uzyskiwane wyniki. Problem ten nie dotyka prób losowych, które dzięki losowaniu jednostek z kompletnej listy gwarantują rozkład w próbie zbliżony do populacyjnego pod względem wszystkich cech charakteryzujących jednostki.

Słabość próby kwotowej

Próba kwotowa jest mniej doskonała niż próba losowa. Podstawowe niedomagania związane z próbą kwotową:

Dokładność oszacowania parametrów (odsetków, średnich itp.) cechujących populację jest nieznana, ponieważ próba kwotowa nie pozwala na oszacowanie rozmiaru błędu statystycznego. Próby kwotowe nie spełniają postulatów reprezentatywności proceduralnej, a zatem liczenie dla nich błędu statystycznego nie ma uzasadnienia matematycznego i daje błędne oszacowanie jego rozmiaru.
Reprezentatywność próby kwotowej opiera się na założeniu, że tylko cechy ze względu na które kontrolowano włączanie jednostek do próby wpływają na uzyskane wyniki. Jeżeli założenie to jest błędne to uzyskane w próbie wyniki mogą dalece odbiegać od populacyjnych (a brak jest podstaw by sądzić, że założenie to jest słuszne).

Powody te sprawiają, że wnioskowanie o populacji na podstawie prób kwotowych zawsze daje się podważyć i musi być bardzo ostrożne.

Bibliografia

Lissowski G., Haman J., Jasiński M., Podstawy statystyki dla socjologów, Warszawa 2008.

Linki zewnętrzne

Artykuł o reprezentatywności próby na stronie www.nastrazysondazy.uw.edu.pl