Analiza danych przestrzennych

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Analizy przestrzenne lub przestrzenne statystyki – pojęcie z zakresu statystyki. Formalne techniki badania danych używające ich topologicznych, geometrycznych lub geograficznych właściwości. Zwrot odnosi się do różnych technik, z których wiele znajduje się jeszcze we wczesnej fazie rozwoju. Wykorzystują one różne metody analityczne i stosowane są w różnorodnych dziedzinach - od astronomii (badania dotyczące rozmieszczenia galaktyk w kosmosie) po produkcję układów scalonych (algorytmy rozmieszczenia i połączeń elementów w złożonych strukturach). Sformułowanie to używane jest często w bardziej zawężonym znaczeniu w odniesieniu do konkretnej techniki stosowanej w określonej dziedzinie badań, np. do geostatystyki.

Historia analizy przestrzennej rozpoczęła się wraz z powstaniem kartografii, miernictwa i geografii, chociaż techniki analizy przestrzennej nie zostały sformalizowane do drugiej połowy XX wieku. Aktualnie analizy przestrzenne bazują na komputerowych technikach ze względu na: dużą ilość danych, możliwości nowoczesnego oprogramowania statystycznego i oprogramowania Systemu Informacji Geograficznej (GIS) oraz złożoności obliczeniowej tego modelowania. Przestrzenne techniki analityczne zostały rozwinięte w geografii, biologii, epidemiologii, demografii, statystyce, systemie informacji geograficznej, teledetekcji, informatyce, matematyce i naukowym modelowaniu.

W analizie przestrzennej jest jeszcze wiele skomplikowanych, niejasno określonych i nierozwiązanych problemów, które stanowią podstawę dzisiejszych badań w tej dziedzinie. Najbardziej podstawowym i obecnie analizowanym jest problem określenia przestrzennej lokalizacji podmiotów. Na przykład, badania nad zdrowiem ludzkim mogą bazować na przestrzennej lokalizacji ludzi ze względu na miejsce zamieszkania lub miejsca pracy albo za pomocą linii opisujących tygodniowe przemieszczenia, każdy wybór ma istotny wpływ na zbiór technik, które mogą być wykorzystywane do analizy oraz na uzyskane wnioski. Inne nierozwiązane zagadnienia analizy przestrzennej spotykają się z ograniczeniami wiedzy matematycznej, problemem spełniania założeń istniejących technik statystycznych, po problemy w obliczeniach komputerowych. Klasyfikacja technik analizy przestrzennej jest trudna ze względu na dużą liczbę zaangażowanych dziedzin badawczych, różnych podejść do tego samego zagadnienia oraz wielu formatów przechowywania danych.

Podstawowe zagadnienia w analizie przestrzennej[edytuj | edytuj kod]

Charakterystyka Przestrzenna[edytuj | edytuj kod]

Definicja przestrzennej lokalizacji ogranicza możliwości analiz, które można stosować w odniesieniu do tego podmiotu oraz wpływa na ostateczne wnioski. Poprawne określenie tej własności jest podstawą wszystkich analiz, jest to szczególnie ważne w analizie przestrzennej, ponieważ narzędzia do definiowania i badania podmiotów bazują na tej własności. Techniki statystyczne faworyzują lokalizowanie obiektów w punktach, ponieważ istnieje niewiele technik statystycznych, które działają bezpośrednio na granicy obszaru lub wielkość elementów. Komputerowe narzędzia analizy przestrzennej definiują obiekty jako jednorodne i oddzielne elementy ze względu na prymitywny charakter dostępnych struktur obliczeniowych i łatwość ich tworzenia.

Niepożądane efekty mogą powstawać w wyniku wprowadzenia ograniczenia przestrzeni lub miejsca występowania zjawiska czy obszaru badania. Ten problem występuje, ponieważ zjawiska przestrzenne mogą być nieskończone lub mogą mieć niejednoznaczne przejścia pomiędzy obszarami badani. Powoduje to powstanie efektu krawędzi, ignorowania pewnych przestrzennych zależność lub pomijanie interakcji otoczeniem obszaru badania. Również narzucenie sztucznych kształtów na atomy w obszarze badań jak i stopień rozdrobnienia może wpływać na zachowanie modeli przestrzennych. Możliwym rozwiązaniem jest analiza wrażliwości strategii na modyfikacje jednostek terenowych oraz MAUP: porównanie wyników dla różnych wielkości obszarów badań. Innym możliwym rozwiązaniem jest przekraczanie obszaru badania. Jest też możliwe wyeliminowanie wpływ krawędzi na przestrzenne modelowanie poprzez symulacje obszaru za pomocą obiektów pozbawionych granic, takich jak torus lub kula.

Przestrzenne zależności, auto-korelacje[edytuj | edytuj kod]

Podstawową zasadą w geografii jest to, że elementy będące w pobliżu mają więcej podobieństw niż obiekty, które są daleko od siebie. Idea ta jest często nazywana "pierwszym prawem geografii Toblera" i można ją w skrócie określić jako "wszystko jest związane z wszystkim innym, ale w pobliżu rzeczy są bardziej związane niż rzeczy odległe"[1].

Przestrzenne zależności są kowariancjami cech wewnątrz geograficznej przestrzeni: właściwości w bliskich miejscach okazują się być skorelowane pozytywnie albo negatywnie. Istnieją co najmniej trzy możliwe wyjaśnienia. Jedną z możliwości istnienia prostej przestrzennej korelacji jest związek, który możemy opisać następująco: jeżeli coś spowodowało zaistnienie danej własności w jednym miejscu jest również przyczyną istnienia podobnych własności w pobliskich lokalizacjach. Na przykład, wskaźniki przestępczości w pobliskich obszarach wewnątrz miasta zazwyczaj są podobne ze względu takie czynniki jak: status społeczno-ekonomiczny, liczba policjantów oraz środowisko architektoniczne, to wszystko tworzy możliwości dla tego rodzaju przestępstw. Cechy, które przyciągają jedno przestępstwo, będą również przyciągnąć inne. Inną możliwością jest przyczynowość przestrzenna: coś w danym miejscu wpływa bezpośrednio samo to w pobliskich lokalizacjach. Na przykład, z książki "Fixing Broken Windows" wynika że widoczne ubóstwo, brak konsekwencji i drobna przestępczości fizyczna skłania do zwiększania liczby przestępstw tego rodzaju, ze względu na przykłady widoczne na zewnątrz. Trzecią możliwością są przestrzenne interakcje: przepływ osób, towarów lub informacji tworzy relacje pomiędzy lokalizacjami. W teoria "drogi do przestępstwa" sugeruje, że działalność przestępcza jest wynikiem dostępu do przestępczości w domu i innych kluczowych miejscach życia codziennego. Przestrzenne zależność prowadzą do problemu przestrzennej auto korelacji w statystyce, tak jak czasowe autokorelacje, naruszają one standardowe techniki statystyczne, które zakładają niezależność obserwacji. Na przykład analiza regresji, która nie zauważa przestrzennych zależności i może mieć niestabilne parametry szacunków plonów, co powoduje że badania są niewiarygodne. Przestrzenne modele regresji (patrz poniżej) ujmują te zależności, są więc pozbawione tych słabości. Wskazane jest także, aby zobaczyć przestrzenne zależności jako źródło informacji, a nie coś wymagające naprawy.

Lokalizacyjne następstwa (Locational effects) są bezpośrednio powiązanie z przestrzenną heterogenicznością lub widoczną wariancja procesu w powiązaniu z jej przestrzenną lokalizacją. Jeżeli przestrzeń jest jednorodna i nieograniczona, każda lokalizacja będzie miała w miejscu pewną niepowtarzalność w stosunku do innych lokalizacji. Wpływa to na relacje przestrzenne, a zatem procesy przestrzenne. Przestrzenna wariancja oznacza, że ogólne, szacunkowe parametry dla całego systemu nie mogą adekwatnie opisać procesu w danej lokalizacji.

Skalowanie[edytuj | edytuj kod]

Skala jest stałym problemem w analizie przestrzennej. Jednym z jej problemów jest bardzo prosty problem lingwistyczny. W różnych dziedzinach używa się sformułowań "na dużą skalę" i "małą skalę" oznaczają one przeciwne rzeczy, na przykład, kartografowie odnoszą się do wielkości matematycznych mówiąc o skali mówią o ułamku 1 / 24000 jest "większy" niż 1 / 100000, natomiast w języku ekologów duży odnosi się do obszaru badań których mowa np. kontynent powstaje "dłużej" niż las.

Im bardziej fundamentalne są wyniki, tym bardziej wymagane jest zapewnienie, że zawarte analizy nie zależą od obranej skali. W świecie ekologów nie udało się tego zrobić, od wielu lat charakterystyka elementów świata przedstawiana jest za pomocą miary, która zależy od skali. Ostatecznie rozbudowano szereg niezmiennych skali metrycznych.

Pobieranie próbek[edytuj | edytuj kod]

Dobór próbek przestrzennych, żeby uzyskać wierny pomiar zjawisk trzeba określić ograniczoną liczbę miejsc w przestrzeni, z których zostaną pobrane próbki. Miejsca te muszą być różnorodne i podlegać badanym zależnością. Badając zależności w jednej lokalizacji można przewidzieć wartości innej lokalizacji, nie trzeba wykonywać obserwacji w obu tych miejscach. Różnorodność natomiast sugeruje, że ta relacja może się zmieniać w całej przestrzeni, a zatem nie można zaufać, że odnotowany stopień zależności przeniesie się poza badany region, który może być mały. Podstawowe plany pobierania próbek opierają się na losowości, rozbiciu i systematyczności. Te podstawowe systemy mogą być stosowane na wielu poziomach w hierarchii przestrzennej (np. obszarach zurbanizowanych, miastach, dzielnicach). Możliwe jest również wykorzystanie danych pomocniczych, na przykład użycie danych mówiących wartościach nieruchomości do wyboru miejsc pobrania próbek, w celu zbadania poziomu wykształcenia i dochodów. Modele przestrzenne, takie jak autokorelacja, regresja i interpolacja (patrz poniżej) mogą wymagać również określonego doboru próby.

Powszechne błędy w analizie przestrzennej[edytuj | edytuj kod]

Podstawowe problemy w analizie przestrzennej prowadzą do licznych problemów: odchyleń, zniekształceń i bezpośrednich błędów uzyskanych we wnioskach. Kwestie te często są ze sobą związane, ale różne sposoby próbkowania mają rozdzielić dokładnie te kwestie od siebie.

Lokalizowanie błędów[edytuj | edytuj kod]

Przestrzenne charakterystyki mogą być nazbyt proste lub nawet błędne. Badania ludzi często ograniczane są do przestrzennej lokalizacji ludzi w jednym punkcie, na przykład po adresie domowym. Może to łatwo doprowadzić do biednych analizy, na przykład, gdy rozważa się przekazanie choroby, które może zdarzyć się w pracy lub w szkole, a więc z dala od domu. Przestrzenna charakterystyka może ograniczać temat badania. Na przykład, przestrzenne analizy przestępczości danych stały się ostatnio popularne, ale tylko pewne rodzaje przestępstw można opisać przestrzennie. Można zrobić wiele map zamachów, ale nie da się zrobić np. mapy malwersacji z ich politycznymi konsekwencjami. Uzyskane tak plany koncepcyjne przestępstw pozwalają opracować sposoby realizacji polityki mającej na celu rozwiązanie problemu.

Błędy jednostkowe[edytuj | edytuj kod]

Błędami jednostkowymi nazywamy błędy spowodowane traktowaniem elementów jako oddzielne atomy pozbawione kontekstu przestrzennego.

Błędy ekologiczne[edytuj | edytuj kod]

Błędy ekologiczne opisujemy jako błędy spowodowane wykonywaniem analiz dla danych zbiorczych, podczas gdy sformułowania wniosków dotyczą poszczególnych jednostek. Jest to ściśle związane z modyfikacja jednostkowych obszarów problemu (modifiable areal unit problem (MAUP)).

Modyfikacja jednostek terenowych problemu[edytuj | edytuj kod]

Problem modyfikacji jednostek terenowych problemu (MAUP) występuje gdy wnioski zależą od rozmieszczenia analizowanych danych w strefach oraz kształtu i rozmiaru obszarów wykorzystanych w analizie.

Przestrzenne analizy i modelowania często wykorzystują łączenie jednostek, wykorzystywane np. w spisach ludności i analizie ruchu w strefach. Jednostki te mogą odzwierciedlać zbiory danych lub być używane dla wygody modelowania bardziej jednorodnych, spójnych regionów w świecie rzeczywistym. Przestrzenne jednostki są zatem dowolne lub modyfikowane i zawierają artefakty wynikające z poziomu agregacji przestrzennej lub umieszczenia granic.

Problem pojawia się, ponieważ wiadomym jest, że wyniki uzyskane z analizy obszarów zależą bezpośrednio od analizowanych stref. Wykazano, że agregacja punktów danych z stref o różnym kształcie może prowadzić do przeciwnych wniosków[2].

Zostały zaproponowane różne sposoby na rozwiązanie MAUP, w tym analizy powtarzalne oraz techniki graficzne, ale problem nie może być uznany za rozwiązany. Jedna z strategii polega na ocenie wrażliwości rezultatów analizy na zmianę agregacji lub granic oraz porównaniu wyników z każdej z analizy. Poza tym możemy badać wrażliwości wyników na modelowanie ich w ramach różnych systemów. Drugą z strategii jest, dobór optymalnych jednostek przestrzennych do analizy.

Problem długości[edytuj | edytuj kod]

Długości w ekologii zależy bezpośrednio od skali, w której są mierzone wielkości i od rodzaju wykonywanego badania. Więc gdy geodeci wspólnie zmierzą długość rzeki, to długość ma znaczenie tylko w relacji do techniki pomiarowej i pytań objętych badaniem.

Rozwiązania podstawowych problemów[edytuj | edytuj kod]

Przestrzeń Geograficzna[edytuj | edytuj kod]

Gdy istnieje matematyczny model miejsca i mamy zestaw obserwacji oraz ilościowe miary ich atrybutów. Na przykład, możemy reprezentować dochody osób i lata nauki w układzie współrzędnych, gdzie położenie poszczególnych osób może zostać określone w odniesieniu do tych dwóch aspektów. Odległości między osobami w tej przestrzeni jest ilościową miarą ich podobieństwa w odniesieniu do dochodów i wykształcenia. Jednak w przestrzennej analizie mamy do czynienia z konkretnym rodzajem przestrzeni matematycznej, a mianowicie przestrzeni geograficznej. (A geograficzne miejsca, gdzie) Obserwacją odpowiadają ich lokalizacje w przestrzeni, a konstrukcja pomiaru zapisuje się ich bliskości w świecie rzeczywistym. Lokalizacje w ramach przestrzennych pomiarów często reprezentowane są za pomocą miejsc na powierzchni Ziemi, ale nie jest to bezwzględnie konieczne. Przestrzenne lokalizacje pomiarów mogą także uwzględnić ich bliskość w stosunku do międzygwiezdnych przestrzeni lub jednostek biologicznych, takich jak wątroba. Fundamentalną zasadą jest Tobler'a Pierwsze Prawo Geografii: jeżeli zwiększamy wzajemne powiązania między podmiotami bliskimi w świecie rzeczywistym a następnie analizujemy je przy użyciu reprezentacji geograficznych przestrzeni, oceny uzyskane za pomocą technik analizy przestrzennej są właściwe.

Odległość euklidesowa pomiędzy lokalizacjami często dobrze reprezentuje ich bliskości, chociaż nie jest to tylko jedna możliwość. Istnieje nieskończona liczba miar oprócz Euklidesowej i mogą one potwierdzać analizy ilościowe. Na przykład, metryka Taksówkowa, w której ruch jest ograniczony do dróg równoległych do osi, może być bardziej przydatna niż odległości Euklidesowe w obszarach miejskich. Oprócz odległości, inne związki geograficzne, takie jak łączność (np. istnienie granic lub stopień podziału ) i kierunek może również mieć wpływ na relacje między podmiotami. Możliwe jest również dodanie minimalnego kosztu ścieżek, może to zostać zastosowane do obliczenia bliskość między lokalizacji, bo przy podróży mogą pojawić się chropowatości terenu.

Rodzaje analizy przestrzennej[edytuj | edytuj kod]

Dane przestrzenne występują w wielu odmianach i nie jest łatwo znaleźć system klasyfikacji, który jest jednocześnie wyczerpujący, pomysłowy i zadowalający.

Przestrzenna autokorelacja[edytuj | edytuj kod]

Przestrzenne autokorelacje to statystyczna miara i analiza stopnia zależności między obserwacjami w geograficznej przestrzeni. Klasyczne przestrzenne autokorelacje zawierają statystyki Moran I i Geary's C. Te wymagają pomiaru przestrzennej macierzy wag, która odzwierciedla stopień geo-przestrzennych relacji między obserwacjami w okolicy, np. odległości między sąsiadami, długość wspólnej granicy, czy też przynależność do określonej klasy kierunkowej, takiej jak zachód, wschód. Klasyczne przestrzenne autokorelacje to statystyczne porównania przestrzennych wag do kowariancji relacji dla par lokalizacji. Jeżeli przestrzenna autokorelacja, jest bardziej pozytywna niż oczekiwano od losowość danych, wskazuje to na grupowanie podobnych wartości w całej geograficznej przestrzeni. Natomiast istotna negatywna przestrzenna autokorelacja sąsiednich wartości wskazuje, że sąsiednie elementy są bardziej odmienne niż oczekiwano, sugerując podobieństwo przestrzennej struktury do szachownicy.

Przestrzenne autokorelacje, statystyki Moran I i Geary's C mają charakter globalny w tym sensie, że oszacowują ogólny poziom autokorelacji przestrzennej dla danych. Możliwość przestrzennej heterogeniczności sugeruje, że szacowany stopień autokorelacji może różnić się znacznie w lokalnych obszarach geograficznej przestrzeni. Lokalna przestrzenna autokorelacja pozwala oszacować poziom zróżnicowania jednostek w przestrzennej analizie, pozwalając ocenić zależności relacji dla całej przestrzeni. G statystyka to porównanie do średniej globalnej do lokalnej i identyfikacja silnych obszarów lokalnej autokorelacji. Są też znane lokalne wersje statystyk I i C.

Przestrzenna interpolacja[edytuj | edytuj kod]

Przestrzenne interpolacyjne to metody szacowania zmiennych w nieobserwowanych lokalizacjach w geograficznej przestrzeni w oparciu o wartości w obserwowanych miejscach. Podstawowe metody obejmują zamianę odległość i wagi: osłabienie zmiennej wraz z rosnąca odległością od obserwowanej lokalizacji. Kriging to bardziej wyrafinowana metoda interpolacji całej przestrzeni zgodnie z relacjami w przestrzennych otoczeniach. Metoda ta ma zarówno regularne jak i losowe składniki. Może ona pokazywać szereg przestrzennych relacji dla wartości ukrytych między obserwowanymi miejscami. Kriging zapewnia optymalne estymatory, biorąc pod uwagę hipotetyczny rozkład relacji w otoczeniu, można również określić błąd oszacowań w celu ustalenia istnienia modelów przestrzennych.

Przestrzenna regresja[edytuj | edytuj kod]

Metody przestrzennej regresji wychwytują przestrzenne zależności. W analizie regresji, unikamy problemów statystycznych, takich jak niestabilne parametry i niewiarygodne badania, jak również dostarcza ona informacji na temat relacji przestrzennych między zmiennymi. W zależności od konkretnej techniki, model regresji może wprowadzić przestrzenne zależności jako stosunki pomiędzy niezależnym zmiennymi a zależnymi oraz pomiędzy zmiennymi zależnymi a ich otoczeniem, lub wprowadzać błędne powiązania. Geograficzna ważona regresja (GWR) jest lokalna wersją przestrzennej regresji, która generuje parametry zdegenerowane przez jednostki przestrzennej analizy. Pozwala to na ocenę przestrzennej heterogeniczności w estymowanych relacjach pomiędzy niezależnym i zależnych zmiennymi.

Przestrzenna interakcja[edytuj | edytuj kod]

Przestrzenne interakcje lub "modele ciężkości" oszacowują przepływ osób, materiałów i informacji pomiędzy lokalizacjami w geograficznej przestrzeni. Czynniki te mogą zawierać zmienne, takie jak liczba klientów na obszarach zamieszkanych, miary oznaczające atrakcyjność miejsc, takie jak dochód w obszarach zatrudnienia, a bliskość relacji mierzona może być w kategoriach, takich jak odległość jaką trzeba przejechać by dostać się do innej lokalizacji lub czas podróży pomiędzy miejscami w przestrzeni. Ponadto, topologiczne lub geo-topologiczne relacje między obszarami muszą zostać określone, w szczególności biorąc pod uwagę sprzeczne relacje między odległością i topologią obszaru, np. dwa obszary, w bardzo małej odległości, nie mogą mieć żadnych istotnych interakcji, jeśli są one oddzielone nitkami autostrady, lub dużymi rzekami. Po określeniu funkcjonalnej formy tych stosunków, można oszacować parametry modelu za pomocą obserwowanego przepływu danych, za pomocą standardowych techniki estymacji takich jak metoda najmniejszych kwadratów lub maksymalnego prawdopodobieństwa. Kompletne wersje modeli przestrzennych interakcji obejmują bliskości miejsc w uzupełnieniu o bliskość miejsca pochodzenia i przeznaczenia, daje to efekt podziału etapów przepływów. Metody obliczeniowe, takie jak sztuczne sieci neuronowe mogą również oszacować relacje przestrzennych interakcji i mogą radzić sobie z szumami i złą jakością danych.

Symulacja i modelowanie[edytuj | edytuj kod]

Teoria złożonych systemów adaptacyjnych zastosowana do przestrzennej analizy wskazuje, że proste interakcje między bliskimi podmiotami może prowadzić do skomplikowanych, trwałych i funkcjonalnych przestrzennych połączeń podmiotów. Dwie podstawowe metody przestrzennej symulacji: automaty komórkowe i programowanie agentowe (agent-based modeling). Metoda automatów komórkowych nakłada stałe zasady przestrzenne, takie jak siatka komórek oraz określa reguły, które nakazują zmiany stanu komórki w oparciu o stan jej sąsiadów. Wraz z upływem czasu rozwijają się, przestrzenne wzorce, komórki stwierdzają zmianę na podstawie swoich sąsiadów, to zmienia warunki w następnych okresach i powstają kolejne zmiany. Na przykład, komórki mogą odpowiadać obszarom, a ich wartościami mogą być różne rodzaje gruntów. Wzorce, które wynikają z prostej interakcji lokalnych, za zastosowania gruntów odpowiadają urzędy powiatowe i miejskie. Programowanie agentowe używa jednostek (agentów), które mają określone działania (cele) i mogą reagować na interakcje i modyfikacje swojego środowiska przy jednoczesnym poszukiwaniu swoich celów. W przeciwieństwie do komórek w automatach komórkowych, agenci mogą być mobilni, w odniesieniu do przestrzeni. Na przykład, można w ten sposób modelować ruch i jego dynamikę z wykorzystaniem agentów reprezentujących poszczególne pojazdy, które starają się zminimalizować czas podróży. Podczas realizacji minimalnego czasu podróży, agenci muszą unikać kolizji z innymi pojazdami, a także starać się zminimalizować ich czas podróży. Automaty komórkowe i programowanie agentowe są odbiegającym uzupełnieniem strategii modelowania. Mogą one zostać połączone w wspólny system automatów geograficznych gdzie pewne czynniki są stałe, a inne ruchome.

Zobacz też[edytuj | edytuj kod]

Przypisy

  1. Tobler, W. (1970). A computer movie simulating urban growth in the Detroit region. Economic Geography, 46, 234-240.
  2. Longley and Batty Spatial Analysis: Modelling in a GIS Environment pp. 24-25

Linki zewnętrzne[edytuj | edytuj kod]