Przekleństwo wymiarowości

Z Wikipedii, wolnej encyklopedii
Schemat siatki kwadratów 10x10. Każdy z małych kwadratów reprezentuje jeden milimetr kwadratowy (1 mm²); cała siatka reprezentuje jeden centymetr kwadratowy (1 cm²). Ma to na celu pokazanie, że choć na 1 cm przypada 10 mm, to na 1 cm² przypada 100 mm². Bardziej ogólnie, pokazuje to, że współczynnik konwersji między jednostkami powierzchni jest kwadratem współczynnika konwersji między odpowiednimi jednostkami długości.

Przekleństwo wymiarowości odnosi się do wielu właściwości przestrzeni wielowymiarowych i problemów kombinatorycznych. Przede wszystkim dotyczy wykładniczego wzrostu niezbędnych danych eksperymentalnych w zależności od wymiaru przestrzeni przy rozwiązywaniu problemów probabilistyczno-statystycznego rozpoznawania wzorców, uczenia maszynowego, klasyfikacji i analizy dyskryminacyjnej. Dotyczy to również wykładniczego wzrostu liczby wariantów w kombinatorycznych problemach w zależności od wielkości początkowych danych, co prowadzi do odpowiedniego zwiększenia złożoności algorytmów ponownego wyboru. Przekleństwo dotyczy również ciągłych metod optymalizacji, a także złożoności wielowymiarowej funkcji celu[1][2].

Określenia „przekleństwo wymiarowości” po raz pierwszy użyto w opracowaniu w wydanym w 1961 roku przez Richarda Ernesta Bellmana „Adaptive control processes”. Pojęcie występowało również  w pracach: White’a (1989), Bishopa (1995). Wystąpiło również pod pojęciem „zjawisko pustej przestrzeni” (ang. empty space phenomenon) w pracach Scotta i Thompsona (1983), Silvermana (1986)[3].

Przekleństwo wymiarowości odnosi się do sytuacji, gdy poprawna klasyfikacja obiektów, wykorzystując pełny zbiór danych, jest niemal niemożliwa, a wielość charakterystyk w wektorze skutkuje wzrostem liczby parametrów, co skutkuje wzrostem złożoność klasyfikatora[4]. Rośnie również ryzyko przeuczenia (ang. overfitting) i tym samym spadku zdolności uogólniających (ang. generalization) klasyfikatora. Jest to przyczyną powszechnego zmniejszenia wymiarowości cech. Przyczyną problemów jest identyfikacja podzbioru cech, który posłuży poprawnej klasyfikacji danych przez algorytm[5][6].

Zjawisko to stanowi poważną przeszkodę dla efektywności algorytmów eksploracji danych, analizy numerycznej, badań statystycznych, kombinatoryki oraz uczenia maszynowego.

Występowanie[edytuj | edytuj kod]

Funkcja odległości[edytuj | edytuj kod]

Dla różnych typów rozkładów losowych zbiorów danych różnica pomiędzy najmniejszą, a największą odległością pomiędzy zbiorami staje się nieznaczącą w porównaniu do najmniejszej odległości, gdy zwiększa się miara d (innymi słowy: najmniejsze i największe odległości różnią się tylko stosunkowo niewielkim wielkościami),  a zatem wyniki funkcji odległości i algorytmów na nich opartych), przestają być użyteczne  dla rozkładów w przestrzeniach wielowymiarowych[7].

Można to przedstawić za pomocą poniższego wzoru:

Najnowsze badania sugerują jednak że tylko „nieistotne” wymiary powodują ten efekt.

Jeżeli atrybuty są skorelowane, dane mogą stać się czytelniejsze i zapewnią wyższy kontrast a odległość i stosunek sygnału do szumu będą odpowiednie, oznacza to że, cecha powinna zostać uwzględniona[8].

Rozpoznawanie wzorców[edytuj | edytuj kod]

W probabilistycznych problemach rozpoznawania istnieją dwie sytuacje, w których przekleństwo wymiarowości można przezwyciężyć :

Możliwe, że rozkład wektora wzajemnie zależnych zmiennych losowych jest skoncentrowany w podprzestrzeni o niższej wymiarowości, to znaczy, że wektor może być dobrze aproksymowany przez liniową funkcję mniejszej liczby zmiennych. W takim przypadku analiza głównych składowych (PCA) zmniejsza liczbę wymiarów. Ponadto przypisane zadania rozpoznawania (dyskryminacji) można rozwiązać już w przestrzeni o mniejszej ilości wymiarów.

Jest również możliwe, że zmienne losowe badanych wektorów są niezależne lub słabo skorelowane. W tym przypadku można odzyskać jednowymiarowe rozkłady zmiennych losowych i skonstruować wielowymiarowe rozkłady jako swoje produkty.

Powszechnie stosowanym algorytmem do analizy danych wielowymiarowych jest algorytm najbliższego sąsiada. Ta metoda może być stosowana przy badaniu próbek o dowolnym rozmiarze, niezależnie od wymiarów wektorów, jednakże podstawowym problemem tego algorytmu jest brak wystarczającej ilości informacji o obiekcie opisywanym dużą liczbą istotnych parametrów[9].

Zadania optymalizacyjne[edytuj | edytuj kod]

Przekleństwo wymiarowości ma wpływ również na problemy optymalizacyjne.

W problemach związanych z optymalizacją dyskretną czas działania algorytmów można zredukować za pomocą algorytmu BnB oraz algorytmów heurystycznych.

Metody te są skuteczne jednak tylko w części przypadków i nie rozwiązują one problemu przekleństwa wymiarowości.

Uczenie maszynowe[edytuj | edytuj kod]

W problemach z uczeniem maszynowym polegających na uczeniu się "stanu natury" ze skończonej liczby próbek danych w wielowymiarowej przestrzeni cech, przy czym każda cecha ma zakres możliwych wartości, zazwyczaj wymagana jest ogromna ilość danych szkoleniowych w celu zapewnienia że istnieje kilka próbek z każdą kombinacją wartości. Zasada mówi, że powinno być co najmniej 5 przykładów szkoleniowych dla każdego wymiaru[10]. Przy ustalonej liczbie próbek treningowych najpierw zwiększa się moc predykcyjna klasyfikatora lub regresora, gdy liczba użytych wymiarów / cech jest zwiększana, a następnie maleje[11] co jest znane jako zjawisko Hughesa lub zjawisko szczytowe[10].

Wykrywanie anomalii[edytuj | edytuj kod]

W swoim badaniu[8] Zimek zidentyfikował następujące problemy podczas wyszukiwania anomalii w danych wielowymiarowych:

  1. Koncentracja wyników i odległości: wartości pochodne, takie jak odległości, stają się liczbowo podobne
  2. Nieistotne cechy: w danych wielowymiarowych znaczna liczba atrybutów może być nieistotna
  3. Definiowanie zestawów referencyjnych: w przypadku metod lokalnych zestawy odniesień są często oparte na najbliższym sąsiedztwie
  4. Nieporównywalność wyników z różnych wymiarów: różne podprzestrzenie dają nieporównywalne wyniki
  5. Problem z interpretacją wyników: wyniki często nie przekazują już znaczenia semantycznego
  6. Przestrzenie wyszukiwania nie mogą być systematycznie skanowane
  7. "Stronniczość danych": biorąc pod uwagę dużą przestrzeń poszukiwań, dla każdego pożądanego znaczenia można znaleźć hipotezę
  8. "Stopnie koncentracji": niektóre obiekty występują częściej na listach sąsiadów niż inne.

Wiele specjalistycznych metod analiz rozwiązuje część z tych problemów, lecz pozostaje wiele otwartych pytań badawczych.

Przypisy[edytuj | edytuj kod]

  1. Bellman, Richard, 1920-1984., Dynamic programming., Princeton,: Princeton University Press, [1972], ISBN 0-691-07951-X, OCLC 11538664 [dostęp 2019-01-08].
  2. COMPOSTING ACTIVITIES AT CORNELL. By E. Z. Harrison, Associate Director, The Waste Management Institute, Cornell University, Ithaca, 14853-3501, NY, U.S.A, „Waste Management & Research”, 11 (2), 1993, s. 178–180, DOI10.1177/0734242x9301100210, ISSN 0734-242X [dostęp 2019-01-08].
  3. Kamila Migdał Najman, Krzysztof Najman, Ocena wpływu wartości stałej Minkowskiego na możliwość identyfikacji struktury grupowej danych o wysokim wymiarze przy występowaniu wartości nietypowych, „Zarządzanie i Finanse Journal of Management and Finance”, 13, luty 2015, No. 4/2/2015.
  4. R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification 2ed., Wiley, New York 2000
  5. Guyon, S. Gunn, M. Nikravesh, L. Zadeh, Feature extraction, foundations and applications, Springer, 2006
  6. Metody redukcji wymiarowości przestrzeni cech — Sztuczna inteligencja [online], books.icse.us.edu.pl [dostęp 2019-01-09].
  7. K. Beyer, J. Goldstein, R. Ramakrishnan, U. Shaft: When Is “Nearest Neighbor” Meaningful?. W: C Beeri: Database theory--ICDT'99 : 7th International Conference, Jerusalem, Israel, 10 stycznia-12, 1999 : proceedings. Berlin New York: Springer, 1999, s. 217-235. DOI: 10.1007/3-540-49257-7_15. ISBN 978-3-540-65452-0. (ang.).
  8. a b Zimek, E. Schubert, H.-P. Kriegel. A survey on unsupervised outlier detection in high‐dimensional numerical data. „Statistical Analysis and Data Mining”. 5 (5), s. 363-387, 2012. DOI: 10.1002/sam.11161. 
  9. Marimont, RB; Shapiro, MB. Nearest Neighborhood Searches and the Curse of Dimensionality. „IMA Journal of Applied Mathematics”. 24 (1), s. 59–70, 1979. DOI: 10.1093/imamat/24.1.59. 
  10. a b Koutroumbas, Sergios Theodoridis, Konstantinos (2008). Pattern Recognition – 4th Edition. Burlington. Retrieved 8 January2018.
  11. Hughes, G.F.. On the mean accuracy of statistical pattern recognizers. „IEEE Transactions on Information Theory”. 14 (1), s. 55–63, January 1968. DOI: 10.1109/TIT.1968.1054102.