Przekleństwo wymiarowości
Przekleństwo wymiarowości odnosi się do wielu właściwości przestrzeni wielowymiarowych i problemów kombinatorycznych. Przede wszystkim dotyczy wykładniczego wzrostu niezbędnych danych eksperymentalnych w zależności od wymiaru przestrzeni przy rozwiązywaniu problemów probabilistyczno-statystycznego rozpoznawania wzorców, uczenia maszynowego, klasyfikacji i analizy dyskryminacyjnej. Dotyczy to również wykładniczego wzrostu liczby wariantów w kombinatorycznych problemach w zależności od wielkości początkowych danych, co prowadzi do odpowiedniego zwiększenia złożoności algorytmów ponownego wyboru. Przekleństwo dotyczy również ciągłych metod optymalizacji, a także złożoności wielowymiarowej funkcji celu[1][2].
Określenia „przekleństwo wymiarowości” po raz pierwszy użyto w opracowaniu w wydanym w 1961 roku przez Richarda Ernesta Bellmana „Adaptive control processes”. Pojęcie występowało również w pracach: White’a (1989), Bishopa (1995). Wystąpiło również pod pojęciem „zjawisko pustej przestrzeni” (ang. empty space phenomenon) w pracach Scotta i Thompsona (1983), Silvermana (1986)[3].
Przekleństwo wymiarowości odnosi się do sytuacji, gdy poprawna klasyfikacja obiektów, wykorzystując pełny zbiór danych, jest niemal niemożliwa, a wielość charakterystyk w wektorze skutkuje wzrostem liczby parametrów, co skutkuje wzrostem złożoność klasyfikatora[4]. Rośnie również ryzyko przeuczenia (ang. overfitting) i tym samym spadku zdolności uogólniających (ang. generalization) klasyfikatora. Jest to przyczyną powszechnego zmniejszenia wymiarowości cech. Przyczyną problemów jest identyfikacja podzbioru cech, który posłuży poprawnej klasyfikacji danych przez algorytm[5][6].
Zjawisko to stanowi poważną przeszkodę dla efektywności algorytmów eksploracji danych, analizy numerycznej, badań statystycznych, kombinatoryki oraz uczenia maszynowego.
Występowanie[edytuj | edytuj kod]
Funkcja odległości[edytuj | edytuj kod]
Dla różnych typów rozkładów losowych zbiorów danych różnica pomiędzy najmniejszą, a największą odległością pomiędzy zbiorami staje się nieznaczącą w porównaniu do najmniejszej odległości, gdy zwiększa się miara d (innymi słowy: najmniejsze i największe odległości różnią się tylko stosunkowo niewielkim wielkościami), a zatem wyniki funkcji odległości i algorytmów na nich opartych), przestają być użyteczne dla rozkładów w przestrzeniach wielowymiarowych[7].
Można to przedstawić za pomocą poniższego wzoru:
Najnowsze badania sugerują jednak że tylko „nieistotne” wymiary powodują ten efekt.
Jeżeli atrybuty są skorelowane, dane mogą stać się czytelniejsze i zapewnią wyższy kontrast a odległość i stosunek sygnału do szumu będą odpowiednie, oznacza to że, cecha powinna zostać uwzględniona[8].
Rozpoznawanie wzorców[edytuj | edytuj kod]
W probabilistycznych problemach rozpoznawania istnieją dwie sytuacje, w których przekleństwo wymiarowości można przezwyciężyć :
Możliwe, że rozkład wektora wzajemnie zależnych zmiennych losowych jest skoncentrowany w podprzestrzeni o niższej wymiarowości, to znaczy, że wektor może być dobrze aproksymowany przez liniową funkcję mniejszej liczby zmiennych. W takim przypadku analiza głównych składowych (PCA) zmniejsza liczbę wymiarów. Ponadto przypisane zadania rozpoznawania (dyskryminacji) można rozwiązać już w przestrzeni o mniejszej ilości wymiarów.
Jest również możliwe, że zmienne losowe badanych wektorów są niezależne lub słabo skorelowane. W tym przypadku można odzyskać jednowymiarowe rozkłady zmiennych losowych i skonstruować wielowymiarowe rozkłady jako swoje produkty.
Powszechnie stosowanym algorytmem do analizy danych wielowymiarowych jest algorytm najbliższego sąsiada. Ta metoda może być stosowana przy badaniu próbek o dowolnym rozmiarze, niezależnie od wymiarów wektorów, jednakże podstawowym problemem tego algorytmu jest brak wystarczającej ilości informacji o obiekcie opisywanym dużą liczbą istotnych parametrów[9].
Zadania optymalizacyjne[edytuj | edytuj kod]
Przekleństwo wymiarowości ma wpływ również na problemy optymalizacyjne.
W problemach związanych z optymalizacją dyskretną czas działania algorytmów można zredukować za pomocą algorytmu BnB oraz algorytmów heurystycznych.
Metody te są skuteczne jednak tylko w części przypadków i nie rozwiązują one problemu przekleństwa wymiarowości.
Uczenie maszynowe[edytuj | edytuj kod]
W problemach z uczeniem maszynowym polegających na uczeniu się "stanu natury" ze skończonej liczby próbek danych w wielowymiarowej przestrzeni cech, przy czym każda cecha ma zakres możliwych wartości, zazwyczaj wymagana jest ogromna ilość danych szkoleniowych w celu zapewnienia że istnieje kilka próbek z każdą kombinacją wartości. Zasada mówi, że powinno być co najmniej 5 przykładów szkoleniowych dla każdego wymiaru[10]. Przy ustalonej liczbie próbek treningowych najpierw zwiększa się moc predykcyjna klasyfikatora lub regresora, gdy liczba użytych wymiarów / cech jest zwiększana, a następnie maleje[11] co jest znane jako zjawisko Hughesa lub zjawisko szczytowe[10].
Wykrywanie anomalii[edytuj | edytuj kod]
W swoim badaniu[8] Zimek zidentyfikował następujące problemy podczas wyszukiwania anomalii w danych wielowymiarowych:
- Koncentracja wyników i odległości: wartości pochodne, takie jak odległości, stają się liczbowo podobne
- Nieistotne cechy: w danych wielowymiarowych znaczna liczba atrybutów może być nieistotna
- Definiowanie zestawów referencyjnych: w przypadku metod lokalnych zestawy odniesień są często oparte na najbliższym sąsiedztwie
- Nieporównywalność wyników z różnych wymiarów: różne podprzestrzenie dają nieporównywalne wyniki
- Problem z interpretacją wyników: wyniki często nie przekazują już znaczenia semantycznego
- Przestrzenie wyszukiwania nie mogą być systematycznie skanowane
- "Stronniczość danych": biorąc pod uwagę dużą przestrzeń poszukiwań, dla każdego pożądanego znaczenia można znaleźć hipotezę
- "Stopnie koncentracji": niektóre obiekty występują częściej na listach sąsiadów niż inne.
Wiele specjalistycznych metod analiz rozwiązuje część z tych problemów, lecz pozostaje wiele otwartych pytań badawczych.
Przypisy[edytuj | edytuj kod]
- ↑ Bellman, Richard, 1920-1984., Dynamic programming., Princeton,: Princeton University Press, [1972], ISBN 0-691-07951-X, OCLC 11538664 [dostęp 2019-01-08] .
- ↑ COMPOSTING ACTIVITIES AT CORNELL. By E. Z. Harrison, Associate Director, The Waste Management Institute, Cornell University, Ithaca, 14853-3501, NY, U.S.A, „Waste Management & Research”, 11 (2), 1993, s. 178–180, DOI: 10.1177/0734242x9301100210, ISSN 0734-242X [dostęp 2019-01-08] .
- ↑ Kamila Migdał Najman , Krzysztof Najman , Ocena wpływu wartości stałej Minkowskiego na możliwość identyfikacji struktury grupowej danych o wysokim wymiarze przy występowaniu wartości nietypowych, „Zarządzanie i Finanse Journal of Management and Finance”, 13, luty 2015, No. 4/2/2015 .
- ↑ R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification 2ed., Wiley, New York 2000
- ↑ Guyon, S. Gunn, M. Nikravesh, L. Zadeh, Feature extraction, foundations and applications, Springer, 2006
- ↑ Metody redukcji wymiarowości przestrzeni cech — Sztuczna inteligencja [online], books.icse.us.edu.pl [dostęp 2019-01-09] .
- ↑ K. Beyer, J. Goldstein, R. Ramakrishnan, U. Shaft: When Is “Nearest Neighbor” Meaningful?. W: C Beeri: Database theory--ICDT'99 : 7th International Conference, Jerusalem, Israel, 10 stycznia-12, 1999 : proceedings. Berlin New York: Springer, 1999, s. 217-235. DOI: 10.1007/3-540-49257-7_15. ISBN 978-3-540-65452-0. (ang.).
- ↑ a b Zimek, E. Schubert, H.-P. Kriegel. A survey on unsupervised outlier detection in high‐dimensional numerical data. „Statistical Analysis and Data Mining”. 5 (5), s. 363-387, 2012. DOI: 10.1002/sam.11161.
- ↑ Marimont, RB; Shapiro, MB. Nearest Neighborhood Searches and the Curse of Dimensionality. „IMA Journal of Applied Mathematics”. 24 (1), s. 59–70, 1979. DOI: 10.1093/imamat/24.1.59.
- ↑ a b Koutroumbas, Sergios Theodoridis, Konstantinos (2008). Pattern Recognition – 4th Edition. Burlington. Retrieved 8 January2018.
- ↑ Hughes, G.F.. On the mean accuracy of statistical pattern recognizers. „IEEE Transactions on Information Theory”. 14 (1), s. 55–63, January 1968. DOI: 10.1109/TIT.1968.1054102.