Przekleństwo wymiarowości

Przekleństwo wymiarowości odnosi się do wielu właściwości przestrzeni wielowymiarowych i problemów kombinatorycznych. Przede wszystkim dotyczy wykładniczego wzrostu niezbędnych danych eksperymentalnych w zależności od wymiaru przestrzeni przy rozwiązywaniu problemów probabilistyczno-statystycznego rozpoznawania wzorców, uczenia maszynowego, klasyfikacji i analizy dyskryminacyjnej. Dotyczy to również wykładniczego wzrostu liczby wariantów w kombinatorycznych problemach w zależności od wielkości początkowych danych, co prowadzi do odpowiedniego zwiększenia złożoności algorytmów ponownego wyboru. Przekleństwo dotyczy również ciągłych metod optymalizacji, a także złożoności wielowymiarowej funkcji celu^[1]^[2].

Określenia „przekleństwo wymiarowości” po raz pierwszy użyto w opracowaniu w wydanym w 1961 roku przez Richarda Ernesta Bellmana „Adaptive control processes”. Pojęcie występowało również w pracach: White’a (1989), Bishopa (1995). Wystąpiło również pod pojęciem „zjawisko pustej przestrzeni” (ang. empty space phenomenon) w pracach Scotta i Thompsona (1983), Silvermana (1986)^[3].

Przekleństwo wymiarowości odnosi się do sytuacji, gdy poprawna klasyfikacja obiektów, wykorzystując pełny zbiór danych, jest niemal niemożliwa, a wielość charakterystyk w wektorze skutkuje wzrostem liczby parametrów, co skutkuje wzrostem złożoność klasyfikatora^[4]. Rośnie również ryzyko przeuczenia (ang. overfitting) i tym samym spadku zdolności uogólniających (ang. generalization) klasyfikatora. Jest to przyczyną powszechnego zmniejszenia wymiarowości cech. Przyczyną problemów jest identyfikacja podzbioru cech, który posłuży poprawnej klasyfikacji danych przez algorytm^[5]^[6].

Zjawisko to stanowi poważną przeszkodę dla efektywności algorytmów eksploracji danych, analizy numerycznej, badań statystycznych, kombinatoryki oraz uczenia maszynowego.

Występowanie[edytuj | edytuj kod]

Funkcja odległości[edytuj | edytuj kod]

Dla różnych typów rozkładów losowych zbiorów danych różnica pomiędzy najmniejszą, a największą odległością pomiędzy zbiorami staje się nieznaczącą w porównaniu do najmniejszej odległości, gdy zwiększa się miara d (innymi słowy: najmniejsze i największe odległości różnią się tylko stosunkowo niewielkim wielkościami), a zatem wyniki funkcji odległości i algorytmów na nich opartych), przestają być użyteczne dla rozkładów w przestrzeniach wielowymiarowych^[7].

Można to przedstawić za pomocą poniższego wzoru:

$\lim _{d\to \infty }E\left({\frac {\operatorname {dist} _{\max }(d)-\operatorname {dist} _{\min }(d)}{\operatorname {dist} _{\min }(d)}}\right)\to 0$

Najnowsze badania sugerują jednak że tylko „nieistotne” wymiary powodują ten efekt.

Jeżeli atrybuty są skorelowane, dane mogą stać się czytelniejsze i zapewnią wyższy kontrast a odległość i stosunek sygnału do szumu będą odpowiednie, oznacza to że, cecha powinna zostać uwzględniona^[8].

Rozpoznawanie wzorców[edytuj | edytuj kod]

W probabilistycznych problemach rozpoznawania istnieją dwie sytuacje, w których przekleństwo wymiarowości można przezwyciężyć :

Możliwe, że rozkład wektora wzajemnie zależnych zmiennych losowych jest skoncentrowany w podprzestrzeni o niższej wymiarowości, to znaczy, że wektor może być dobrze aproksymowany przez liniową funkcję mniejszej liczby zmiennych. W takim przypadku analiza głównych składowych (PCA) zmniejsza liczbę wymiarów. Ponadto przypisane zadania rozpoznawania (dyskryminacji) można rozwiązać już w przestrzeni o mniejszej ilości wymiarów.

Jest również możliwe, że zmienne losowe badanych wektorów są niezależne lub słabo skorelowane. W tym przypadku można odzyskać jednowymiarowe rozkłady zmiennych losowych i skonstruować wielowymiarowe rozkłady jako swoje produkty.

Powszechnie stosowanym algorytmem do analizy danych wielowymiarowych jest algorytm najbliższego sąsiada. Ta metoda może być stosowana przy badaniu próbek o dowolnym rozmiarze, niezależnie od wymiarów wektorów, jednakże podstawowym problemem tego algorytmu jest brak wystarczającej ilości informacji o obiekcie opisywanym dużą liczbą istotnych parametrów^[9].

Zadania optymalizacyjne[edytuj | edytuj kod]

Przekleństwo wymiarowości ma wpływ również na problemy optymalizacyjne.

W problemach związanych z optymalizacją dyskretną czas działania algorytmów można zredukować za pomocą algorytmu BnB oraz algorytmów heurystycznych.

Metody te są skuteczne jednak tylko w części przypadków i nie rozwiązują one problemu przekleństwa wymiarowości.

Uczenie maszynowe[edytuj | edytuj kod]

W problemach z uczeniem maszynowym polegających na uczeniu się "stanu natury" ze skończonej liczby próbek danych w wielowymiarowej przestrzeni cech, przy czym każda cecha ma zakres możliwych wartości, zazwyczaj wymagana jest ogromna ilość danych szkoleniowych w celu zapewnienia że istnieje kilka próbek z każdą kombinacją wartości. Zasada mówi, że powinno być co najmniej 5 przykładów szkoleniowych dla każdego wymiaru^[10]. Przy ustalonej liczbie próbek treningowych najpierw zwiększa się moc predykcyjna klasyfikatora lub regresora, gdy liczba użytych wymiarów / cech jest zwiększana, a następnie maleje^[11] co jest znane jako zjawisko Hughesa lub zjawisko szczytowe^[10].

Wykrywanie anomalii[edytuj | edytuj kod]

W swoim badaniu^[8] Zimek zidentyfikował następujące problemy podczas wyszukiwania anomalii w danych wielowymiarowych:

Koncentracja wyników i odległości: wartości pochodne, takie jak odległości, stają się liczbowo podobne
Nieistotne cechy: w danych wielowymiarowych znaczna liczba atrybutów może być nieistotna
Definiowanie zestawów referencyjnych: w przypadku metod lokalnych zestawy odniesień są często oparte na najbliższym sąsiedztwie
Nieporównywalność wyników z różnych wymiarów: różne podprzestrzenie dają nieporównywalne wyniki
Problem z interpretacją wyników: wyniki często nie przekazują już znaczenia semantycznego
Przestrzenie wyszukiwania nie mogą być systematycznie skanowane
"Stronniczość danych": biorąc pod uwagę dużą przestrzeń poszukiwań, dla każdego pożądanego znaczenia można znaleźć hipotezę
"Stopnie koncentracji": niektóre obiekty występują częściej na listach sąsiadów niż inne.

Wiele specjalistycznych metod analiz rozwiązuje część z tych problemów, lecz pozostaje wiele otwartych pytań badawczych.

Przypisy[edytuj | edytuj kod]

↑ Bellman, Richard, 1920-1984., Dynamic programming., Princeton,: Princeton University Press, [1972], ISBN 0-691-07951-X, OCLC 11538664 [dostęp 2019-01-08] .
↑ COMPOSTING ACTIVITIES AT CORNELL. By E. Z. Harrison, Associate Director, The Waste Management Institute, Cornell University, Ithaca, 14853-3501, NY, U.S.A, „Waste Management & Research”, 11 (2), 1993, s. 178–180, DOI: 10.1177/0734242x9301100210, ISSN 0734-242X [dostęp 2019-01-08] .
↑ Kamila MigdałK.M. Najman Kamila MigdałK.M., KrzysztofK. Najman KrzysztofK., Ocena wpływu wartości stałej Minkowskiego na możliwość identyfikacji struktury grupowej danych o wysokim wymiarze przy występowaniu wartości nietypowych, „Zarządzanie i Finanse Journal of Management and Finance”, 13, luty 2015, No. 4/2/2015 .
↑ R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification 2ed., Wiley, New York 2000
↑ Guyon, S. Gunn, M. Nikravesh, L. Zadeh, Feature extraction, foundations and applications, Springer, 2006
↑ Metody redukcji wymiarowości przestrzeni cech — Sztuczna inteligencja [online], books.icse.us.edu.pl [dostęp 2019-01-09] .
↑ K. Beyer, J. Goldstein, R. Ramakrishnan, U. Shaft: When Is “Nearest Neighbor” Meaningful?. W: C Beeri: Database theory--ICDT'99 : 7th International Conference, Jerusalem, Israel, 10 stycznia-12, 1999 : proceedings. Berlin New York: Springer, 1999, s. 217-235. DOI: 10.1007/3-540-49257-7_15. ISBN 978-3-540-65452-0. (ang.).
↑ ^a ^b Zimek, E. Schubert, H.-P. Kriegel. A survey on unsupervised outlier detection in high‐dimensional numerical data. „Statistical Analysis and Data Mining”. 5 (5), s. 363-387, 2012. DOI: 10.1002/sam.11161.
↑ Marimont, RB; Shapiro, MB. Nearest Neighborhood Searches and the Curse of Dimensionality. „IMA Journal of Applied Mathematics”. 24 (1), s. 59–70, 1979. DOI: 10.1093/imamat/24.1.59.
↑ ^a ^b Koutroumbas, Sergios Theodoridis, Konstantinos (2008). Pattern Recognition – 4th Edition. Burlington. Retrieved 8 January2018.
↑ Hughes, G.F.. On the mean accuracy of statistical pattern recognizers. „IEEE Transactions on Information Theory”. 14 (1), s. 55–63, January 1968. DOI: 10.1109/TIT.1968.1054102.

[1] Bellman, Richard, 1920-1984., Dynamic programming., Princeton,: Princeton University Press, [1972], ISBN 0-691-07951-X, OCLC 11538664 [dostęp 2019-01-08] .

[2] COMPOSTING ACTIVITIES AT CORNELL. By E. Z. Harrison, Associate Director, The Waste Management Institute, Cornell University, Ithaca, 14853-3501, NY, U.S.A, „Waste Management & Research”, 11 (2), 1993, s. 178–180, DOI: 10.1177/0734242x9301100210, ISSN 0734-242X [dostęp 2019-01-08] .

[3] Kamila MigdałK.M. Najman Kamila MigdałK.M., KrzysztofK. Najman KrzysztofK., Ocena wpływu wartości stałej Minkowskiego na możliwość identyfikacji struktury grupowej danych o wysokim wymiarze przy występowaniu wartości nietypowych, „Zarządzanie i Finanse Journal of Management and Finance”, 13, luty 2015, No. 4/2/2015 .

[4] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification 2ed., Wiley, New York 2000

[5] Guyon, S. Gunn, M. Nikravesh, L. Zadeh, Feature extraction, foundations and applications, Springer, 2006

[6] Metody redukcji wymiarowości przestrzeni cech — Sztuczna inteligencja [online], books.icse.us.edu.pl [dostęp 2019-01-09] .

[7] K. Beyer, J. Goldstein, R. Ramakrishnan, U. Shaft: When Is “Nearest Neighbor” Meaningful?. W: C Beeri: Database theory--ICDT'99 : 7th International Conference, Jerusalem, Israel, 10 stycznia-12, 1999 : proceedings. Berlin New York: Springer, 1999, s. 217-235. DOI: 10.1007/3-540-49257-7_15. ISBN 978-3-540-65452-0. (ang.).

[survey-8] Zimek, E. Schubert, H.-P. Kriegel. A survey on unsupervised outlier detection in high‐dimensional numerical data. „Statistical Analysis and Data Mining”. 5 (5), s. 363-387, 2012. DOI: 10.1002/sam.11161.

[9] Marimont, RB; Shapiro, MB. Nearest Neighborhood Searches and the Curse of Dimensionality. „IMA Journal of Applied Mathematics”. 24 (1), s. 59–70, 1979. DOI: 10.1093/imamat/24.1.59.

[Pattern_recog-10] Koutroumbas, Sergios Theodoridis, Konstantinos (2008). Pattern Recognition – 4th Edition. Burlington. Retrieved 8 January2018.

[11] Hughes, G.F.. On the mean accuracy of statistical pattern recognizers. „IEEE Transactions on Information Theory”. 14 (1), s. 55–63, January 1968. DOI: 10.1109/TIT.1968.1054102.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]