Przekleństwo wymiarowości: Różnice pomiędzy wersjami

[wersja nieprzejrzana]

Usunięta treść Dodana treść

Jednokolumnowy

Wersja z 12:40, 9 sty 2019

Przekleństwo wymiarowości odnosi się do wielu właściwości przestrzeni wielowymiarowych i problemów kombinatorycznych. Przede wszystkim dotyczy wykładniczego wzrostu niezbędnych danych eksperymentalnych w zależności od wymiaru przestrzeni przy rozwiązywaniu problemów probabilistyczno-statystycznego rozpoznawania wzorców, uczenia maszynowego, klasyfikacji i analizy dyskryminacyjnej. Dotyczy to również wykładniczego wzrostu liczby wariantów w kombinatorycznych problemach w zależności od wielkości początkowych danych, co prowadzi do odpowiedniego zwiększenia złożoności algorytmów ponownego wyboru. Przekleństwo dotyczy również ciągłych metod optymalizacji, a także złożoności wielowymiarowej funkcji celu^[1]^[2].

Określenia „przekleństwo wymiarowości” po raz pierwszy użyto w opracowaniu w wydanym w 1961 roku przez Richarda Ernesta Bellmana „Adaptive control processes” . Pojęcie występowało również w pracach: White’a [1989], Bishopa[1995]. Wystąpiło również pod pojęciem „zjawisko pustej przestrzeni” (empty space phenomenon) w pracach Scotta i Thompsona [1983], Silvermana [1986]^[3].

Przekleństwo wymiarowości odnosi się do sytuacji gdy poprawna klasyfikacja obiektów, wykorzystując pełen zbiór danych jest niemal niemożliwa, oraz wielość charakterystyk w wektorze skutkuje wzrostem liczby parametrów ,co skutkuje wzrostem złożoność klasyfikatora^[4]. Rośnie również ryzyko przeuczenia (overfitting) i tym samym spadku zdolności uogólniających (ang. Generalization) klasyfikatora. Jest to przyczyną do powszechnego zmniejszenia wymiarowości cech. Przyczyną problemów jest identyfikacja podzbioru cech, który posłuży poprawnej klasyfikacji danych przez algorytm^[5]^[6].

Zjawisko to stanowi poważną przeszkodę dla efektywności algorytmów eksploracji danych, analizy numerycznej, badań statystycznych, kombinatoryki oraz uczenia maszynowego.

Domains

Funkcja odległości

Dla różnych typów rozkładów losowych zbiorów danych różnica pomiędzy najmniejszą, a największą odległością pomiędzy zbiorami staje się nieznaczącą w porównaniu do najmniejszej odległości, gdy zwiększa się miara d (innymi słowy: najmniejsze i największe odległości różnią się tylko stosunkowo niewielkim wielkościami), a zatem wyniki funkcji odległości i algorytmów na nich opartych), przestają być użyteczne dla rozkładów w przestrzeniach wielowymiarowych^[7].

Można to przedstawić za pomocą poniższego wzoru:

$\lim _{d\to \infty }E\left({\frac {\operatorname {dist} _{\max }(d)-\operatorname {dist} _{\min }(d)}{\operatorname {dist} _{\min }(d)}}\right)\to 0$

Najnowsze badania sugerują jednak że tylko „nieistotne” wymiary powodują ten efekt.

Jeżeli atrybuty są skorelowane, dane mogą stać się czytelniejsze i zapewnią wyższy kontrast,a odległość i stosunek sygnału do szumu będą odpowiednie, oznacza to cecha powinna zostać uwzględniona^[8].

Rozpoznawanie wzorców

W probabilistycznych problemach rozpoznawania istnieją dwie sytuacje, w których przekleństwo wymiarowości można przezwyciężyć :

Możliwe, że rozkład wektora wzajemnie zależnych zmiennych losowych jest skoncentrowany w podprzestrzeni o niższej wymiarowości, to znaczy, że wektor może być dobrze aproksymowany przez liniową funkcję mniejszej liczby zmiennych. W takim przypadku analiza głównych składowych (PCA) zmniejsza liczbę wymiarów. Ponadto przypisane zadania rozpoznawania (dyskryminacji) można rozwiązać już w przestrzeni o mniejszej ilości wymiarów.

Jest również możliwe, że zmienne losowe badanych wektorów są niezależne lub słabo skorelowane . W tym przypadku można odzyskać jednowymiarowe rozkłady zmiennych losowych i skonstruować wielowymiarowe rozkłady jako swoje produkty.

Powszechnie stosowanym algorytmem do analizy danych wielowymiarowych jest algorytm najbliższego sąsiada. Ta metoda może być stosowana przy badaniu próbek o dowolnym rozmiarze, niezależnie od wymiarów wektorów, jednakże podstawowym problemem tego algorytmu jest brak wystarczającej ilości informacji o obiekcie opisywanym dużą liczbą istotnych parametrów^[9].

Zadania optymalizacyjne

Przekleństwo wymiarowości ma spływ również na problemy optymalizacyjne.

W problemach związanych z optymalizacją dyskretną czas działania algorytmów można zredukować za pomocą algorytmu BnB oraz algorytmów heurystycznych.

Metody te są skuteczne jednak tylko w części przypadków i nie rozwiązują problemu one problemu przekleństwa wymiarowości.

Uczenie maszynowe

W problemach z uczeniem maszynowym polegających na uczeniu się "stanu natury" ze skończonej liczby próbek danych w wielowymiarowej przestrzeni cech, przy czym każda cecha ma zakres możliwych wartości, zazwyczaj wymagana jest ogromna ilość danych szkoleniowych w celu zapewnienia że istnieje kilka próbek z każdą kombinacją wartości. Zasada mówi, że powinno być co najmniej 5 przykładów szkoleniowych dla każdego wymiaru^[10]. Przy ustalonej liczbie próbek treningowych najpierw zwiększa się moc predykcyjna klasyfikatora lub regresora, gdy liczba użytych wymiarów / cech jest zwiększana, a następnie maleje^[11] co jest znane jako zjawisko Hughesa lub zjawisko szczytowe^[10].

Wykrywanie anomalii

W niedawnym badaniu^[12] Zimek zidentyfikował następujące problemy podczas wyszukiwania anomalii w danych wielowymiarowych:

Koncentracja wyników i odległości: wartości pochodne, takie jak odległości, stają się liczbowo podobne
Nieistotne cechy: w danych wielowymiarowych znaczna liczba atrybutów może być nieistotna
Definiowanie zestawów referencyjnych: w przypadku metod lokalnych zestawy odniesień są często oparte na najbliższym sąsiedztwie
Nieporównywalność wyników z różnych wymiarów: różne podprzestrzenie dają nieporównywalne wyniki
Problem z interpretacją wyników : wyniki często nie przekazują już znaczenia semantycznego
Przestrzenie wyszukiwania nie mogą być systematycznie skanowane
"Stronniczość danych" : biorąc pod uwagę dużą przestrzeń poszukiwań, dla każdego pożądanego znaczenia można znaleźć hipotezę
"Stopnie koncentracji" : niektóre obiekty występują częściej na listach sąsiadów niż inne.

Wiele analizowanych specjalistycznych metod rozwiązuje jeden \z tych problemów, ale pozostaje wiele otwartych pytań badawczych.

Przypisy

↑ Bellman, Richard, 1920-1984., Dynamic programming., Princeton,: Princeton University Press, [1972], ISBN 0-691-07951-X, OCLC 11538664 [dostęp 2019-01-08] .
↑ COMPOSTING ACTIVITIES AT CORNELL. By E. Z. Harrison, Associate Director, The Waste Management Institute, Cornell University, Ithaca, 14853-3501, NY, U.S.A, „Waste Management & Research”, 11 (2), 1993, s. 178–180, DOI: 10.1177/0734242x9301100210, ISSN 0734-242X [dostęp 2019-01-08] .
↑ Kamila MigdałK.M. Najman Kamila MigdałK.M., KrzysztofK. Najman KrzysztofK., Ocena wpływu wartości stałej Minkowskiego na możliwość identyfikacji struktury grupowej danych o wysokim wymiarze przy występowaniu wartości nietypowych., „Zarządzanie i Finanse Journal of Management and Finance”, 13, luty 2015 .
↑ R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification 2ed., Wiley, New York 2000.
↑ Guyon, S. Gunn, M. Nikravesh, L. Zadeh, Feature extraction, foundations and applications, Springer, 2006
↑ http://books.icse.us.edu.pl/runestone/static/ai/MetodyRedukcjiWymiarowosciPrzestrzeniCech/Wstep.html
↑ K. Beyer, J. Goldstein, R. Ramakrishnan, U. Shaft: C Beeri: Database theory--ICDT'99 : 7th International Conference, Jerusalem, Israel, 10 stycznia-12, 1999 : proceedings. Berlin New York: Springer, 1999, s. 217. DOI: 10.1007/3-540-49257-7_15. ISBN 978-3-540-65452-0. (ang.).
↑ Zimek, E. Schubert, H.-P. Kriegel. A survey on unsupervised outlier detection in high‐dimensional numerical data. „Statistical Analysis and Data Mining”. 5 (5), s. 363-387, 2012. DOI: 10.1002/sam.11161.
↑ Marimont, RB; Shapiro, MB (1979). “Nearest Neighborhood Searches and the Curse of Dimensionality . ” IMA J Appl Math . 24 (1): 59–70. DOI : 10.1093 / imamat / 24.1.59 .
↑ ^a ^b Koutroumbas, Sergios Theodoridis, Konstantinos (2008). Pattern Recognition - 4th Edition. Burlington. Retrieved 8 January2018.
↑ Hughes, G.F. (January 1968). "On the mean accuracy of statistical pattern recognizers". IEEE Transactions on Information Theory. 14 (1): 55–63. doi:10.1109/TIT.1968.1054102.
↑ Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "A survey on unsupervised outlier detection in high-dimensional numerical data". Statistical Analysis and Data Mining. 5 (5): 363–387. doi:10.1002/sam.11161.

[1] Bellman, Richard, 1920-1984., Dynamic programming., Princeton,: Princeton University Press, [1972], ISBN 0-691-07951-X, OCLC 11538664 [dostęp 2019-01-08] .

[2] COMPOSTING ACTIVITIES AT CORNELL. By E. Z. Harrison, Associate Director, The Waste Management Institute, Cornell University, Ithaca, 14853-3501, NY, U.S.A, „Waste Management & Research”, 11 (2), 1993, s. 178–180, DOI: 10.1177/0734242x9301100210, ISSN 0734-242X [dostęp 2019-01-08] .

[3] Kamila MigdałK.M. Najman Kamila MigdałK.M., KrzysztofK. Najman KrzysztofK., Ocena wpływu wartości stałej Minkowskiego na możliwość identyfikacji struktury grupowej danych o wysokim wymiarze przy występowaniu wartości nietypowych., „Zarządzanie i Finanse Journal of Management and Finance”, 13, luty 2015 .

[4] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification 2ed., Wiley, New York 2000.

[5] Guyon, S. Gunn, M. Nikravesh, L. Zadeh, Feature extraction, foundations and applications, Springer, 2006

[6] ttp://books.icse.us.edu.pl/runestone/static/ai/MetodyRedukcjiWymiarowosciPrzestrzeniCech/Wstep.html

[7] K. Beyer, J. Goldstein, R. Ramakrishnan, U. Shaft: C Beeri: Database theory--ICDT'99 : 7th International Conference, Jerusalem, Israel, 10 stycznia-12, 1999 : proceedings. Berlin New York: Springer, 1999, s. 217. DOI: 10.1007/3-540-49257-7_15. ISBN 978-3-540-65452-0. (ang.).

[8] Zimek, E. Schubert, H.-P. Kriegel. A survey on unsupervised outlier detection in high‐dimensional numerical data. „Statistical Analysis and Data Mining”. 5 (5), s. 363-387, 2012. DOI: 10.1002/sam.11161.

[9] Marimont, RB; Shapiro, MB (1979). “Nearest Neighborhood Searches and the Curse of Dimensionality . ” IMA J Appl Math . 24 (1): 59–70. DOI : 10.1093 / imamat / 24.1.59 .

[Pattern_recog-10] Koutroumbas, Sergios Theodoridis, Konstantinos (2008). Pattern Recognition - 4th Edition. Burlington. Retrieved 8 January2018.

[11] Hughes, G.F. (January 1968). "On the mean accuracy of statistical pattern recognizers". IEEE Transactions on Information Theory. 14 (1): 55–63. doi:10.1109/TIT.1968.1054102.

[survey-12] Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "A survey on unsupervised outlier detection in high-dimensional numerical data". Statistical Analysis and Data Mining. 5 (5): 363–387. doi:10.1002/sam.11161.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

@@ Linia 1: / Linia 1: @@
 '''Przekleństwo wymiarowości''' odnosi się do wielu właściwości przestrzeni wielowymiarowych i problemów kombinatorycznych. Przede wszystkim dotyczy wykładniczego wzrostu niezbędnych danych eksperymentalnych w zależności od wymiaru przestrzeni przy rozwiązywaniu problemów probabilistyczno-statystycznego rozpoznawania wzorców, uczenia maszynowego, klasyfikacji i analizy dyskryminacyjnej. Dotyczy to również wykładniczego wzrostu liczby wariantów w kombinatorycznych problemach w zależności od wielkości początkowych danych, co prowadzi do odpowiedniego zwiększenia złożoności algorytmów ponownego wyboru. Przekleństwo dotyczy również ciągłych metod optymalizacji, a także złożoności wielowymiarowej funkcji celu<ref>{{Cytuj |autor = Bellman, Richard, 1920-1984. |tytuł = Dynamic programming. |data = [1972] |data dostępu = 2019-01-08 |isbn = 069107951X |miejsce = Princeton, |wydawca = Princeton University Press |oclc = 11538664}}</ref><ref>{{Cytuj |tytuł = COMPOSTING ACTIVITIES AT CORNELL. By E. Z. Harrison, Associate Director, The Waste Management Institute, Cornell University, Ithaca, 14853-3501, NY, U.S.A |czasopismo = Waste Management & Research |data = 1993-03 |data dostępu = 2019-01-08 |issn = 0734-242X |wolumin = 11 |numer = 2 |s = 178–180 |doi = 10.1177/0734242x9301100210}}</ref>.
-Określenia „przekleństwo wymiarowości” po raz pierwszy użyto w opracowaniu w wydanym w 1961 roku przez Richarda Ernesta Bellmana „Adaptive control processes” . Pojęcie występowało również  w pracach: White’a [1989], Bishopa[1995]. Wystąpiło również pod pojęciem „zjawisko pustej przestrzeni” (empty space phenomenon) w pracach Scotta i Thompsona [1983], Silvermana [1986]<ref>{{Cytuj |autor = Kamila Migdał Najman
+Określenia „przekleństwo wymiarowości” po raz pierwszy użyto w opracowaniu w wydanym w 1961 roku przez Richarda Ernesta Bellmana „Adaptive control processes” . Pojęcie występowało również  w pracach: White’a [1989], Bishopa[1995]. Wystąpiło również pod pojęciem „zjawisko pustej przestrzeni” (empty space phenomenon) w pracach Scotta i Thompsona [1983], Silvermana [1986]<ref>{{Cytuj |autor = Kamila Migdał Najman, Krzysztof Najman |tytuł = Ocena wpływu wartości stałej Minkowskiego na możliwość identyfikacji struktury grupowej danych o wysokim wymiarze przy występowaniu wartości nietypowych.
+|czasopismo= Zarządzanie i Finanse Journal of Management and Finance |wolumin=13 |oznaczenie=No. 4/2/2015 |url= http://zif.wzr.pl/pim/2015_4_2_14.pdf |data = 4/2/2015}}</ref>.
-Krzysztof Najman |tytuł = Ocena wpływu wartości stałej Minkowskiego
-na możliwość identyfikacji struktury grupowej danych
-o wysokim wymiarze przy występowaniu wartości
-nietypowych.
+Przekleństwo wymiarowości odnosi się do sytuacji gdy poprawna klasyfikacja obiektów, wykorzystując pełen zbiór danych jest niemal niemożliwa, oraz wielość charakterystyk w wektorze skutkuje  wzrostem liczby parametrów ,co skutkuje wzrostem złożoność klasyfikatora<ref>R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification 2ed., Wiley, New York 2000.</ref>. Rośnie również ryzyko przeuczenia (overfitting) i tym samym spadku zdolności uogólniających (ang. Generalization)  klasyfikatora. Jest to przyczyną  do powszechnego zmniejszenia wymiarowości cech. Przyczyną problemów  jest identyfikacja podzbioru cech, który posłuży poprawnej klasyfikacji danych przez algorytm<ref>Guyon, S. Gunn, M. Nikravesh, L. Zadeh, Feature extraction, foundations and applications, Springer, 2006</ref><ref>http://books.icse.us.edu.pl/runestone/static/ai/MetodyRedukcjiWymiarowosciPrzestrzeniCech/Wstep.html</ref>.
-Zarządzanie i Finanse Journal of Management and Finance Vol. 13, No. 4/2/2015
-http://zif.wzr.pl/pim/2015_4_2_14.pdf |data = 4/2/2015}}</ref>.
-Przekleństwo wymiarowości odnosi się do sytuacji gdy poprawna klasyfikacja obiektów, wykorzystując pełen zbiór danych jest niemal niemożliwa, oraz wielość charakterystyk w wektorze skutkuje  wzrostem liczby parametrów ,co skutkuje wzrostem złożoność klasyfikatora<ref>R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification 2ed., Wiley, New York 2000.</ref>. Rośnie również ryzyko przeuczenia (overfitting) i tym samym spadku zdolności uogólniających   (ang. Generalization)  klasyfikatora. Jest to przyczyną  do powszechnego zmniejszenia wymiarowości cech. Przyczyną problemów  jest identyfikacja podzbioru cech, który posłuży poprawnej klasyfikacji danych przez algorytm<ref>Guyon, S. Gunn, M. Nikravesh, L. Zadeh, Feature extraction, foundations and applications, Springer, 2006</ref><ref>http://books.icse.us.edu.pl/runestone/static/ai/MetodyRedukcjiWymiarowosciPrzestrzeniCech/Wstep.html</ref>.
 Zjawisko to stanowi poważną przeszkodę dla efektywności algorytmów eksploracji danych, analizy numerycznej, badań statystycznych, kombinatoryki  oraz uczenia maszynowego.
@@ Linia 17: / Linia 10: @@
 == Domains ==
 === Funkcja odległości ===
-Dla różnych typów rozkładów losowych zbiorów danych różnica pomiędzy najmniejszą, a największą odległością pomiędzy zbiorami staje się nieznaczącą w porównaniu do najmniejszej odległości, gdy zwiększa się miara d (innymi słowy: najmniejsze i największe odległości różnią się tylko stosunkowo niewielkim wielkościami),  a zatem wyniki funkcji odległości i algorytmów na nich opartych), przestają być użyteczne  dla rozkładów w przestrzeniach wielowymiarowych<ref>K. Beyer, J. Goldstein, R. Ramakrishnan, U. Shaft:  In: . LNCS 1540. Springer, 1999, ISBN 978-3-540-65452-0 , S. 217, doi:10.1007/3-540-49257-7_15.</ref>.
+Dla różnych typów rozkładów losowych zbiorów danych różnica pomiędzy najmniejszą, a największą odległością pomiędzy zbiorami staje się nieznaczącą w porównaniu do najmniejszej odległości, gdy zwiększa się miara d (innymi słowy: najmniejsze i największe odległości różnią się tylko stosunkowo niewielkim wielkościami),  a zatem wyniki funkcji odległości i algorytmów na nich opartych), przestają być użyteczne  dla rozkładów w przestrzeniach wielowymiarowych<ref>{{Cytuj książkę | nazwisko = Beeri | imię = C | tytuł = Database theory--ICDT'99 : 7th International Conference, Jerusalem, Israel, 10 stycznia-12, 1999 : proceedings | wydawca = Springer | miejsce = Berlin New York | rok = 1999 | isbn = 978-3-540-65452-0 | język = en |autor r=K. Beyer, J. Goldstein, R. Ramakrishnan, U. Shaft| strony= 217| doi=10.1007/3-540-49257-7_15}}</ref>.
 Można to przedstawić za pomocą poniższego wzoru:
@@ Linia 26: / Linia 19: @@
 Najnowsze badania sugerują jednak że tylko „nieistotne” wymiary powodują ten efekt.
-Jeżeli atrybuty są skorelowane, dane mogą stać się czytelniejsze i zapewnią wyższy kontrast,a  odległość i stosunek sygnału do szumu będą odpowiednie, oznacza to cecha powinna zostać uwzględniona<ref>Zimek, E. Schubert, H.-P. Kriegel :  . In:  . Volume  5 , No.  5 , 2012, pp.  363-387 , doi : 10.1002 / sam.11161 .</ref>.
+Jeżeli atrybuty są skorelowane, dane mogą stać się czytelniejsze i zapewnią wyższy kontrast,a  odległość i stosunek sygnału do szumu będą odpowiednie, oznacza to cecha powinna zostać uwzględniona<ref>{{Cytuj pismo | autor  = Zimek, E. Schubert, H.-P. Kriegel | tytuł = A survey on unsupervised outlier detection in high‐dimensional numerical data | czasopismo =Statistical Analysis and Data Mining | wolumin = 5| wydanie =5| strony =363-387 | data =2012 | wydawca = | miejsce = | issn = | doi =  10.1002/sam.11161}}</ref>.
 === Rozpoznawanie wzorców ===