Analiza koszykowa
Analiza koszykowa – metoda z zakresu eksploracji danych, tworząca dla zbioru danych zestaw opisujących go przybliżonych reguł asocjacyjnych, tj. powiązań i skojarzeń pomiędzy konkretnymi wartościami zmiennych. Reguły takie przyjmują zasadniczo postać: "Jeżeli poprzednik to zwykle następnik", gdzie poprzednik i następnik to wyrażenia logiczne – dla przykładu:
- Jeżeli (typ_samochodu='sportowy' i wiek<25) to zwykle (ryzyko='wysokie' i ubezpieczenie='wysokie')
Analiza koszykowa (asocjacyjna) jest szczególnie przydatna przy operowaniu na dużych zbiorach danych oraz przy przetwarzaniu zmiennych nominalnych i porządkowych, jest więc często stosowana w text mining, gdzie dominują zmienne na skali nominalnej.
Innym częstym zakresem stosowania analizy koszykowej (od której wzięła swoją nazwę) jest badanie preferencji zakupowych klientów (czyli tego, co wkładają do koszyka w sklepie). I tak dla przykładu, analiza koszykowa pozwala uzyskać reguły typu „jeśli klient kupuje pieluchy i kupuje samochodzik, to często kupi niebieskie ubranka”, co pozwala z pewnym prawdopodobieństwem przewidywać jakie produkty zainteresują konsumenta, skoro nabył on kilka innych konkretnych towarów – na podstawie takiego przewidywania można np. zoptymalizować układ towarów w sklepie.
Współczynniki asocjacji
[edytuj | edytuj kod]Do podstawowych i najważniejszych współczynników w analizie koszykowej zaliczają się:
- wsparcie reguły – odsetek zdarzeń (np. transakcji), które zawierają wybraną regułę (wsparcie jest liczbą z przedziału [0,1];
- zaufanie (tzw. pewność reguły) – odsetek zdarzeń (np. transakcji) zawierających analizowaną regułę w zbiorze tych, które spełniają poprzednik danej reguły (zaufanie jest liczbą z przedziału [0,1] – odpowiada bowiem odpowiedniemu prawdopodobieństwu warunkowemu);
- przyrost – współczynnik określający, czy fakt wystąpienia jednego produktu wpływa na zwiększenie prawdopodobieństwa wystąpienia drugiego w ramach jednego zdarzenia (np. transakcji);
- korelacja – współczynnik określający wpływ (dodatni/ujemny) wyboru produktu A na prawdopodobieństwo wyboru produkt B.
Wydajnym i popularnym algorytmem analizy koszykowej jest algorytm apriori (Agrawal i Swami, 1993; Agrawal i Srikant, 1994; Han i Lakshmanan, 2001; Witten i Frank, 2000).
Bibliografia
[edytuj | edytuj kod]- Podręcznik elektroniczny StatSoft. statsoft.com. [zarchiwizowane z tego adresu (2009-02-27)].
- Portal naukowo-edukacyjny Statystyka od A do Z