Prawo Zipfa

Z Wikipedii, wolnej encyklopedii
(Przekierowano z Rozkład Zipfa)
Skocz do: nawigacja, szukaj
Rozkład Zipfa
Funkcja rozkładu prawdopodobieństwa
Obydwie skale logarytmiczne. Oś pozioma to indeks k . Funkcja jest zdefiniowana tylko dla całkowitych wartości k. Łączące linie nie oznaczają tu ciągłości.
Obydwie skale logarytmiczne. Oś pozioma to indeks k . Funkcja jest zdefiniowana tylko dla całkowitych wartości k. Łączące linie nie oznaczają tu ciągłości.
Dystrybuanta
Dystrybuanta dla N=10
Dystrybuanta dla N=10
Parametry (liczba rzeczywista)
Nośnik
Funkcja rozkładu prawdopodobieństwa
Dystrybuanta
Wartość oczekiwana (średnia)
Moda
Entropia
Funkcja tworząca momenty
Funkcja charakterystyczna
Odkrywca George Kingsley Zipf (1935, 1949)

Prawo Zipfa lub prawo Estoupfa-Zipfa − prawo opisujące zasadę częstotliwości użycia w dowolnym języku poszczególnych wyrazów. Głosi ono, że jeżeli dla jakiegokolwiek tekstu lub grupy teksów ustala się wykaz wyrazów ułożonych w malejącym porządku częstotliwości ich występowania, to ranga rośnie w miarę zwiększania się numeru na wykazie (czyli w miarę zmniejszania się częstotliwości). Oznacza to, że częstotliwość jest odwrotnie proporcjonalna do rangi czyli iloczyn częstotliwości i rangi powinien być wielkością stałą[1].

Po koniec XIX wieku francuski stenograf i leksykograf Jean-Baptiste Estoup, badając zasady stenografii, ustalił podstawowe zasady statystyczne dotyczące tekstu. Twierdzenia francuskiego badacza zweryfikował i uściślił amerykański lingwista, zwolennik filozofii analitycznej, George Kingsley Zipf[1].

Prawo Estoupfa-Zipfa zostało matematycznie wyrażone w równaniu Estoupfa-Zipfa

gdzie jest to ranga wyrazu w tekście lub grupie tekstów a częstotliwość jego występowania[1].

Wartość stałej jest zależna od długości tekstu. Równanie ma zastosowanie przede wszystkim do tekstów o średniej długości. W dziełach krótkich tekst jest z oczywistych względów bardziej zróżnicowany, natomiast w tekstach długich mniej, co wpływa na wartość stałej[2].

Wynikający z równania tzw. rozkład Zipfa stosowany jest jako wzorzec, nie występujący w praktyce w sposób idealny. Informuje on o rozkładzie teoretycznym wyrazów w tekście. Dane pochodzące z konkretnego tekstu lub zbioru tekstu tworzą rozkład empiryczny. Porównanie obu rozkładów pozwala na ocenę stylu autora lub autorów. Im większa jest różnica między rozkładem teoretycznym a empirycznym, tym styl autora jest bardziej niezrozumiały. Gdy odchylenia są minimalne, styl zbliża się do doskonałości[2].

Na przykład, gdy w danym tekście 100. wyraz został użyty 314 razy tzn. (), z kolei 200. wyraz został użyty 158 razy (), to odchylenie od normy między setnym a dwusetnym wyrazem – zgodnie z prawem Estoupfa-Zipfa – wynosi około 0,008%[1].

Przypisy

  1. a b c d Ziomek 1990 ↓, s. 145.
  2. a b Ziomek 1990 ↓, s. 146.

Bibliografia[edytuj]

Zobacz też[edytuj]