Prawo Zipfa

Z Wikipedii, wolnej encyklopedii
(Przekierowano z Rozkład Zipfa)
Skocz do: nawigacja, szukaj
Rozkład Zipfa
Funkcja rozkładu prawdopodobieństwa
Obydwie skale logarytmiczne. Oś pozioma to indeks k . Funkcja jest zdefiniowana tylko dla całkowitych wartości k. Łączące linie nie oznaczają tu ciągłości.
Obydwie skale logarytmiczne. Oś pozioma to indeks k . Funkcja jest zdefiniowana tylko dla całkowitych wartości k. Łączące linie nie oznaczają tu ciągłości.
Dystrybuanta
Dystrybuanta dla N=10
Dystrybuanta dla N=10
Parametry s>0\, (liczba rzeczywista)
N \in \{1,2,3\ldots\}
Nośnik k \in \{1,2,\ldots,N\}
Funkcja rozkładu prawdopodobieństwa \frac{1/k^s}{H_{N,s}}
Dystrybuanta \frac{H_{k,s}}{H_{N,s}}
Wartość oczekiwana (średnia) \frac{H_{N,s-1}}{H_{N,s}}
Moda 1\,
Entropia \frac{s}{H_{N,s}}\sum_{k=1}^N\frac{\ln(k)}{k^s}
+\ln(H_{N,s})
Funkcja tworząca momenty \frac{1}{H_{N,s}}\sum_{n=1}^N \frac{e^{nt}}{n^s}
Funkcja charakterystyczna \frac{1}{H_{N,s}}\sum_{n=1}^N \frac{e^{int}}{n^s}
Odkrywca George Kingsley Zipf (1935, 1949)

Prawo Zipfa lub prawo Estoupfa-Zipfa − prawo opisujące zasadę częstotliwości użycia w dowolnym języku poszczególnych wyrazów. Głosi ono, że jeżeli dla jakiegokolwiek tekstu lub grupy teksów ustala się wykaz wyrazów ułożonych w malejącym porządku częstotliwości ich występowania, to ranga rośnie w miarę zwiększania się numeru na wykazie (czyli w miarę zmniejszania się częstotliwości). Oznacza to, że częstotliwość jest odwrotnie proporcjonalna do rangi czyli iloczyn częstotliwości i rangi powinien być wielkością stałą[1].

Po koniec XIX wieku francuski stenograf i leksykograf Jean-Baptiste Estoup, badając zasady stenografii, ustalił podstawowe zasady statystyczne dotyczące tekstu. Twierdzenia francuskiego badacza zweryfikował i uściślił amerykański lingwista, zwolennik filozofii analitycznej, George Kingsley Zipf[1].

Prawo Estoupfa-Zipfa zostało matematycznie wyrażone w równaniu Estoupfa-Zipfa

r \times f = \mbox{constans}

gdzie r jest to ranga wyrazu w tekście lub grupie tekstów a f częstotliwość jego występowania[1].

Wartość stałej jest zależna od długości tekstu. Równanie ma zastosowanie przede wszystkim do tekstów o średniej długości. W dziełach krótkich tekst jest z oczywistych względów bardziej zróżnicowany, natomiast w tekstach długich mniej, co wpływa na wartość stałej[2].

Wynikający z równania tzw. rozkład Zipfa stosowany jest jako wzorzec, nie występujący w praktyce w sposób idealny. Informuje on o rozkładzie teoretycznym wyrazów w tekście. Dane pochodzące z konkretnego tekstu lub zbioru tekstu tworzą rozkład empiryczny. Porównanie obu rozkładów pozwala na ocenę stylu autora lub autorów. Im większa jest różnica między rozkładem teoretycznym a empirycznym, tym styl autora jest bardziej niezrozumiały. Gdy odchylenia są minimalne, styl zbliża się do doskonałości[2].

Na przykład, gdy w danym tekście 100. wyraz został użyty 314 razy tzn. (r\cdot f=31400), z kolei 200. wyraz został użyty 158 razy (r\cdot f=31600), to odchylenie od normy między setnym a dwusetnym wyrazem – zgodnie z prawem Estoupfa-Zipfa – wynosi około 0,008%[1].

Przypisy

  1. a b c d Ziomek 1990 ↓, s. 145.
  2. a b Ziomek 1990 ↓, s. 146.

Bibliografia[edytuj | edytuj kod]

Zobacz też[edytuj | edytuj kod]