Wikipedia:Automatyczne sprawdzanie pisowni

Z Wikipedii, wolnej encyklopedii

Przydałoby się automatyczne sprawdzanie pisowni działające na zasadzie kilku heurystyk typu: jeśli jakieś słowo jest mało prawdopodobne, a przyjęcie teorii że powstało w wyniku literówki czyni je bardziej prawdopodobnym, zaznacz je jako "błąd". Literówki bardzo prawdopodobne to:

  • zbyt późne puszczenie prawego altu, czyli ogonkizacja litery występującej po literze zogonkizowanej np. "prześłij" zamiast "prześlij"
  • zamiana kolejności dwóch liter
  • inne konwersje litera->litera, przy czym niektóre konwersje są o wiele bardziej prawdopodobne od innych, zależnie od statusu ogonkowego i położenia na typowej klawiaturze.

Zostały zrobione obliczenia częstości występowania wyrazów. Wyrazy na Wikipedii to oczywiście rzecz względna, więc wszystko co przeżyło poniższe:

#!/usr/bin/perl -p

s/<.*?>/ /g;
s/[^a-zA-Z\\200-\\377]+/ /g;
s/\s+/ /g;
s/^ //;
s/ $//;
s/ /\n/g;
y/A-Z/a-z/;
$_ .= "\n" unless $_ eq "";

jest "wyrazem".

Ciekawostki:

  • Najpopularniejszy wyraz nie-łaciński to: き (12 wystąpień)
  • Odnotowano 140 101 różnych wyrazów
  • 52.8% wyrazów wystąpiło tylko raz, i stanowiły one 5.9% wystąpień wyrazów
  • 1183 wyrazy (0.84%) stanowiły 50% wszystkich wystąpień wyrazów

A teraz statystyki, od góry to:

40878	w
24328	i
16366	na
15301	z
13933	się
11492	do
9632	jest
8149	to
7675	nie
6463	a
6228	powiat
5868	lata
5547	województwo
5308	województwie
5264	miejscowość
5261	o
4743	te
4670	wieku
4599	przez
4575	od
3546	po
3384	lub
3376	język
3220	są
3152	że
2988	roku
2728	oraz
2647	wiek
2577	jak
2529	za
2455	też
2284	dla
2197	zobacz
2125	rok
2016	http
1978	jako
1969	tym
1965	nbsp
1917	jego
1886	może
1837	także
1828	co
1811	np
1690	pod
1657	historia
1629	m
1611	które
1610	ze
1604	www
1602	ma
1589	xviii
1556	wikipedia
1525	en
1514	być
1496	tego
1488	x
1469	xix
1459	tylko
1454	r
1454	ale
1439	jednak
1422	ich
1411	n
1403	xx
1395	można
1375	polsce
1370	czy
1359	dzień
1311	był
1282	ii
1267	p
1251	e
1240	redirect
1239	polski
1224	km
1180	nobla
1176	the
1173	taw
1161	wikipedysta
1157	tak
1116	wydarzenia
1107	który
1078	s
1077	c
1042	jej
1030	pl
1028	czyli
1027	wikipedii
1026	of
1021	innych
1013	zmarli
1012	urodzili
1012	bardzo
992	nagroda
986	xv
984	art
981	ten
978	lat
974	ok
969	latach
951	tys
948	wojna
933	informatyki
925	również
922	strony
918	tej
915	świecie
912	polska
906	usa
904	lipca
901	języki
896	już
894	mln
893	przy
886	jeśli
881	de
866	których
848	u
845	in
825	tych
824	został
823	grafika
818	iii
806	między
806	kpjas
798	nad
795	polskich
787	maja
780	inne
755	nazwa
743	prawo
737	dni
736	b
714	państwa
710	liczba
707	bez
706	wiele
702	we
700	było
700	artykuł
698	go
697	by
696	więc
692	v
691	stan
691	czerwca
686	kwietnia
685	stulecia
684	sierpnia
684	d
680	często
677	która
676	grudnia
672	wiki
661	prawa
654	września
654	on
651	niż
642	wszystkich
640	mają
634	wszystkie
633	pomorskie
629	następny
628	system
625	była
625	angielski
623	kujawsko
621	sposób
620	mazowieckie
617	mogą
615	mazowieckim
614	tzw
614	poprzedni
613	t
612	warmińsko
607	przed
604	strona
598	jeden
596	k
593	będzie
591	xvi
589	część
587	pomorskim
584	stycznia
577	polskiej
575	wielu
575	org
574	wojny
567	f
565	której
564	pierwszy
563	czasie
559	gdzie
554	gdy
552	png
551	com
550	nawet
550	iv
546	października
536	były
535	marca
530	wielkopolskie
529	ziemiach
524	kalendarz
523	części
521	obecnie
521	nich
518	grupy
516	takie
516	końca
513	pierwiastek
513	lutego
510	języka
510	and
506	xvii
506	federacji
505	ta
505	one
504	należy
501	je
498	danych
497	wielkopolskim
497	jeszcze
492	youandme
489	listopada
485	vii
485	przypadku
482	albo
479	którym
478	małopolskie
477	tu
476	dniu
474	dziesięciolecia
473	lubelskie
471	miasto
467	vi
467	liczby
462	rosyjskiej
462	jan
460	lubelskim
459	małopolskim
457	kalendarium
456	rady
455	układ
451	jpg
451	h
450	francuski
449	xi
448	każdy
445	głównie
443	xii
442	ix
438	dwa
437	podkarpackie
434	zwykle
431	języków
430	bardziej
427	później
426	osób
425	podkarpackim
424	wyspy
424	więcej
424	systemu
424	pracy
422	polskie
421	około
419	najbardziej
417	polskiego
416	została
414	ziemi
414	ludzi
414	aby
413	viii
412	bo
411	sierpień
411	dolnośląskie
407	życia
407	rzeczypospolitej
407	którego
407	czerwiec
406	gru
405	marzec
404	praw
404	języku
404	dniem
403	różnych
403	lipiec
403	grudzień
402	xiv
400	maj
399	Święta
399	stron
399	gregoriański
398	styczeń
397	luty
395	sobie
394	mieszkańców
392	październik
392	nazwy
392	dolnośląskim
389	zostaje
388	wrzesień
387	państwo
387	listopad
387	kwiecień
387	kalendarzu
385	dwóch
385	bitwa
382	świata
380	grupa
380	amerykański
379	stanu
378	pozostało
378	kilka
378	ani
375	cesarz
374	usunięto
374	przestępnych
374	postaci
371	Świecie
371	takich
371	gregoriańskim
371	czasu
369	czas
369	chemiczny
368	jednym
366	typu
366	istnieje
362	literatura
361	punkt
360	europie
359	j
358	celu
356	chemia
355	względu
355	wraz
355	itp
354	prezydent
353	tam
353	ministrów
352	stanów
351	miasta
350	niemiecki
350	kraju
349	określa
349	ang
348	śląskie
348	powierzchnia
344	większość
343	skład
343	okresie
342	zasady
341	teorii
340	zjednoczonych
338	wyniku
338	pierwsze
337	ustawy
337	oznacza
336	nowy
335	y
335	nim
333	teoria
333	symbol
333	l
332	temat
324	tekstu
324	odkrycia
321	łódzkie
321	program
321	pierwsza
321	miejsce
320	poprzez
320	ona
319	morze
318	ją
317	jedynie
317	drugiej
316	człowieka
315	występuje
314	terytorium
314	ponad
314	amp
313	łódzkim
313	rzymski
313	mazurskie
311	–
311	powstanie
311	czym
309	ustawa
308	poza
308	pomocą
308	g
307	ludności
307	jednego
307	coś
306	stany
306	mazurskim
305	znaczenie
305	sejm
302	niemcy
300	znaków