Wikipedia:Patrolowanie NPA

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Ten tekst ma w zamyśle pomóc wszystkim Wikipedystom, którzy chcą uczestniczyć w skutecznym wyszukiwaniu i eliminowaniu naruszeń prawa autorskiego, czyli plagiatów ze źródeł objętych prawem autorskim. W poniższym tekście są podane praktyczne sposoby rozpoznawania plagiatów oraz wyszukiwania ich źródeł. Trzeba zawsze pamiętać, że czasem artykuł, który na oko wygląda na plagiat niekoniecznie zawsze musi nim być, co powoduje, że każdego "podejrzanego" należy dokładnie sprawdzić, zanim się go ew. skasuje, lub zgłosić na stronę "Wikipedia:Strony podejrzane o naruszenie praw autorskich". Obecnie zasadą jest, że nowe artykuły, które są ewidentnymi plagiatami z typowych źródeł komercyjnych, są kasowane od razu bez żadnej dyskusji. Wikipedyści, którzy nie mają uprawnień do kasowania haseł, wstawiają w takich przypadkach szablon {ek} do tekstu podejrzewanego artykułu.

Patrolowanie tekstów[edytuj | edytuj kod]

Typowe rodzaje plagiatów[edytuj | edytuj kod]

plagiaty kopiowane "na żywca" ze źródeł elektronicznych[edytuj | edytuj kod]

Teksty jest stosunkowo łatwo przenieść z innych stron www do Wikipedii przez prostą operację kopiowania do okna edycyjnego hasła. To jest najczęstsza forma plagiatów, jaka zdarza się w Wikipedii. Oprócz tego dość często zdarzają się kopie z innych elektronicznych źródeł w rodzaju encyklopedii na CD. Na szczęście jest dość łatwo je rozpoznać i zlokalizować. Tego rodzaju plagiaty charakteryzują się zwykle:

  • kompletnym brakiem formatowania wiki – tekst jest podany "ciurkiem", nie ma wytłuszczeń, podziału na akapity, listy oraz nie występują w tekście żadne linki – takie teksty są od razu podejrzane i należy zawsze przed ich ew. zwikizowaniem sprawdzić, czy nie są plagiatami
  • posiadają one styl charakterystyczny dla źródła swojego pochodzenia (więcej o tym w rozdziale o typowych źródłach plagiatu)

plagiaty przepisywane ręcznie z książek[edytuj | edytuj kod]

Tego rodzaju plagiaty zdarzają się znacznie rzadziej od tych ze stron WWW, gdyż wymagają znacznie większego wysiłku. Są one jednak znacznie trudniejsze do wykrycia. Daje się je rozpoznać po:

  • charakterystycznych błędach literowych i ortograficznych, które często popełnia się przy szybkim, niewprawnym przepisywaniu tekstu
  • braku formatowania wiki – tekst jednak zwykle wygląda trochę inaczej niż bezpośrednio kopiowany ze źródeł elektronicznych. Często jest podzielony na akapity. Wiele akapitów zaczyna się od spacji, co powoduje pojawienie się ich na szarym tle
  • braku wielu polskich liter

Przykład:

 Typwy plagiat wpradzny recznie.

Plagiaty formatowane[edytuj | edytuj kod]

Tego typu plagiaty zdarzają się najrzadziej, gdyż większość ludzi, którzy zdobyli się na przestudiowanie zasad formatowania wiki, wie też, że Wikipedia nie akceptuje tekstów naruszających prawo autorskie. Mimo to także one się zdarzają. W przypadku plagiatów formatowanych jedyną charakterystyczną cechą odróżniającą je od dobrych artykułów jest ich styl.

Typowe źródła plagiatów[edytuj | edytuj kod]

Plagiat najłatwiej poznaje się po stylu. Encyklopedie i słowniki komercyjne mają dość zuniformizowaną formę haseł, którą przy pewnej wprawie jest dość łatwo rozpoznać.

Do najczęstszych źródeł plagiatów można zaliczyć:

  • Encyklopedię WIEM – w WIEM artykuły są zawsze dość krótkie, po czym najłatwiej je się rozpoznaje. WIEM składa się z encyklopedii i słownika. Teksty ze słownika są dużo krótsze i występuje w nich większa liczba skrótów – artykuły w słowniku często zaczynają się małą literą. Przykłady (wyimaginowane, aby nie naruszać prawa autorskiego)

Słownik:

xxx rz. ż Ia, lm D. xx-ów 1. ‘dorosła xxx rogatych przeżuwających; zwykle o samicy xxx’ 2. pot. ‘z pogardą o xxx niezgrabnej, leniwej’

Encyklopedia:

XXX (nazwa łacińska), ssaki zaliczane do rodziny yyy, udomowione przypuszczalnie ok. xxxx tys. lat p.n.e. na obszarze xy. Dzikim przodkiem xxxx jest yyyy.
  • Słowniki Kopalińskiego – styl jeszcze bardziej zwarty i z większą liczbą skrótów niż w Wiem:
xxxx łac., nie możemy (nie mówić tego, cośmy widzieli i słyszeli). Etym. - z Wulgaty (Dzieje Apost., 4, 20).
  • "Encyklopedia Internautica" portalu interia.pl – bardziej rozbudowany styl, częste jednoliterowe skróty powtarzających się słów, dużo średników – bo wiele artykułów jest pisanych w formie jednego zdania. Pierwsze słowo jest zwykle pisane samymi wielkimi literami:
DDDDD - syntetyczny termoplastyczny, otrzymywany w wyniku xxxx; stała, przezroczysta, bezbarwna lub mlecznobiała masa o charakterystycznym połysku i dotyku; odporny na niskie temp. (-XXºC), działanie stęż. kwasów i zasad oraz większości rozp. org. (z wyjątkiem x i y); struktura i własności d. zależą od xxxx; rozróżnia się d. yyyy, twardy o dużej gęstości, oraz zzzz, miękki o małej gęstości; jeden z najtańszych i najpospolitszych rrrrr; stosowany do wyrobu zzzz, gggg, art. gosp. dom., zabawek; w Polsce produkowany jest tylko p. xxx pn. handl. zzzz i wwww.
  • "Encyklopedia PWN" – styl bardzo podobny do Internautiki. Artykuły są zwykle dłuższe, ale też zawierają więcej skrótów. Więcej pełnych zdań, a mniej średników w stosunku do Internautiki. Pierwszy wyraz jest też zawsze pisany wielkimi literami.

Przykład: http://encyklopedia.pwn.pl/58335_1.html

  • "Słowniki PWN" – styl podobny do Kopalińskiego, aczkolwiek przynajmniej pierwsze zdanie jest zwykle pełne. Stosowane są trochę inne skróty niż w Kopalińskim.

Przykład: http://sjp.pwn.pl/haslo.php?id=11970

  • Serwisy typu "ściąga" (sciąga.pl, slimak.sciaga.pl sciaga.interia.pl sciaga.biz i wiele innych). Długie rozbudowane teksty pisane w stylu wypracowań szkolnych. Dużo niezręczności językowych, błędów merytorycznych, cytatów ze źródeł – jednak bez podania źródła. Teksty są często plagiatami z innych źródeł – w tym również z Wikipedii – dlatego z patrolowaniem starszych artykułów należy być ostrożnym.

Przykład: http://prace.sciaga.pl/10779.html

Techniki "polowania" na plagiaty[edytuj | edytuj kod]

Google[edytuj | edytuj kod]

Najszybszą i najwygodniejszym sposobem polowania na plagiaty pochodzące ze źródeł elektronicznych jest stosowanie wyszukiwarki Google (http://www.google.pl). Aby nie uzyskiwać z Google'a zbyt długiej listy odpowiedzi, najlepiej jest przekopiować z tekstu artykułu do formularza wyszukiwania pierwsze zdanie podejrzanego artykułu, a następnie wyciąć z niego łączniki (po, z, to, a itp) pozostawiając tylko ciąg słów kluczowych.

Alternatywnie, można dać tytuł hasła + jakaś charakterystyczną frazę z środka tekstu, w której nie występują łączniki. Zwykle w odpowiedzi dostajemy tylko kilka, kilkanaście linków, które można dość szybko obejrzeć i porównać z podejrzewanym hasłem. Czasami należy tę operację powtórzyć z kilkoma różnymi fragmentami tekstu, aby mieć 100% pewności, że to nie plagiat.

Niektóre encyklopedie (np: Internautica i PWN) są jednak tak zrobione, że Google słabo je indeksuje. Gdy styl artykułu przypomina któreś z tych źródeł, bezpieczniej jest od razu sprawdzić w wyszukiwarkach tych serwisów.

Dużą pomocą są też serwisy wyszukiwania plagiatów on-line, aczkolwiek należy ostrożnie interpretować ich wyniki, gdyż mają one tendencję do sugerowania, że plagiatami są teksty, które są tak naprawdę tylko w niewielkim stopniu do siebie podobne. Z drugiej strony często nie potrafią one znaleźć dokumentów, które są identyczne. Patrz:

Serwisy wyszukiwacze źródeł[edytuj | edytuj kod]

W sytuacji gdy wydaje nam się, że od razu wiemy skąd pochodzi tekst – możemy od razu użyć stron wyszukiwawczych tych serwisów. W tym przypadku wystarcza zwykle wpisanie tytułu podejrzewanego hasła.

Lista stron wyszukiwawczych:

Patrolowanie plików[edytuj | edytuj kod]

Wyszukiwanie źródeł plików jest trudniejsze od wyszukiwania źródeł tekstu. Trudniej jest też wskazać typowe źródła plików, choć można do nich zaliczyć:

  • serwisy tematyczne portali (Onetu, Interii, Gazety.pl itp.) – związane z tematyką plików
  • strony agencji prasowych i sieci telewizyjnych (Reuters, CNN, BBC, TVP itp.)
  • strony zespołów muzycznych, agencji rządowych, partii politycznych, władz miast i gmin itd., itp.

Jakie pliki są podejrzane[edytuj | edytuj kod]

Podejrzane pliki to takie, które na "oko" wyglądają za bardzo profesjonalnie. Np: przy zdjęciach sportowców – są to ujęcia, których amator nie ma szansy wykonać, bo nikt mu nie pozwoli tak blisko podejść do miejsca, gdzie toczą się zawody. Przy zdjęciach polityków – zdjęcia pozowane, momenty uścisku dłoni ważnych osób (zwykle amatorzy nie są wpuszczani "na salony" i nie mają okazji wykonania takich zdjęć) itp. Przy zdjęciach artystów – zdjęcia zbyt wystudiowane, zdjęcia koncertowe robione z poziomu desek estradowych albo od tyłu. Przy zdjęciach kataklizmów i wydarzeń – zdjęcia z lotu ptaka, zdjęcia z samego miejsca katastrofy itp.

Nie wszystkie tego rodzaju zdjęcia muszą jednak koniecznie być kopiowane z naruszeniem prawa. Np: amerykańskie agencje rządowe (np: NASA, czy Biały Dom) udostępniają swoje zdjęcia na licencji Public Domain lub Fair use. W Polskiej Wikipedii uznaliśmy jednak, że materiałów Fair use nie umieszczamy, natomiast materiały Public Domain można swobodnie wykorzystywać, ale z podaniem źródła.

Tropienie zdjęć[edytuj | edytuj kod]

Znaki wodne[edytuj | edytuj kod]

Wiele zdjęć profesjonalnych ma tzw. elektroniczny znak wodny – czyli tekst lub znak tak wkomponowany w zdjęcie, że go gołym okiem nie widać. Wiele programów graficznych (np: Photoshop) ma jednak filtry, które potrafią "odczytać" ten znak. Odczytanie tego znaku jest dobrym sposobem przekonania się, skąd ono pierwotnie pochodzi.

Opisy wewnątrz plików graficznych[edytuj | edytuj kod]

Pliki graficzne umożliwiają zapisywanie w ich nagłówku rozmaitych informacji. Jest to często wykorzystywane do umieszczania tam informacji o prawach autorskich. Plik graficzny można "na siłę" wczytać do prostych tekstowych edytorów (np: choćby notepada, bo Word i podobne się do tego nie nadają) i przejrzeć je, tak jakby były tekstem. 99% takiego pliku wygląda jak niezrozumiała sieczka, ale na samej jego górze można czasem znaleźć krótki tekst nagłówka, w którym jest podany właściciel zdjęcia. Bardzo pomocne w tego typu analizie jest też polecenie strings dostępne z poziomu konsoli systemów typu Linux lub Unix.

Google[edytuj | edytuj kod]

Google indeksuje nie tylko strony www, ale także grafiki. Grafiki przez Google można wyszukiwać po takich samych słowach kluczowych, jak teksty na stronach www. Niestety, w przypadku bardzo popularnych osób wpisując ich nazwisko do Google' a otrzymamy zwykle setki a nawet tysiące zdjęć, których przejrzenie jest bardzo czasochłonne. Aby zmniejszyć liczbę odpowiedzi możemy, metodą prób i błędów, próbować różnych kombinacji słów kluczowych i opcji w zaawansowanym wyszukiwaniu zdjęć. Nie jest to jednak proste i wymaga trochę wprawy.

TinEye[edytuj | edytuj kod]

TinEye to wsteczna wyszukiwarka plików. Oznacza to, że wyszukuje ona podobne (czy identyczne) pliki/grafiki na podstawie pliku-zapytania. Potrafi ona wyszukać kopie i zmodyfikowane wersje nieraz na podstawie samego motywu i nie ma dla niej znaczenia zmiana wielkości itp. Jeśli podejrzany plik pokazuje dużo identycznych/podobnych kopii istnieje duża szansa, że przesyłający go Wikipedysta nie dysponuje prawami autorskimi do niego (w idealnym wypadku TinEye potrafi wskazać dokładne źródło skąd wikipedysta zaczerpnął plik), ale należy to dokładnie sprawdzić. Brak wyników zapytania w TinEye nie oznacza natomiast, że plik jest "czysty", bowiem baza wyszukiwarki TE nie jest kompletna i nie wszystkie pliki z internetu są w niej zindeksowane.