Ewaluacja chatbotów

Z Wikipedii, wolnej encyklopedii

Metody ewaluacji chatbotów można podzielić na dwie grupy - ewaluację w zakresie lingwistycznym i pozalingwistycznym.

Ewaluacja w zakresie lingwistycznym[edytuj | edytuj kod]

Można do tej ewaluacji wykorzystać test Turinga, który określa zdolności maszyny do posługiwania się językiem naturalnym.

W przypadku oceny z zakresu lingwistycznego linguaboty można także potraktować jako swego rodzaju system Question Answering, z tą różnicą, że chatbot zwraca tylko jedną odpowiedź. Do ewaluacji można zastosować metody opracowane w ramach konferencji TREC.

Ewaluacja w zakresie pozalingwistycznym[edytuj | edytuj kod]

Kryteria ewaluacji w tym zakresie nie zostały jeszcze w pełni usystematyzowane[1]. Proponowane kryteria to ewaluacja:

  • zrozumiałości i prezentacji informacji
  • znaczenia wizualnych wskazówek
  • prozodii i interakcji
  • wyrazistości i pozy linguabotów

Ewaluacja zrozumiałości i prezentacji informacji[edytuj | edytuj kod]

Badania wykazały[2], że zrozumiałość prezentowanej informacji wzrasta, jeśli do naturalnego głosu dodany interfejs graficzny (najczęściej głowę) chatbota.

Przy ocenie prezentacji i zrozumiałości informacji bierze się pod uwagę niektóre parametry kontroli artykulacji twarzy tj.:

  • rotacja żuchwy
  • przesunięcie warg
  • rozszerzanie się ust
  • wysokość końcówki języka

Ewaluacja celności wizualnych wskazówek[edytuj | edytuj kod]

Współczesnym chatterbotom autorzy starają się nadać jak najwięcej cech ludzkich. Boty potrafią poruszać ustami, uśmiechać się, być smutnymi itp. Dobry chatterbot powinien np. poruszać ustami, ale ruch warg powinien być zsynchronizowany z mową oraz wyglądać jak najbardziej naturalnie. Bot powinien "zrozumieć" swoją wypowiedź i w odpowiedni sposób przekazać ją użytkownikowi. Jeśli jego wypowiedź ma charakter wesoły jego twarz powinna wyrażać to samo, jeśli wypowiedź jest smutna bądź użytkownik napisze coś smutnego, bot powinien przyjąć odpowiednia mimikę twarzy.

Ewaluacja prozodii i interakcji[edytuj | edytuj kod]

W tej części linguabot oceniany jest podobnie jak syntezator mowy. Ocenie podlega naturalność wypowiadanego tekstu oraz intonacja wymowy np. artykułowanie pytania. Interesująca jest także kwestia połączenia wizualnych wskazówek z intonacją wymowy i ważność poszczególnych elementów.

Ewaluacja wyrazistości i pozy[edytuj | edytuj kod]

W przeprowadzonym w 2006 roku eksperymencie oceniano przyjazność chatbota. Chatbot zadawał pytanie "Vad heter du?" (Jak masz na imię) (głos w dwóch konfiguracjach: wczesny niski ton i późny wysoki ton), i przybierał trzy różne postawy (zły, wesoły i neutralny). Badania wykazały, że przyjazność była najniższa w przypadku gdy linguabot wypowiadał pytanie będąc zły (przy wczesnym niskim tonie), natomiast gdy był wesoły i neutralny wyniki były zbliżone.

Zawody[edytuj | edytuj kod]

Istnieją specjalne zawody, mające na celu wyłonienie chatbota, który najbardziej przypomina człowieka[3]:

Zobacz też[edytuj | edytuj kod]

Przypisy[edytuj | edytuj kod]

  1. patrz Granström i House w bibliografii
  2. patrz Granström i House w bibliografii str. 71-77
  3. Anna Meller. Wystaw bota na zawody. „Software 2.0 Extra: Sztuczna Inteligencja”. s. 22-25. 
  4. Home Page of the Loebner Prize [online], www.loebner.net [dostęp 2017-11-23] [zarchiwizowane z adresu 2010-12-30].
  5. chatterboxchallenge.com Is For Sale [online], www.chatterboxchallenge.com [dostęp 2017-11-23].

Bibliografia[edytuj | edytuj kod]