Rozpoznawanie mowy

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Rozpoznawanie mowy – technologia pozwalająca komputerowi wyposażonemu w urządzenie do próbkowania dźwięku (np. karta dźwiękowa z mikrofonem) interpretować mowę ludzką, na przykład do celów transkrypcji lub jako alternatywną metodę interakcji z komputerem.

Wyróżnia się kilka rodzajów rozpoznawania mowy:

  • rozpoznawanie pojedynczych fonemów
  • rozpoznawanie izolowanych słów
  • rozpoznawanie łączonych słów oraz rozpoznawanie mowy ciągłej

Obecnie dla języka polskiego dostępne są programy rozpoznające poprawnie 5-9 na 10 wypowiedzianych słów mowy[1] (na współczynnik ten, oprócz jakości algorytmu, wpływają m.in. wyrazistość i zrozumiałość mowy).

Spis treści

[edytuj] Koszty obliczeniowo-pamięciowe

Algorytmy rozpoznawania mowy ciągłej na poziomie porównywalnym ze „zdolnościami ludzkimi” wymagają pamięci komputerowej o dużej pojemności[2]. Dlatego też wytwarza się systemy jedno-dziedzinowe, bądź użytkownik ma możliwość dostrojenia parametrów poprzez moduły uczenia maszynowego. W telefonach komórkowych nierzadko stosuje się również wysyłanie wstępnie przetworzonych danych do pomocniczej obróbki na serwerze zewnętrznym[3], niedogodność jest niezauważalna dla użytkownika.

[edytuj] Algorytmy i modele

[edytuj] Zastosowania

  • Sterowanie – dedykowane silniki nie wymagają zaawansowanych cech jak przełączanie kontekstu, a z racji kilku/kilkunastowyrazowych słowników nie występuje tu problem ujednoznaczniania w środowiskach, w których sygnał mowy jest zakłócony, dlatego też wymagają one znacznie mniej zasobów niż algorytmy rozpoznawania mowy ciągłej.
    • w przypadku komputera PC – posiadającego różnorodne kanały komunikacji z użytkownikiem – sterowanie głosem wykorzystywane jest najczęściej przez osoby niepełnosprawne, dla których inne interfejsy interakcji z urządzeniem są niedostępne,
    • w urządzeniach – o znacznej miniaturyzacji, przez co ubogich w interfejsy interakcji – proste polecenia głosowe znacznie uefektywniają ich obsługę.
  • Transkrypcja mowa ciągła-tekst – algorytmy:
    • dziedzinowe – o ograniczonym słowniku,
    • całościowe – bardziej zaawansowane.

[edytuj] Standaryzacje międzynarodowe

Trwają prace standaryzacyjne jednolitych interfejsów programistycznych (API) oraz języków opisu danych wejściowych dla silników rozpoznawania mowy. Następujące instytucje opracowują własne rozwiązania w tym zakresie, w nawiasach podano numer aktualnej wersji oraz rok wydania.

Microsoft:

Sun Microsystems:

  • JSAPI – interfejs programistyczny (1.0 z r. 1998, wersję 2.0 zatwierdzono w maju 2008[4])
  • JSGF – język specyfikacji gramatyki

W3C:

  • PLS – język specyfikacji wymowy (1.0 oczekuje na zatwierdzenie),
  • VoiceXML – język specyfikacji dialogu głosowego człowiek-komputer (2.1 z r. 2007),
  • SISR – język semantycznego znakowania gramatyki (1.0 z r. 200]),
  • SRGS – język specyfikacji gramatyki (oparty na XML lub BNF) (1.0 z r. 2004),
  • SLM(N-gram)S – język specyfikacji stochastyczengo modelu języka (roboczy szkic z r. 2001),
  • NLSML – język specyfikacji interpretacji semantycznej mowy (1.0-beta z r. 2000).

[edytuj] Rozpoznawanie mowy polskiej

Prace badawcze i wdrożenia:

  • Ogólnopolski projekt[5] prowadzony jest przez, podległe MSWiA, służby bezpieczeństwa publicznego we współpracy z uczelniami wyższymi[6] w ramach Polskiej Platformy Bezpieczeństwa Wewnętrznego. Przetwarzanie mowy występuje docelowo w dwóch (S3, S8)[7] z ośmiu funkcjonalnych modułów zintegrowanego systemu wsparcia zarządzania bezpieczeństwem i przeciwdziałania przestępczości w Unii Europejskiej,
  • Instytut Monitorowania Mediów[8][9] wdrożył system umożliwiający wyszukiwanie felietonów na podstawie słów kluczowych.
  • Wersje polskiego oprogramowania do rozpoznawania mowy SkryBot:
    • dla biznesu, serwery rozpoznawania mowy (monitoring, indeksowanie i wyszukiwanie tekstem multimediów radia i telewizji);
    • dla użytkowników komputerów osobistych, systemy Windows XP, Vista, 7[10][11];
    • portal rozpoznawania mowy przez internet SkryBot.TV[12].
  • System Rozpoznawania i Zamiany Mowy na Tekst - MagicScribe[13]
    • MagicScribeMedical - rozpoznawanie mowy dla medycyny[14]
    • MagicScribeLegal - rozpoznawanie mowy dla prawa[15]
  • System rozpoznawania mowy Sarmata, Zespołu Przetwarzania Sygnałów AGH kierowanego przez profesora Mariusza Ziółko[16]
  • Spikit - innowacyjne narzędzie wykorzystujące mowę do sterowania komputerem osobistym[17]

Rozwiązania komercyjne:

  • SpeechStorm[18] – producent aplikacji do IVR opartych m.in. o technologię rozpoznawania mowy

[edytuj] Rozpoznawanie mowy angielskiej

  • Prototypowe
    • Sphinx,
    • Julius/Julian.
  • Użytkowe (Linux)
    • XVoice (frontend),
    • FreeSpeech.
  • Użytkowe (Windows)
    • Dragon Naturally Speaking[19],
    • Via Voice,
    • Loquendo.
    • SkryBot doMowy[20],
    • S voice (Android),
    • Siri (iOS)

[edytuj] Zobacz też

Przypisy

[edytuj] Linki zewnętrzne