Rozpoznawanie mowy
Rozpoznawanie mowy – technologia pozwalająca komputerowi wyposażonemu w urządzenie do próbkowania dźwięku (np. karta dźwiękowa z mikrofonem) interpretować mowę ludzką, na przykład do celów transkrypcji lub jako alternatywną metodę interakcji z komputerem.
Wyróżnia się kilka rodzajów rozpoznawania mowy:
- rozpoznawanie pojedynczych fonemów
- rozpoznawanie izolowanych słów
- rozpoznawanie łączonych słów oraz rozpoznawanie mowy ciągłej
Obecnie dla języka polskiego dostępne są programy rozpoznające poprawnie 5-9 na 10 wypowiedzianych słów mowy[1] (na współczynnik ten, oprócz jakości algorytmu, wpływają m.in. wyrazistość i zrozumiałość mowy).
Spis treści |
[edytuj] Koszty obliczeniowo-pamięciowe
Algorytmy rozpoznawania mowy ciągłej na poziomie porównywalnym ze „zdolnościami ludzkimi” wymagają pamięci komputerowej o dużej pojemności[2]. Dlatego też wytwarza się systemy jedno-dziedzinowe, bądź użytkownik ma możliwość dostrojenia parametrów poprzez moduły uczenia maszynowego. W telefonach komórkowych nierzadko stosuje się również wysyłanie wstępnie przetworzonych danych do pomocniczej obróbki na serwerze zewnętrznym[3], niedogodność jest niezauważalna dla użytkownika.
[edytuj] Algorytmy i modele
- ukryte modele Markowa
- analiza cepstralna i mel-cepstralna
- transformata Fouriera
[edytuj] Zastosowania
- Sterowanie – dedykowane silniki nie wymagają zaawansowanych cech jak przełączanie kontekstu, a z racji kilku/kilkunastowyrazowych słowników nie występuje tu problem ujednoznaczniania w środowiskach, w których sygnał mowy jest zakłócony, dlatego też wymagają one znacznie mniej zasobów niż algorytmy rozpoznawania mowy ciągłej.
- w przypadku komputera PC – posiadającego różnorodne kanały komunikacji z użytkownikiem – sterowanie głosem wykorzystywane jest najczęściej przez osoby niepełnosprawne, dla których inne interfejsy interakcji z urządzeniem są niedostępne,
- w urządzeniach – o znacznej miniaturyzacji, przez co ubogich w interfejsy interakcji – proste polecenia głosowe znacznie uefektywniają ich obsługę.
- Transkrypcja mowa ciągła-tekst – algorytmy:
- dziedzinowe – o ograniczonym słowniku,
- całościowe – bardziej zaawansowane.
[edytuj] Standaryzacje międzynarodowe
Trwają prace standaryzacyjne jednolitych interfejsów programistycznych (API) oraz języków opisu danych wejściowych dla silników rozpoznawania mowy. Następujące instytucje opracowują własne rozwiązania w tym zakresie, w nawiasach podano numer aktualnej wersji oraz rok wydania.
- SAPI - interfejs programistyczny (5.3 z r. 2005 – w Longhorn, oficjalne wydanie 2006/2007 – w Microsoft Windows Vista)
- JSAPI – interfejs programistyczny (1.0 z r. 1998, wersję 2.0 zatwierdzono w maju 2008[4])
- JSGF – język specyfikacji gramatyki
W3C:
- PLS – język specyfikacji wymowy (1.0 oczekuje na zatwierdzenie),
- VoiceXML – język specyfikacji dialogu głosowego człowiek-komputer (2.1 z r. 2007),
- SISR – język semantycznego znakowania gramatyki (1.0 z r. 200]),
- SRGS – język specyfikacji gramatyki (oparty na XML lub BNF) (1.0 z r. 2004),
- SLM(N-gram)S – język specyfikacji stochastyczengo modelu języka (roboczy szkic z r. 2001),
- NLSML – język specyfikacji interpretacji semantycznej mowy (1.0-beta z r. 2000).
[edytuj] Rozpoznawanie mowy polskiej
Prace badawcze i wdrożenia:
- Ogólnopolski projekt[5] prowadzony jest przez, podległe MSWiA, służby bezpieczeństwa publicznego we współpracy z uczelniami wyższymi[6] w ramach Polskiej Platformy Bezpieczeństwa Wewnętrznego. Przetwarzanie mowy występuje docelowo w dwóch (S3, S8)[7] z ośmiu funkcjonalnych modułów zintegrowanego systemu wsparcia zarządzania bezpieczeństwem i przeciwdziałania przestępczości w Unii Europejskiej,
- Instytut Monitorowania Mediów[8][9] wdrożył system umożliwiający wyszukiwanie felietonów na podstawie słów kluczowych.
- Wersje polskiego oprogramowania do rozpoznawania mowy SkryBot:
- System Rozpoznawania i Zamiany Mowy na Tekst - MagicScribe[13]
- System rozpoznawania mowy Sarmata, Zespołu Przetwarzania Sygnałów AGH kierowanego przez profesora Mariusza Ziółko[16]
- Spikit - innowacyjne narzędzie wykorzystujące mowę do sterowania komputerem osobistym[17]
Rozwiązania komercyjne:
[edytuj] Rozpoznawanie mowy angielskiej
- Prototypowe
- Sphinx,
- Julius/Julian.
- Użytkowe (Linux)
- XVoice (frontend),
- FreeSpeech.
- Użytkowe (Windows)
[edytuj] Zobacz też
Przypisy
- ↑ Komputer zrozumiał Gierka, a z Kaczyńskim miał problem
- ↑ CHANDRA, DHRUBA "Speech Recognition Co-Processor" strona 3 (16)., North Carolina 2007
- ↑ The Inquirer, 7 lutego, 2007
- ↑ Oficjalna strona JCP (JSR #113 JavaTM Speech API 2.0 Final Approval Ballot), 5 maja 2008
- ↑ Laboratorium Technologii Języka i Mowy
- ↑ Technologie przetwarzania oraz rozpoznawania informacji słownych w systemach bezpieczeństwa wewnętrznego
- ↑ Koncepcja PBW (...) w ramach projektu „Nowoczesne metody naukowego wsparcia zarządzania bezpieczeństwem publicznym w Unii Europejskiej”, Poznań, 2005
- ↑ Informacja prasowa IMM Warszawa, 24 października 2006
- ↑ BiznesNet
- ↑ SkryBot doMowy rozpoznawanie mowy polskiej
- ↑ Polskie Centrum Technologii Rozpoznawania Mowy
- ↑ Rozpoznawanie mowy przez internet, tworzenie i wyszukiwanie napisów
- ↑ Strona magicscribe.pl
- ↑ Strona magicscribemedical.pl
- ↑ Strona magicscribelegal.pl
- ↑ Zespół Przetwarzania Sygnałów AGH
- ↑ Strona spikit.pl
- ↑ Strona SpeechStorm
- ↑ Strona Dragon Naturally Speaking
- ↑ Strona SkryBot doMowy
[edytuj] Linki zewnętrzne
- Technologia mowy (materiały dydaktyczne AGH)