Chtěli jste někdy naučit své aplikace mluvit? Pomocí tzv. SAPI to není nic těžkého.
Syntéza řeči (také známá pod názvem Text-to-speech, tedy „text na řeč“) je zjednodušeně generování lidské řeči počítačem. Programu, který toto dovede, se říká syntetizátor. Naším cílem bude si pomocí Speech API (SAPI) integrovaného ve Windows Vista a výš jeden takový syntetizátor vytvořit. Celé toto API sídlí v knihovně System.Speech.dll, ve které najdeme i pět důležitých namespaces:
- System.Speech.Audioformat
- System.Speech.Recognition
- System.Speech.Recognition.SrgsGrammar
- System.Speech.Synthesis
- System.Speech.Synthesis.TtsEngine
Pro přístup ke schopnostem tohoto API musíme nejdřív do nového projektu (Console, WinForms, WPF, to je jedno) přidat referenci na System.Speech.dll (klikněte pravým tlačítkem na projekt v Solution Exploreru, zvolte Add Reference a na záložce .NET najděte položku System.Speech, volbu potvrďte tlačítkem OK).
Díky tomu se knihovna System.Speech.dll zkopíruje do složky „bin“ našeho projektu a my můžeme pomocí direktivy using přidat vybraný namespace a pracovat s jeho třídami.
„Text na řeč“
Windows Vista i Windows 7 mají SAPI integrované už v sobě, je tedy jasné, že ho samy dokážou využít. Používají ho v nástroji zvaném „Text na řeč“ („Text to speech“) a v základu najdeme v obou těchto systémech předinstalovaný jeden hlas, je jím „Microsoft Anna“. Koneckonců, můžete si s tímto prográmkem pohrát sami. Stačí otevřít Ovládací panely v klasickém zobrazení a poklikat na „Text na řeč“ (pro anglická Windows otevřete Control Panel v classic view a zvolte „Text to speech“).
Další hlasy můžete získat, pokud si stáhnete Microsoft Speech SDK 5.1.
Třída SpeechSynthesizer
Jak název napovídá, tato třída obstarává samotný převod textu na řeč. Rozhodně nejdůležitějšími metodami jsou Speech a SpeechAsync. První z nich vysloví zadaný text synchronně (aplikace bude zablokována, dokud počítač nedomluví) a druhá, SpeechAsync, začne mluvit asynchronně, tedy pomocí dalšího vlákna.
Třída SpeechSynthesizer poskytuje čtyři vlastnosti – Rate, State, Voice a Volume:
- Rate – nastavuje rychlost mluvení, nabývá hodnot od -10 do 10.
- State – vrátí aktuální stav SpeechSynthesizeru (jestli je připraven nebo právě mluví, atd.).
- Voice – vrátí aktuálně používaný hlas jako VoiceInfo objekt.
- Volume – nastavuje hlasitost hlasu, nabývá hodnot od 0 do 100.
Podívejme se na samotné použití metod Speak a SpeakAsync. Abychom si ukázali asynchronní povahu druhé metody, můžeme třeba vytvořit dvě instance třídy SpeechSynthesizer a první z nich nechat mluvit asynchronně zároveň s druhou:
SpeechSynthesizer ss1 = new SpeechSynthesizer();
SpeechSynthesizer ss2 = new SpeechSynthesizer();
ss1.SpeakAsync("I hope this article will be helpful.");
ss2.Speak("Hello, how are you doing?");
V namespace System.Speech.Synthesis najdeme kromě této i několik dalších zajímavých tříd. Více informací je například na MSDN.
Ukázková aplikace
Pomocí následující WPF aplikace si můžete funkcionalitu zmíněnou v tomto článku vyzkoušet na vlastní kůži. Na závěr dodám, že jediným podporovaným jazykem pro syntézu je angličtina, ostatním jazykům je jen stěží rozumět.
Aplikaci stáhnete ZDE.