Hledej výraz "Speech recognition".
http://en.wikipedia.org/wiki/Windows_Speech_Recognition
http://en.wikipedia.org/wiki/Microsoft_Speech_API
http://en.wikipedia.org/wiki/List_of_speech_recognition_software
To co požaduješ by se možná dalo najít pod heslem "Voice command".
Nějaké rozpoznávání řeči od Microsoftu jsem kdysi měl zprovozněné na Windows. Už nevím, jestli to bylo volitelnou součástí instalace Windows a nebo balíku Office, v každém případě to umělo jen angličtinu, čeština nebyla podporována.
U tohoto typu rozpoznávání hlasu se nenahrává žádný vzorový WAV, místo toho dochází ke skutečnému převodu zvuku/hlasu na text (řekněme TXT, ale jen v paměti). Převod není stoprocentně spolehlivý. Spolehlivost se dá zvýšit častým používáním (systém se učí za pochodu a postupně se trénuje na Tvůj hlas). Ten Microsoftí udělátor, se kterým jsem si hrál, měl takovou aplikaci pro počáteční trénink, kdy mi promítl na obrazovku několik stran textu a nechal mne to přečíst a podle toho se zkalibroval.
Protože se pro Windows nedala sehnat čeština, přestal jsem se o to po prvotním vyzkoušení zajímat a nevím, jaká je situace dnes. Existovalo několik aplikací třetích stran, které převod řeči na text nabízely, ale byly placené. Vzhledem k tomu, že to může být technologie využitá pro slepce, jsou placené produkty extrémně předražené (jako vše pro postižené, do čeho cpe stát nějaké dotace).
Teoreticky, pro jeden nebo dva povely nepotřebuješ rozpoznávání řeči, ale mohlo by Ti stačit to porovnání se vzorkem WAV, jak píšeš. Myslím, že by se to dalo najít v nějakých vysokoškolských skriptech, nebo Ti s tím někdo znalý poradí (já to neumím, ale už jsem takové věci viděl). U tohoto řešení ale s počtem povelů prudce roste nespolehlivost (čím více povelů máš, tím snadněji dojde k jejich záměně).