A mam jeste jeden (nepracovni) problem.
Tzv. jsem si hodil rukavici, a chci napsat programek typu Cortana nebo Hi Siri (v applu). Takze reknu prikaz do mikrofoního modulu (vsechny moduly si ziji vlastnim zivotem - kazdy ma svuj Thread) a potrebuji z prijateho streamu (pole byte) vyhodnotit zda se jedna o regularni zvuk, tedy enumeracni prikazy typu ENUM.Rosvit, Enum.Zhasni. Pro ovladani WIN API je dnes pouzit nuget .... NAudio. potud je vse OK.
Problem vznika jak a cim vyhodnotit zda je ten zvuk korektni. Dodnes jsem pouzival FingerPrint.Audio ale ten je pro muj ucet pomerne nepresny. Premyslel jsem nad Schazam fingerprintem. ale tusim ze pokud oba jsou zalozeny na furier transformacich .
Vysledek celeho bych si ulozil do MSSQL ale hlavne dle toho to nejakeho fingerprintu a by muj program oslovil dalsim moduly ktere by vykonaly tu fyzickou akci. Treba by seply RELE pro nasledne rozsviceni uvedenoho svetla.
Takze otazka zni jak vyhodnotit SPEECH v ceskem prostredi.
Diky za kazdou myslenku