Systém by podle vědců mohl například policii pomoci v tisících telefonních hovorech zachytit ten, kde mluví mezinárodně hledaný zločinec. Bankám by zase pomohl ověřovat, zda zadávat platby po telefonu chce opravdu majitel účtu.

Na automatickém rozpoznávání hlasu pracuje dvacetičlenná skupina deset let, intenzivně posledních pět roků. Podle Pavla Matějky dnes dospěla tak daleko, že správně určit páry nahrávek od individuálních mluvčích umí ve statisících nahrávkách s pravděpodobností 98 procent, každá nahrávka v tomto testu trvá 87 sekund. U desetivteřinových nahrávek dává systém správné odpovědi v 80 procentech případů.

Vědci věří v uplatnění svých výsledků v praxi, spolupracují už se soukromou sférou i státem. "Toto nás zajímá, nejsme výzkumníci, kteří by si dělali jen vědu do šuplíčku," řekl za tým Jan Černocký. Podle něj je ale ještě hodně práce před oběma stranami. "V bankách by ideálně chtěli mít stoprocentní výsledek, ještě než člověk začne mluvit," dodal za výzkumníky Pavel Matějka.

Podle vědců nebude nejspíš nikdy možné všechny mluvčí rozpoznat se stoprocentní jistotou za každé situace. Výzvy před výzkumníky kladou nové technologie, jako jsou nové typy telefonních spojení a telefonování po internetu. Hlas také mění stárnutí člověka i různé nemoci. Podle Matějky ale dosud vždy platilo, že při mezinárodním hodnocení, které se koná každé dva roky, dokázaly zúčastněné týmy oproti minulým hodnocením snížit počet chyb na polovinu.

Výzkumná skupina Speech@FIT působí v Ústavu počítačové grafiky a multimédií Fakulty informačních technologií VUT. Spolupracuje také s partnery z Kanady a Jihoafrické republiky.