Dá se z hlasu poznat onemocnění covidem? Téma pro stovky expertů na světové konferenci v Česku
VÝVOJ ŘEČI
Do Česka míří stovky expertů zpracování a rozpoznání řeči, kteří stojí za vývojem hlasových aplikací jako je Siri, Alexa a mnoha dalších, které používají miliardy lidí. Je to poprvé, co se na našem území odehraje mezinárodní konference Interspeech, na kterou dorazí přední odborníci z celého světa a budou jednat mimo jiné o tom, jak lze využít strojového učení s minimem vstupních dat nebo zda lze poznat nákazu koronavirem z kašle.
„Zatímco před pandemií jsme analyzovali různé formy kašle kvůli diagnostice chronických plicních chorob, tuberkulózy či astmatu, poslední dva roky jsme se zaměřili na zvukové projevy koronaviru,“ říká indický expert Siriam Ganapathy, jehož cílem bylo ušetřit finance na testování a urychlit diagnostiku. Tématu spojenému s pandemií se na konferenci Interspeech budou věnovat hned dvě programové sekce. Dlouhodobě totiž „řečaři“ získávají z audiozáznamů informace o zdravotním stavu pacienta, případně o jeho mentálním rozpoložení.
„Heslem konference je Řeč všude. Zatímco dříve se výzkumu dolování dat z řeči věnovalo jen pár skupin, dnes je rozpoznávání řeči zahrnuto v každém chytrém telefonu a mnoha dalších zařízeních. Mluví s námi lednička, auto i roboti na telefonních linkách. Zatím ale stále nejsme s výzkumem a rozvojem u konce. Velkým tématem této doby je také trénování modelů strojového učení jen na malém množství dat. Přeci jen získat data z audiozáznamů je dost náročné i finančně nákladné, proto se teď výzkumné týmy z celého světa snaží naučit stoje, jak se mají učit jen z malých databází, které lze jednoduše stáhnout z YouTube či internetu obecně,“ naznačil jeden z hlavních organizátorů Jan Černocký z Fakulty informačních technologií VUT.
Mezi hlavními řečníky bude například Hermann Ney z německé univerzity v Aachenu, který letos získá na konferenci medaili za celoživotní přínos oboru od Mezinárodní řečové a komunikační asociace ISCA. Tuzemskou vědu bude reprezentovat například absolvent FIT VUT Tomáš Mikolov, na akci promluví také renomované vědkyně Pascale Fung z Hong Kongu a Mounya Elhilali z americké Johns Hopkins University.
„Data získaná z audiozáznamů se stále zpřesňují. Postupně se vědci z celého světa snaží naučit umělou inteligenci pracovat se zvukem i ve zhoršených podmínkách, jako je rozhovor lidí v dálce, s ozvěnou v kostele nebo třeba v restauraci plné lidí. Musíme řešit i jazykové pokrytí, protože nyní je velký rozvoj spíš u komerčně užívaných jazyků, jako je angličtina, francouzština, němčina a podobně, ale v budoucnu bude potřeba věnovat se i méně reprezentovaným jazykům, které kolikrát ani nemají písemnou formu, jen tu mluvenou,“ doplnil Černocký, který na organizaci akce intenzivně spolupracoval s kolegou Lukášem Burgetem z FIT.
Brno se o pořádání konference začalo snažit poprvé v roce 2015, a to i proto, že v moravské metropoli působí řada IT firem, které se věnují právě zpracování dat ze zvuku. Interspeech 2021 bude poprvé kombinovat prezenční a on-line podobu, kdy do Brna zavítá přes 350 vědců, virtuálně se k akci připojí dalších téměř 1 400. Celkově zde budou zastoupeny všechny kontinenty, nejvíce vědců bude z Evropy, Severní Ameriky a Asie. Celkově organizační tým vybral k prezentaci 992 vědeckých článků z více než dvou tisíc zaslaných.