Syntetická řeč může v dnešní době nahánět strach, když se spojí s deepfakes a dalšími podvody umělé inteligence, ale je také nepostradatelným nástrojem pro každého, kdo už nemůže mluvit sám. Společnost Acapela Group na tyto lidi myslí se svou novou službou „můj vlastní hlas“, která umožňuje komukoli zdarma trénovat hlasový profil umělé inteligence.
Společnost Acapela působí v oblasti převodu textu na řeč přibližně 25 let a nedávno ji koupil technologický gigant Tobii Dynavox, i když stále působí samostatně.
Stejně jako v mnoha jiných odvětvích, i v oblasti přístupnosti se výrazně projevil nástup strojového učení ve spotřebitelském měřítku. Před sedmi nebo osmi lety, vzpomíná spoluzakladatel společnosti Acapela Remy Cadic, bylo nejen zdlouhavé přizpůsobit si syntetický hlas, ale výsledky nebyly nijak zvlášť dobré.
„Bylo to časově velmi náročné – pacient musel trénovat 8 hodin. Nyní můžeme nahrát hlasovou banku s pouhými 50 větami; trvá to asi 10 minut a hlas je připraven druhý den,“ řekl. „S neuronovými technikami převodu textu na řeč se rozhodně děje revoluce.“
Generátor řeči, který používá vlastní hlas, jistě ocení stále více lidí – výběr ze seznamu je poněkud nelidský. Mnozí mají hlasy, které by raději používali, ale až donedávna to byla možnost.
Nežertovali o tom, jak je to rychlé a snadné: Vyzkoušela jsem si nový proces „vlastního hlasu“ a opravdu šlo jen o 50 krátkých vět, které byly vybrány z (náhodně vybraných) románů, knih s recepty a článků. Rozhraní pro nahrávání bylo jednoduché a snadno ovladatelné a jistě, asi o den později byl můj hlas připraven k použití. Kvalita je v pořádku – není nijak strašidelná, jak to u některých modelů bývá, ale zjevně jde o můj vlastní hlas (jak je inzerováno) a je schopen zvládnout jakoukoli větu, kterou jsem mu na ukázkové stránce předhodil.
Teď, když je k dispozici, si ji mohu v případě potřeby za poplatek stáhnout a použít v jakémkoli kompatibilním systému pro generování řeči. To se samozřejmě týká i TD Talk a zařízení Tobii Dynavox; společnost ostatně minulý týden vydala nové – tyhle věci začínají být docela elegantní.
A to je skutečný smysl toho všeho – nejde o technickou ukázku síly neuronové hlasové technologie ani o demo, které umožňuje komukoli nakrmit hlas celebrity, aby ji naklonoval. Je to nástroj vytvořený speciálně pro lidi, kteří donedávna možná neměli žádné možnosti nebo přinejlepším měli obtížný a složitý proces, pokud si chtěli zachovat svůj hlas.
Mnozí lidé, kteří čelí degenerativním onemocněním, rakovině nebo určitým zákrokům, vědí, že za několik měsíců nebo let již nemusí být schopni dobře nebo vůbec mluvit. Mnozí z nich ocení, když jim co nejvíce usnadní proces bankovního převodu hlasu.
„Jednou z velkých výhod je, že se přizpůsobujeme i dětem – skript pro nahrávání je lépe čitelný a systém jsme vyladili tak, aby kvalita dětských syntetických hlasů byla lepší. Byli jsme první na světě, kdo to udělal, a stále se tímto směrem ubíráme,“ řekl Cadic.
Klíčovou odlišností je také kompatibilita s offline zařízeními, která nemají nejnovější čip pro zpracování neuronů. „Existují online řešení, kde je snadné vytvořit hlas, ale je to dostupné pouze přes cloud, a to prostě není praktické,“ řekl.
Mimochodem, i když je metoda 50 vět skvělá pro lidi, kteří ještě umí číst a mluvit, hlas lze trénovat i na hlasových nahrávkách lidí, kteří už tuto schopnost ztratili – jen to není tak jednoduché.
Společnost také zjistila, že rozmanitost a promyšlenost v procesu školení je stejně důležitá jako v jiných aplikacích umělé inteligence. Cadic poukázal na to, že problémem některých superrychlých tréninkových technik je, že „se v podstatě jen snaží najít v tréninkovém materiálu mluvčího, který je uživateli nejblíže. Ale pokud v tréninkovém materiálu není mluvčí blízký původnímu hlasu, prostě nebude znít jako on.“
Produktový manažer společnosti Acapela Nicolas Mazars dodal, že podobně jako mnoho jiných problémů s umělou inteligencí, které mají kořeny v nedostatečném množství tréninkových dat, ani tento problém není rovnoměrně rozložen: „Tento proces funguje dobře pro průměrného padesátiletého bělocha, ale ne, pokud jste Afroameričan nebo neumíte dobře anglicky. Pracujeme ve 23 jazycích a máme mnoho uživatelů s postižením. Snažíme se spoléhat na zpětnou vazbu uživatelů a vyvíjet něco pro ně, podle nich.“
Nahrávání a bankovní proces je zdarma; zde si můžete zaregistrovat účet a během několika minut si vycvičit vlastní syntetický hlas. Platíte pouze v případě, že si jej chcete stáhnout a nainstalovat do zařízení.
Syntetická řeč může v dnešní době nahánět strach, když se spojí s deepfakes a dalšími podvody umělé inteligence, ale je také nepostradatelným nástrojem pro každého, kdo už nemůže mluvit sám. Společnost Acapela Group na tyto lidi myslí se svou novou službou „můj vlastní hlas“, která umožňuje komukoli zdarma trénovat hlasový profil umělé inteligence. Společnost Acapela působí v oblasti převodu textu na řeč přibližně 25 let a nedávno ji koupil technologický gigant Tobii Dynavox, i když stále působí samostatně. Stejně jako v mnoha jiných odvětvích, i v oblasti přístupnosti se výrazně projevil nástup strojového učení ve spotřebitelském měřítku. Před sedmi nebo osmi lety, vzpomíná spoluzakladatel společnosti Acapela Remy Cadic, bylo nejen zdlouhavé přizpůsobit si syntetický hlas, ale výsledky nebyly nijak zvlášť dobré. „Bylo to časově velmi náročné – pacient musel trénovat 8 hodin. Nyní můžeme nahrát hlasovou banku s pouhými 50 větami; trvá to asi 10 minut a hlas je připraven druhý den,“ řekl. „S neuronovými technikami převodu textu na řeč se rozhodně děje revoluce.“ Generátor řeči, který používá vlastní hlas, jistě ocení stále více lidí – výběr ze seznamu je poněkud nelidský. Mnozí mají hlasy, které by raději používali, ale až donedávna to byla možnost.Apartmány Benecko - Investiční apartmány v obci Benecko přímo na sjezdovce Reklama Nežertovali o tom, jak je to rychlé a snadné: Vyzkoušela jsem si nový proces „vlastního hlasu“ a opravdu šlo jen o 50 krátkých vět, které byly vybrány z románů, knih s recepty a článků. Rozhraní pro nahrávání bylo jednoduché a snadno ovladatelné a jistě, asi o den později byl můj hlas připraven k použití. Kvalita je v pořádku – není nijak strašidelná, jak to u některých modelů bývá, ale zjevně jde o můj vlastní hlas a je schopen zvládnout jakoukoli větu, kterou jsem mu na ukázkové stránce předhodil. Teď, když je k dispozici, si ji mohu v případě potřeby za poplatek stáhnout a použít v jakémkoli kompatibilním systému pro generování řeči. To se samozřejmě týká i TD Talk a zařízení Tobii Dynavox; společnost ostatně minulý týden vydala nové – tyhle věci začínají být docela elegantní. A to je skutečný smysl toho všeho – nejde o technickou ukázku síly neuronové hlasové technologie ani o demo, které umožňuje komukoli nakrmit hlas celebrity, aby ji naklonoval. Je to nástroj vytvořený speciálně pro lidi, kteří donedávna možná neměli žádné možnosti nebo přinejlepším měli obtížný a složitý proces, pokud si chtěli zachovat svůj hlas. Mnozí lidé, kteří čelí degenerativním onemocněním, rakovině nebo určitým zákrokům, vědí, že za několik měsíců nebo let již nemusí být schopni dobře nebo vůbec mluvit. Mnozí z nich ocení, když jim co nejvíce usnadní proces bankovního převodu hlasu. „Jednou z velkých výhod je, že se přizpůsobujeme i dětem – skript pro nahrávání je lépe čitelný a systém jsme vyladili tak, aby kvalita dětských syntetických hlasů byla lepší. Byli jsme první na světě, kdo to udělal, a stále se tímto směrem ubíráme,“ řekl Cadic. Klíčovou odlišností je také kompatibilita s offline zařízeními, která nemají nejnovější čip pro zpracování neuronů. „Existují online řešení, kde je snadné vytvořit hlas, ale je to dostupné pouze přes cloud, a to prostě není praktické,“ řekl. Mimochodem, i když je metoda 50 vět skvělá pro lidi, kteří ještě umí číst a mluvit, hlas lze trénovat i na hlasových nahrávkách lidí, kteří už tuto schopnost ztratili – jen to není tak jednoduché. Společnost také zjistila, že rozmanitost a promyšlenost v procesu školení je stejně důležitá jako v jiných aplikacích umělé inteligence. Cadic poukázal na to, že problémem některých superrychlých tréninkových technik je, že „se v podstatě jen snaží najít v tréninkovém materiálu mluvčího, který je uživateli nejblíže. Ale pokud v tréninkovém materiálu není mluvčí blízký původnímu hlasu, prostě nebude znít jako on.“ Produktový manažer společnosti Acapela Nicolas Mazars dodal, že podobně jako mnoho jiných problémů s umělou inteligencí, které mají kořeny v nedostatečném množství tréninkových dat, ani tento problém není rovnoměrně rozložen: „Tento proces funguje dobře pro průměrného padesátiletého bělocha, ale ne, pokud jste Afroameričan nebo neumíte dobře anglicky. Pracujeme ve 23 jazycích a máme mnoho uživatelů s postižením. Snažíme se spoléhat na zpětnou vazbu uživatelů a vyvíjet něco pro ně, podle nich.“ Nahrávání a bankovní proces je zdarma; zde si můžete zaregistrovat účet a během několika minut si vycvičit vlastní syntetický hlas. Platíte pouze v případě, že si jej chcete stáhnout a nainstalovat do zařízení.