Většina generativní umělé inteligence se zaměřuje na textová rozhraní, která slouží ke generování textu, obrázků a dalších prvků. Zdá se, že další vlna se týká hlasu, a to velmi rychle. V rámci nejnovějšího vývoje dnes společnost Google oznámila, že do své vývojové platformy Vertex AI od příštího týdne přidá Chirp 3 – své modely pro převod řeči na text a HD text na řeč.
Minulý týden společnost Google v tichosti oznámila, že Chirp 3 zavede 8 nových hlasů pro 31 jazyků. Mezi případy použití této platformy patří vytváření hlasových asistentů, audioknih, vývoj podpůrných agentů a hlasových komentářů pro videa. Novinky byly oznámeny na akci v londýnských kancelářích společnosti Google DeepMind.
Její úsilí přichází ve stejné době, kdy se i ostatní snaží pokročit v práci s hlasovou umělou inteligencí. Minulý týden oznámila společnost Sesame – startup, který stojí za virálními, velmi realisticky znějícími aplikacemi „Maya“ a „Miles“ s umělou inteligencí – spuštění modelu pro vývojáře, kteří mohou na základě její technologie vytvářet vlastní aplikace a služby na míru.
V souvislosti s aplikací Chirp 3 budou zavedena omezení používání, aby se zabránilo jejímu zneužití. „Některé z těchto věcí právě řešíme s naším bezpečnostním týmem,“ řekl Thomas Kurian, generální ředitel služby Google Cloud, na dnešní tiskové konferenci.
Společnost ElevenLabs patří mezi významné startupy, které získaly stovky milionů dolarů na rozšíření své činnosti v oblasti hlasových služeb s umělou inteligencí.
Díky této novince se Chirp 3 dostane do stejné stáje jako novější verze vlajkové lodi LLM, Gemini, která se testuje, stejně jako model pro generování obrázků Imagen a drahý nástroj pro generování videa Veo 2.
Ještě není potvrzeno, zda to, co Google s Chirp 3 uvolní, bude tak „realistické“ jako některé jiné snahy umělé inteligence o vytvoření „lidských“ hlasů (vyniká zejména práce Sesame). Jak však zdůraznil Demis Hassabis, generální ředitel společnosti DeepMind, stále se jedná o maraton, nikoli o sprint.
Většina generativní umělé inteligence se zaměřuje na textová rozhraní, která slouží ke generování textu, obrázků a dalších prvků. Zdá se, že další vlna se týká hlasu, a to velmi rychle. V rámci nejnovějšího vývoje dnes společnost Google oznámila, že do své vývojové platformy Vertex AI od příštího týdne přidá Chirp 3 – své modely pro převod řeči na text a HD text na řeč.
Minulý týden společnost Google v tichosti oznámila, že Chirp 3 zavede 8 nových hlasů pro 31 jazyků. Mezi případy použití této platformy patří vytváření hlasových asistentů, audioknih, vývoj podpůrných agentů a hlasových komentářů pro videa. Novinky byly oznámeny na akci v londýnských kancelářích společnosti Google DeepMind.
Její úsilí přichází ve stejné době, kdy se i ostatní snaží pokročit v práci s hlasovou umělou inteligencí. Minulý týden oznámila společnost Sesame – startup, který stojí za virálními, velmi realisticky znějícími aplikacemi „Maya“ a „Miles“ s umělou inteligencí – spuštění modelu pro vývojáře, kteří mohou na základě její technologie vytvářet vlastní aplikace a služby na míru.
V souvislosti s aplikací Chirp 3 budou zavedena omezení používání, aby se zabránilo jejímu zneužití. „Některé z těchto věcí právě řešíme s naším bezpečnostním týmem,“ řekl Thomas Kurian, generální ředitel služby Google Cloud, na dnešní tiskové konferenci.
Společnost ElevenLabs patří mezi významné startupy, které získaly stovky milionů dolarů na rozšíření své činnosti v oblasti hlasových služeb s umělou inteligencí.
Díky této novince se Chirp 3 dostane do stejné stáje jako novější verze vlajkové lodi LLM, Gemini, která se testuje, stejně jako model pro generování obrázků Imagen a drahý nástroj pro generování videa Veo 2.
Ještě není potvrzeno, zda to, co Google s Chirp 3 uvolní, bude tak „realistické“ jako některé jiné snahy umělé inteligence o vytvoření „lidských“ hlasů . Jak však zdůraznil Demis Hassabis, generální ředitel společnosti DeepMind, stále se jedná o maraton, nikoli o sprint.