Cartesia vyvíjí inovativní modely stavového prostoru, které snižují náklady na provoz AI a zvyšují její efektivitu
Technologie Sonic umožňuje klonování hlasu a další aplikace s nízkou latencí, což ji činí atraktivní pro mobilní zařízení
S investicí 27 milionů dolarů plánuje Cartesia stát se lídrem v oblasti multimodálních modelů AI pro různé aplikace
Například OpenAI odhaduje, že náklady na provoz jejich systémů by mohly letos dosáhnout až 7 miliard dolarů, a společnost Anthropic očekává, že jejich modely mohou brzy překročit hranici 10 miliard dolarů. Tyto náklady vedou odborníky k hledání způsobů, jak AI zlevnit a zpřístupnit širšímu trhu.
Startup Cartesia se na tento problém zaměřil s využitím inovativní technologie modelů stavového prostoru (SSM). Tato architektura je navržena tak, aby byla rychlejší, efektivnější a cenově dostupnější než tradiční modely založené na transformátorech, které dnes dominují v AI aplikacích.
Akademické základy a vznik společnosti
Spoluzakladatel Cartesia, Karan Goel, se této problematice začal věnovat během svého působení ve Stanfordově laboratoři umělé inteligence, kde spolupracoval s renomovanými vědci, jako je Christopher Ré. Společně s dalším doktorandem, Albertem Guem, vyvíjeli základy pro SSM, které se postupně staly jednou z klíčových technologií startupu.
Zdroj: burzovnisvet.cz
V roce 2023 se Goel a Gu, spolu se dvěma dalšími vědci, rozhodli založit společnost Cartesia. Jejich cílem bylo komercializovat výzkum SSM a přinést na trh modely, které kombinují rychlost, efektivitu a škálovatelnost.
Tradiční modely AI, jako jsou transformátory, pracují s tzv. „skrytým stavem“, který uchovává informace o všech předchozích zpracovaných datech. Tento přístup je sice výkonný, ale zároveň velmi náročný na výpočetní výkon. Pro generování nových dat musí transformátory opakovaně procházet celý svůj skrytý stav, což výrazně zvyšuje náklady na provoz.
Naopak modely stavového prostoru (SSM) komprimují data do souhrnu a většinu dříve zpracovaných dat zahazují. To jim umožňuje zpracovávat velké množství informací s nižšími náklady a vyšší rychlostí. Díky tomu jsou SSM atraktivní volbou pro aplikace, které vyžadují práci s dlouhými datovými kontexty, jako je zpracování zvuku, videa nebo textu.
Nové projekty a technologie
Cartesia nedávno představila svůj nejnovější projekt Sonic, což je model SSM určený pro klonování hlasu. Sonic dokáže generovat realistické hlasy, měnit jejich tón a kadenci nebo vytvářet nové. Tento nástroj je navržen tak, aby byl maximálně efektivní a stabilní.
Dalším významným krokem je spuštění Sonic On-Device, verze modelu optimalizované pro běh na mobilních zařízeních. To otevírá možnosti pro aplikace, jako je překlad v reálném čase nebo hlasové asistenty, které mohou fungovat bez připojení k internetu.
Kromě toho Cartesia pracuje na softwarové knihovně Edge, která optimalizuje SSM pro různé hardwarové konfigurace, a na vývoji kompaktního jazykového modelu Rene.
Etické otázky
Přestože Cartesia přináší inovace, čelí také výzvám v oblasti etiky. Některé jejich modely byly trénovány na veřejně dostupných datech, jako je The Pile, což vyvolává otázky ohledně ochrany autorských práv. Navíc jejich hlasový klonovací nástroj Sonic může být zneužit, například k vytváření podvodných hlasových nahrávek.
Společnost se snaží tato rizika minimalizovat pomocí moderace a plánuje zavést technologie pro ověřování pravosti a vodoznakování. Podle Goela jde o kontinuální proces, který vyžaduje průběžné zdokonalování.
Komerční úspěch a budoucnost
Cartesia již získala stovky zákazníků, kteří využívají jejich rozhraní Sonic API. Mezi klienty patří například aplikace Goodcall, která se zaměřuje na automatické volání. Sonic API nabízí různé cenové plány, včetně bezplatné verze pro malé objemy dat.
Zdroj: burzovnisvet.cz
Společnost nedávno uzavřela kolo financování ve výši 22 milionů dolarů vedené společností Index Ventures. Celkově Cartesia získala již 27 milionů dolarů na další rozvoj svých technologií. Podle partnera Index Ventures, Shardula Shaha, má Cartesia potenciál stát se klíčovým hráčem v oblasti nákladově efektivní AI.
Cartesia má ambiciózní plán stát se lídrem v oblasti multimodálních modelů, které budou schopny zpracovávat text, obrázky i video na jakémkoli zařízení. Tento cíl ji staví do přímé konkurence s dalšími startupy, jako jsou Zephyra nebo Liquid AI, které také vyvíjejí alternativy k tradičním transformátorům.
Goel věří, že díky technickému náskoku a podpoře od investorů má Cartesia dobré vyhlídky na úspěch. „Chceme vytvořit inteligenci, která bude fungovat v reálném čase a na jakémkoli zařízení,“ uvedl.
Například OpenAI odhaduje, že náklady na provoz jejich systémů by mohly letos dosáhnout až 7 miliard dolarů, a společnost Anthropic očekává, že jejich modely mohou brzy překročit hranici 10 miliard dolarů. Tyto náklady vedou odborníky k hledání způsobů, jak AI zlevnit a zpřístupnit širšímu trhu.Startup Cartesia se na tento problém zaměřil s využitím inovativní technologie modelů stavového prostoru . Tato architektura je navržena tak, aby byla rychlejší, efektivnější a cenově dostupnější než tradiční modely založené na transformátorech, které dnes dominují v AI aplikacích.Akademické základy a vznik společnostiSpoluzakladatel Cartesia, Karan Goel, se této problematice začal věnovat během svého působení ve Stanfordově laboratoři umělé inteligence, kde spolupracoval s renomovanými vědci, jako je Christopher Ré. Společně s dalším doktorandem, Albertem Guem, vyvíjeli základy pro SSM, které se postupně staly jednou z klíčových technologií startupu.V roce 2023 se Goel a Gu, spolu se dvěma dalšími vědci, rozhodli založit společnost Cartesia. Jejich cílem bylo komercializovat výzkum SSM a přinést na trh modely, které kombinují rychlost, efektivitu a škálovatelnost.Tradiční modely AI, jako jsou transformátory, pracují s tzv. „skrytým stavem“, který uchovává informace o všech předchozích zpracovaných datech. Tento přístup je sice výkonný, ale zároveň velmi náročný na výpočetní výkon. Pro generování nových dat musí transformátory opakovaně procházet celý svůj skrytý stav, což výrazně zvyšuje náklady na provoz.Naopak modely stavového prostoru komprimují data do souhrnu a většinu dříve zpracovaných dat zahazují. To jim umožňuje zpracovávat velké množství informací s nižšími náklady a vyšší rychlostí. Díky tomu jsou SSM atraktivní volbou pro aplikace, které vyžadují práci s dlouhými datovými kontexty, jako je zpracování zvuku, videa nebo textu.Nové projekty a technologieCartesia nedávno představila svůj nejnovější projekt Sonic, což je model SSM určený pro klonování hlasu. Sonic dokáže generovat realistické hlasy, měnit jejich tón a kadenci nebo vytvářet nové. Tento nástroj je navržen tak, aby byl maximálně efektivní a stabilní.Dalším významným krokem je spuštění Sonic On-Device, verze modelu optimalizované pro běh na mobilních zařízeních. To otevírá možnosti pro aplikace, jako je překlad v reálném čase nebo hlasové asistenty, které mohou fungovat bez připojení k internetu.Kromě toho Cartesia pracuje na softwarové knihovně Edge, která optimalizuje SSM pro různé hardwarové konfigurace, a na vývoji kompaktního jazykového modelu Rene.Etické otázkyPřestože Cartesia přináší inovace, čelí také výzvám v oblasti etiky. Některé jejich modely byly trénovány na veřejně dostupných datech, jako je The Pile, což vyvolává otázky ohledně ochrany autorských práv. Navíc jejich hlasový klonovací nástroj Sonic může být zneužit, například k vytváření podvodných hlasových nahrávek.Společnost se snaží tato rizika minimalizovat pomocí moderace a plánuje zavést technologie pro ověřování pravosti a vodoznakování. Podle Goela jde o kontinuální proces, který vyžaduje průběžné zdokonalování.Komerční úspěch a budoucnostCartesia již získala stovky zákazníků, kteří využívají jejich rozhraní Sonic API. Mezi klienty patří například aplikace Goodcall, která se zaměřuje na automatické volání. Sonic API nabízí různé cenové plány, včetně bezplatné verze pro malé objemy dat.Společnost nedávno uzavřela kolo financování ve výši 22 milionů dolarů vedené společností Index Ventures. Celkově Cartesia získala již 27 milionů dolarů na další rozvoj svých technologií. Podle partnera Index Ventures, Shardula Shaha, má Cartesia potenciál stát se klíčovým hráčem v oblasti nákladově efektivní AI.Cartesia má ambiciózní plán stát se lídrem v oblasti multimodálních modelů, které budou schopny zpracovávat text, obrázky i video na jakémkoli zařízení. Tento cíl ji staví do přímé konkurence s dalšími startupy, jako jsou Zephyra nebo Liquid AI, které také vyvíjejí alternativy k tradičním transformátorům.Goel věří, že díky technickému náskoku a podpoře od investorů má Cartesia dobré vyhlídky na úspěch. „Chceme vytvořit inteligenci, která bude fungovat v reálném čase a na jakémkoli zařízení,“ uvedl.