Video generované umělou inteligencí – nová meta pro vývojáře

V pondělí newyorská společnost Runway oznámila dostupnost svého systému Gen 2, který generuje krátké úryvky videa na základě několika slov uživatelských pokynů. Uživatelé mohou například zadat popis toho, co chtějí vidět: „a systém vygeneruje zhruba třísekundový videoklip, který zobrazuje právě to nebo něco podobného. Alternativně mohou uživatelé nahrát obrázek jako referenční bod pro systém i jako výzvu.

Produkt není dostupný pro každého. Společnost Runway, která vyrábí filmové a střihové nástroje na bázi umělé inteligence, oznámila dostupnost svého systému umělé inteligence 2. generace prostřednictvím čekací listiny; zájemci se mohou o přístup k němu přihlásit na soukromém kanálu Discord, do kterého společnost plánuje každý týden přidávat další uživatele.

Omezené spuštění představuje nejvýznamnější případ takového generování textu na video mimo laboratoř. Společnosti Google a Meta Platforms Inc. ze skupiny Alphabet Inc. se loni pochlubily vlastními pokusy o převod textu na video – krátkými videoklipy s tématy, jako je medvídek myjící nádobí nebo plachetnice na jezeře -, ale ani jedna z nich neoznámila, že plánuje posunout tuto práci dál než do fáze výzkumu.

Společnost Runway pracuje na nástrojích umělé inteligence od roku 2018 a koncem loňského roku získala 50 milionů dolarů. Startup se podílel na vytvoření původní verze modelu Stable Diffusion, který slouží k převodu textu na obraz a který byl následně zpopularizován a dále rozvíjen společností Stability AI.

V exkluzivní živé ukázce se spoluzakladatelem a výkonným ředitelem společnosti Runway Crisem Valenzuelou, která proběhla minulý týden, vyzkoušel tento reportér Gen 2 a navrhl „záběry pouštní krajiny z dronu“. Během několika minut Gen 2 vygeneroval jen několik sekund dlouhé a trochu zkreslené video, které však nepopiratelně vypadalo jako záběry z dronu pořízené nad pouštní krajinou. Na obzoru je modrá obloha a mraky a v pravém rohu záběru videa vychází (nebo snad zapadá) slunce, jehož paprsky zvýrazňují hnědé duny pod ním.

Několik dalších videí, která Runway vytvořil na základě vlastních podnětů, ukazuje některé současné silné a slabé stránky systému: Na detailním snímku oční bulvy vypadá ostrý a docela lidský, zatímco klip turisty procházejícího džunglí ukazuje, že systém má stále problémy s generováním realisticky vypadajících nohou a pohybů při chůzi. Model stále ještě „nepřišel na to“, jak přesně zobrazit pohybující se objekty, řekl Valenzuela.

Chcete využít této příležitosti?

„Můžete vyvolat automobilovou honičku, ale někdy mohou auta uletět,“ řekl.

Zatímco zdlouhavé výzvy mohou vést k detailnějšímu obrazu s modelem převodu textu na obraz, jako je DALL-E nebo Stable Diffusion, Valenzuela řekl, že jednodušší je lepší u Gen 2. Gen 2 vidí jako způsob, jak nabídnout umělcům, designérům a filmařům další nástroj, který jim může pomoci s jejich tvůrčími procesy, a učinit tyto nástroje cenově dostupnějšími a přístupnějšími, než byly v minulosti.

Produkt vychází ze stávajícího modelu umělé inteligence nazvaného Gen 1, který společnost Runway začala soukromě testovat v únoru na službě Discord. Valenzuela uvedl, že v současné době má tisíce uživatelů. Tento model umělé inteligence vyžaduje, aby uživatelé nahráli video jako vstupní zdroj, který použije (spolu s pokyny uživatele, jako je textová výzva nebo fotografie) k vytvoření nového, tichého, třísekundového videa. Můžete například nahrát obrázek kočky honící hračku spolu s textem „roztomilý háčkovaný styl“ a Gen 1 vygeneruje video háčkované kočky honící hračku.

Videa vytvořená pomocí modelu AI 2. generace jsou také tichá, ale Valenzuela uvedl, že společnost provádí výzkum v oblasti generování zvuku v naději, že časem vytvoří systém, který bude schopen generovat obraz i zvuk.

Debut Gen 2 ukazuje rychlost a dravost, s jakou startupy postupují v oblasti takzvané generativní umělé inteligence, tedy systémů, které přijímají vstupy od uživatelů a generují nový obsah, například text nebo obrázky. Několik těchto systémů – například Stable Diffusion spolu s Dall-E generujícím obrázky od OpenAI Inc. a chatbotem ChatGPT – se v posledních měsících stalo veřejně dostupnými a masově populárními. Jejich šíření zároveň vyvolává právní a etické obavy.

Hany Farid, odborník na digitální forenzní techniku a profesor na Kalifornské univerzitě v Berkeley, se podíval na několik videí vytvořených pomocí Gen 2 a prohlásil je za „super cool“, ale dodal, že je jen otázkou času, kdy budou videa vytvořená pomocí této technologie zneužita.

„Lidé se s tím budou snažit dělat špatné věci,“ řekl Farid.

Společnost Runway používá kombinaci umělé inteligence a lidského moderování, aby zabránila uživatelům vytvářet videa s Gen 2, která obsahují pornografii, násilný obsah nebo porušují autorská práva, ačkoli tyto metody nejsou spolehlivé.

Stejně jako zbytek odvětví umělé inteligence i tato technologie rychle postupuje. Kvalita obrazu Gen 2 je sice v současné době poněkud rozmazaná a roztřesená, takže je snadno cítit, že na videu vytvořeném Gen 2 je něco jinak, ale Valenzuela očekává, že se to rychle zlepší.

„Ještě je brzy,“ řekl. „Model se bude časem zlepšovat.“

Služby jako Dall-E a Stable Diffusion již několik měsíců vytvářejí krásné, působivé a někdy znepokojivé snímky. Nyní se startup s názvem Runway AI Inc. pouští do dalšího kroku: Video generované umělou inteligencí.V pondělí newyorská společnost Runway oznámila dostupnost svého systému Gen 2, který generuje krátké úryvky videa na základě několika slov uživatelských pokynů. Uživatelé mohou například zadat popis toho, co chtějí vidět: „a systém vygeneruje zhruba třísekundový videoklip, který zobrazuje právě to nebo něco podobného. Alternativně mohou uživatelé nahrát obrázek jako referenční bod pro systém i jako výzvu.Produkt není dostupný pro každého. Společnost Runway, která vyrábí filmové a střihové nástroje na bázi umělé inteligence, oznámila dostupnost svého systému umělé inteligence 2. generace prostřednictvím čekací listiny; zájemci se mohou o přístup k němu přihlásit na soukromém kanálu Discord, do kterého společnost plánuje každý týden přidávat další uživatele.Omezené spuštění představuje nejvýznamnější případ takového generování textu na video mimo laboratoř. Společnosti Google a Meta Platforms Inc. ze skupiny Alphabet Inc. se loni pochlubily vlastními pokusy o převod textu na video – krátkými videoklipy s tématy, jako je medvídek myjící nádobí nebo plachetnice na jezeře -, ale ani jedna z nich neoznámila, že plánuje posunout tuto práci dál než do fáze výzkumu.Společnost Runway pracuje na nástrojích umělé inteligence od roku 2018 a koncem loňského roku získala 50 milionů dolarů. Startup se podílel na vytvoření původní verze modelu Stable Diffusion, který slouží k převodu textu na obraz a který byl následně zpopularizován a dále rozvíjen společností Stability AI.V exkluzivní živé ukázce se spoluzakladatelem a výkonným ředitelem společnosti Runway Crisem Valenzuelou, která proběhla minulý týden, vyzkoušel tento reportér Gen 2 a navrhl „záběry pouštní krajiny z dronu“. Během několika minut Gen 2 vygeneroval jen několik sekund dlouhé a trochu zkreslené video, které však nepopiratelně vypadalo jako záběry z dronu pořízené nad pouštní krajinou. Na obzoru je modrá obloha a mraky a v pravém rohu záběru videa vychází slunce, jehož paprsky zvýrazňují hnědé duny pod ním.Několik dalších videí, která Runway vytvořil na základě vlastních podnětů, ukazuje některé současné silné a slabé stránky systému: Na detailním snímku oční bulvy vypadá ostrý a docela lidský, zatímco klip turisty procházejícího džunglí ukazuje, že systém má stále problémy s generováním realisticky vypadajících nohou a pohybů při chůzi. Model stále ještě „nepřišel na to“, jak přesně zobrazit pohybující se objekty, řekl Valenzuela.Chcete využít této příležitosti?„Můžete vyvolat automobilovou honičku, ale někdy mohou auta uletět,“ řekl.Zatímco zdlouhavé výzvy mohou vést k detailnějšímu obrazu s modelem převodu textu na obraz, jako je DALL-E nebo Stable Diffusion, Valenzuela řekl, že jednodušší je lepší u Gen 2. Gen 2 vidí jako způsob, jak nabídnout umělcům, designérům a filmařům další nástroj, který jim může pomoci s jejich tvůrčími procesy, a učinit tyto nástroje cenově dostupnějšími a přístupnějšími, než byly v minulosti.Produkt vychází ze stávajícího modelu umělé inteligence nazvaného Gen 1, který společnost Runway začala soukromě testovat v únoru na službě Discord. Valenzuela uvedl, že v současné době má tisíce uživatelů. Tento model umělé inteligence vyžaduje, aby uživatelé nahráli video jako vstupní zdroj, který použije k vytvoření nového, tichého, třísekundového videa. Můžete například nahrát obrázek kočky honící hračku spolu s textem „roztomilý háčkovaný styl“ a Gen 1 vygeneruje video háčkované kočky honící hračku.Videa vytvořená pomocí modelu AI 2. generace jsou také tichá, ale Valenzuela uvedl, že společnost provádí výzkum v oblasti generování zvuku v naději, že časem vytvoří systém, který bude schopen generovat obraz i zvuk.Debut Gen 2 ukazuje rychlost a dravost, s jakou startupy postupují v oblasti takzvané generativní umělé inteligence, tedy systémů, které přijímají vstupy od uživatelů a generují nový obsah, například text nebo obrázky. Několik těchto systémů – například Stable Diffusion spolu s Dall-E generujícím obrázky od OpenAI Inc. a chatbotem ChatGPT – se v posledních měsících stalo veřejně dostupnými a masově populárními. Jejich šíření zároveň vyvolává právní a etické obavy.Hany Farid, odborník na digitální forenzní techniku a profesor na Kalifornské univerzitě v Berkeley, se podíval na několik videí vytvořených pomocí Gen 2 a prohlásil je za „super cool“, ale dodal, že je jen otázkou času, kdy budou videa vytvořená pomocí této technologie zneužita.„Lidé se s tím budou snažit dělat špatné věci,“ řekl Farid.Společnost Runway používá kombinaci umělé inteligence a lidského moderování, aby zabránila uživatelům vytvářet videa s Gen 2, která obsahují pornografii, násilný obsah nebo porušují autorská práva, ačkoli tyto metody nejsou spolehlivé.Stejně jako zbytek odvětví umělé inteligence i tato technologie rychle postupuje. Kvalita obrazu Gen 2 je sice v současné době poněkud rozmazaná a roztřesená, takže je snadno cítit, že na videu vytvořeném Gen 2 je něco jinak, ale Valenzuela očekává, že se to rychle zlepší.„Ještě je brzy,“ řekl. „Model se bude časem zlepšovat.“