Klíčové body

Vstup společnosti OpenAI do oblasti generativních videí AI je působivým prvním krokem
Společnosti jako Google a startupy jako Runway již odhalily projekty umělé inteligence pro převod textu na video
Nejúžasnější schopnosti Sory však přesahují rámec plnění požadavků konkrétních podnětů
V důsledku toho je nejbližším úkolem OpenAI zajistit, aby se Sora nestala narušitelem dezinformací

Tento produkt, Sora, se snaží zvládnout filmové umění bez formálního filmového vzdělání. Sora je prozatím ve fázi testování, zkouší ji vybraní tvůrci a bezpečnostní experti, kteří zjišťují případné bezpečnostní chyby. V blíže neurčeném termínu ji chce OpenAI zpřístupnit všem začínajícím filmařům. Nedávno však byl zveřejněn náhled možností tohoto inovativního nástroje.

Společnosti jako Google a startupy jako Runway již odhalily projekty umělé inteligence pro převod textu na video, nicméně OpenAI tvrdí, že Sora se odlišuje svým nápadným fotorealismem a schopností vytvářet delší klipy, až do délky jedné minuty. Typickým standardem pro většinu modelů byly dosud pouze krátké úryvky videí. Společnost OpenAI zatím nezveřejnila dobu vykreslování těchto videí, nicméně délku trvání přirovnává spíše ke krátké přestávce než k několika dnům volna.

Zdá se, že hlavní silnou stránkou modelu Sora je jeho schopnost vytvářet svět, kterou demonstruje řada videoklipů poskytnutých společností OpenAI jako příklad. Jeden z nich obsahuje příklad, kdy byla Sora vyzvána k zobrazení konkrétní scény: “Krásné, zasněžené Tokio je rušné. Kamera se pohybuje rušnou městskou ulicí a sleduje několik lidí, kteří si užívají krásného zasněženého počasí a nakupují v okolních stáncích. Nádherné okvětní lístky sakur poletují ve větru spolu se sněhovými vločkami”. Sora vytvořila působivě realistickou scénu Tokia s třepotajícími se sněhovými vločkami, třešňovými květy a lidmi pohybujícími se v ulicích města. Kamera se plynule pohybuje scénou a vytváří pro diváka pohlcující zážitek.

Tím však kouzlo nekončí. Další klip ukázal, že Sora dokáže vytvořit animovanou scénu, ve které vedle červené svíčky stojí chlupatá příšera. Vytvořené video připomínalo něco z filmu společnosti Pixar s takovou úrovní detailů, kterou dříve tým specializovaných animátorů ve společnosti Pixar dokázal vytvořit za několik měsíců. Vývoj byl zdánlivě působivý, přičemž vědec Tim Brooks zdůraznil, že jejich model neobsahoval žádné již existující algoritmy. Místo toho se naučil vytvářet tato realistická zobrazení na základě rozsáhlého množství dat, kterým byl vystaven.

Nejúžasnější schopnosti Sory však přesahují rámec plnění požadavků konkrétních podnětů. Do svých výtvorů vnáší filmový talent a prokazuje intuitivní pochopení filmové gramatiky. Tato vlastnost je patrná v jeho generovaných klipech, které se nejen drží zadaných podnětů, ale obsahují i další prvky, jako jsou změny úhlu kamery a načasování pro posílení příběhu.

Společnost OpenAI prozradila, že Sora nabízí také funkci generování videí z jednoho snímku nebo sekvence snímků, i když ta pravděpodobně ještě nějakou dobu nebude veřejně dostupná. Uvědomují si, že tato funkce s sebou nese riziko, zejména pokud jde o možnost jejího zneužití k vytváření dezinformací nebo deepfakes. Společnost vyjádřila svůj závazek řešit bezpečnostní obavy týkající se této funkce.

Nevyhnutelná otázka pro společnost Sora se týká porušování autorských práv vzhledem k mlhavé hranici, která odlišuje zdrojový materiál od konečného produktu. Tréninková data používaná společností Sora jsou licencovaným obsahem a veřejně dostupným obsahem. Otázka používání veřejně dostupného obsahu chráněného autorskými právy pro trénink umělé inteligence však zůstává v právních kruzích spornou otázkou.

Chcete využít této příležitosti?

I když se vyhlídka na to, že technologie převodu textu na video vytlačí tradiční filmovou tvorbu, může zdát vzdálená, možnosti společnosti Sora změnit platformy sociálních médií, jako jsou TikTok a Reels, jsou nepopiratelné. Bill Peebles, výzkumný pracovník projektu, poznamenává: “Abyste mohli natočit profesionální film, potřebujete tolik drahého vybavení. Tento model umožní běžnému člověku, který natáčí videa na sociálních sítích, vytvářet velmi kvalitní obsah.”

V důsledku toho je nejbližším úkolem OpenAI zajistit, aby se Sora nestala narušitelem dezinformací. Přesto již odhalení nástroje zahájilo odpočet potenciální nové éry v kinematografii, kdy by modely umělé inteligence mohly být chváleny za schopnost zobrazovat složité skutečnosti prostřednictvím narativních podnětů. Na příštím udílení cen se možná právě model umělé inteligence dočká uznání za své vypravěčské schopnosti.

OpenAI, významná společnost zabývající se umělou inteligencí, která je známá svými chatboty schopnými složit advokátní zkoušky bez právnické školy, oznámila nový výzkumný produkt upozorňující na Oscary. Tento produkt, Sora, se snaží zvládnout filmové umění bez formálního filmového vzdělání. Sora je prozatím ve fázi testování, zkouší ji vybraní tvůrci a bezpečnostní experti, kteří zjišťují případné bezpečnostní chyby. V blíže neurčeném termínu ji chce OpenAI zpřístupnit všem začínajícím filmařům. Nedávno však byl zveřejněn náhled možností tohoto inovativního nástroje. Společnosti jako Google a startupy jako Runway již odhalily projekty umělé inteligence pro převod textu na video, nicméně OpenAI tvrdí, že Sora se odlišuje svým nápadným fotorealismem a schopností vytvářet delší klipy, až do délky jedné minuty. Typickým standardem pro většinu modelů byly dosud pouze krátké úryvky videí. Společnost OpenAI zatím nezveřejnila dobu vykreslování těchto videí, nicméně délku trvání přirovnává spíše ke krátké přestávce než k několika dnům volna. Zdá se, že hlavní silnou stránkou modelu Sora je jeho schopnost vytvářet svět, kterou demonstruje řada videoklipů poskytnutých společností OpenAI jako příklad. Jeden z nich obsahuje příklad, kdy byla Sora vyzvána k zobrazení konkrétní scény: “Krásné, zasněžené Tokio je rušné. Kamera se pohybuje rušnou městskou ulicí a sleduje několik lidí, kteří si užívají krásného zasněženého počasí a nakupují v okolních stáncích. Nádherné okvětní lístky sakur poletují ve větru spolu se sněhovými vločkami”. Sora vytvořila působivě realistickou scénu Tokia s třepotajícími se sněhovými vločkami, třešňovými květy a lidmi pohybujícími se v ulicích města. Kamera se plynule pohybuje scénou a vytváří pro diváka pohlcující zážitek. Zdroj: OpenAI Tím však kouzlo nekončí. Další klip ukázal, že Sora dokáže vytvořit animovanou scénu, ve které vedle červené svíčky stojí chlupatá příšera. Vytvořené video připomínalo něco z filmu společnosti Pixar s takovou úrovní detailů, kterou dříve tým specializovaných animátorů ve společnosti Pixar dokázal vytvořit za několik měsíců. Vývoj byl zdánlivě působivý, přičemž vědec Tim Brooks zdůraznil, že jejich model neobsahoval žádné již existující algoritmy. Místo toho se naučil vytvářet tato realistická zobrazení na základě rozsáhlého množství dat, kterým byl vystaven. Nejúžasnější schopnosti Sory však přesahují rámec plnění požadavků konkrétních podnětů. Do svých výtvorů vnáší filmový talent a prokazuje intuitivní pochopení filmové gramatiky. Tato vlastnost je patrná v jeho generovaných klipech, které se nejen drží zadaných podnětů, ale obsahují i další prvky, jako jsou změny úhlu kamery a načasování pro posílení příběhu. Společnost OpenAI prozradila, že Sora nabízí také funkci generování videí z jednoho snímku nebo sekvence snímků, i když ta pravděpodobně ještě nějakou dobu nebude veřejně dostupná. Uvědomují si, že tato funkce s sebou nese riziko, zejména pokud jde o možnost jejího zneužití k vytváření dezinformací nebo deepfakes. Společnost vyjádřila svůj závazek řešit bezpečnostní obavy týkající se této funkce. Zdroj: OpenAI Nevyhnutelná otázka pro společnost Sora se týká porušování autorských práv vzhledem k mlhavé hranici, která odlišuje zdrojový materiál od konečného produktu. Tréninková data používaná společností Sora jsou licencovaným obsahem a veřejně dostupným obsahem. Otázka používání veřejně dostupného obsahu chráněného autorskými právy pro trénink umělé inteligence však zůstává v právních kruzích spornou otázkou. I když se vyhlídka na to, že technologie převodu textu na video vytlačí tradiční filmovou tvorbu, může zdát vzdálená, možnosti společnosti Sora změnit platformy sociálních médií, jako jsou TikTok a Reels, jsou nepopiratelné. Bill Peebles, výzkumný pracovník projektu, poznamenává: “Abyste mohli natočit profesionální film, potřebujete tolik drahého vybavení. Tento model umožní běžnému člověku, který natáčí videa na sociálních sítích, vytvářet velmi kvalitní obsah.” V důsledku toho je nejbližším úkolem OpenAI zajistit, aby se Sora nestala narušitelem dezinformací. Přesto již odhalení nástroje zahájilo odpočet potenciální nové éry v kinematografii, kdy by modely umělé inteligence mohly být chváleny za schopnost zobrazovat složité skutečnosti prostřednictvím narativních podnětů. Na příštím udílení cen se možná právě model umělé inteligence dočká uznání za své vypravěčské schopnosti.