Společnost Meta tvrdí, že její nový model generování umění je nejlepší ve své třídě
Během posledních dvou let se generátory obrázků s umělou inteligencí staly víceméně komodifikovanými, a to díky široké dostupnosti a snižujícím se technickým překážkám.
Nasazují je prakticky všichni významní technologičtí hráči, včetně společností Google a Microsoft, a také nespočet začínajících firem, které se snaží urvat kus stále lukrativnějšího koláče generativní umělé inteligence.
To však neznamená, že jsou ještě konzistentní, pokud jde o výkon – zdaleka tomu tak není. Kvalita generátorů obrazu se sice zlepšila, ale jde o postupný, někdy až mučivý pokrok.
Meta však tvrdí, že se jí podařil průlom
Společnost Meta dnes oznámila model CM3Leon („chameleon“ v neobratné řeči leetspeaku), který podle společnosti dosahuje špičkového výkonu při generování textu na obraz. CM3Leon se vyznačuje také tím, že je jedním z prvních generátorů obrázků schopných generovat popisky k obrázkům, čímž podle společnosti Meta položil základy pro další modely schopné porozumět obrázkům.
Zdroj: Getty Images
„Díky schopnostem CM3Leon mohou nástroje pro generování obrázků vytvářet ucelenější snímky, které se lépe řídí vstupními pokyny,“ napsala Meta v příspěvku na blogu. „Věříme, že vysoký výkon CM3Leon v různých úlohách je krokem k vyšší věrnosti generování a porozumění obrazu.“
Většina moderních generátorů obrázků, včetně DALL-E 2 od OpenAI, Imagen od Googlu a Stable Diffusion, se při vytváření umění spoléhá na proces zvaný difúze. Při difúzi se model učí, jak postupně odečítat šum z výchozího obrazu tvořeného výhradně šumem – krok za krokem se přibližuje k cílovému podnětu.
Výsledky jsou působivé. Difuze je však výpočetně náročná, takže její provoz je drahý a dostatečně pomalý, takže většina aplikací v reálném čase je nepraktická.
Naproti tomu CM3Leon je transformační model, který využívá mechanismus zvaný „pozornost“ pro zvažování relevance vstupních dat, jako je text nebo obrázky. Pozornost a další architektonické zvláštnosti transformátorů mohou zvýšit rychlost trénování modelů a usnadnit jejich paralelizaci. Jinými slovy, větší a větší transformátory lze trénovat s výrazným, ale nikoli nedosažitelným nárůstem výpočetní kapacity.
Společnost Meta tvrdí, že CM3Leon je ještě efektivnější než většina transformátorů, protože vyžaduje pětkrát méně výpočtů a menší soubor trénovacích dat než předchozí metody založené na transformátorech.
Zdroj: Unsplash
Zajímavé je, že společnost OpenAI zkoumala transformátory jako prostředek generování obrazu již před několika lety v modelu nazvaném Image GPT. Nakonec však od této myšlenky upustila ve prospěch difúze – a možná brzy přejde na „konzistenci“.
K tréninku CM3Leon použila společnost Meta datovou sadu milionů licencovaných obrázků ze služby Shutterstock. Nejschopnější z několika verzí CM3Leon, které Meta vytvořila, má 7 miliard parametrů, což je více než dvakrát tolik než DALL-E 2. (Parametry jsou části modelu naučené z trénovacích dat a v podstatě definují dovednosti modelu v daném problému, jako je generování textu – nebo v tomto případě obrázků.)
Jedním z klíčů k vyššímu výkonu systému CM3Leon je technika zvaná supervised fine-tuning, zkráceně SFT. SFT se s velkým úspěchem používá k trénování modelů pro generování textu, jako je ChatGPT společnosti OpenAI, ale Meta předpokládá, že by mohla být užitečná i při použití v oblasti obrazu. Vyladění instrukcí skutečně zlepšilo výkon modelu CM3Leon nejen při generování obrázků, ale i při psaní popisků k obrázkům, což mu umožnilo odpovídat na otázky týkající se obrázků a upravovat obrázky podle textových instrukcí (např. „změň barvu oblohy na jasně modrou“).
Většina generátorů obrázků má problémy se „složitými“ objekty a textovými výzvami, které obsahují příliš mnoho omezení. Ale CM3Leon to nedělá – nebo alespoň ne tak často. V několika vybraných příkladech Meta nechala CM3Leon vygenerovat obrázky pomocí zadání typu „Malý kaktus ve slaměném klobouku a neonových slunečních brýlích na saharské poušti“, „Detailní fotografie lidské ruky, model ruky“, „Hlavní hrdina mýval v anime se připravuje na epickou bitvu se samurajským mečem“ a „Značka zastávky ve stylu Fantasy s textem ‚1991‘“.
Zdroj: Techcrunch
Nasazují je prakticky všichni významní technologičtí hráči, včetně společností Google a Microsoft, a také nespočet začínajících firem, které se snaží urvat kus stále lukrativnějšího koláče generativní umělé inteligence.To však neznamená, že jsou ještě konzistentní, pokud jde o výkon – zdaleka tomu tak není. Kvalita generátorů obrazu se sice zlepšila, ale jde o postupný, někdy až mučivý pokrok.Společnost Meta dnes oznámila model CM3Leon , který podle společnosti dosahuje špičkového výkonu při generování textu na obraz. CM3Leon se vyznačuje také tím, že je jedním z prvních generátorů obrázků schopných generovat popisky k obrázkům, čímž podle společnosti Meta položil základy pro další modely schopné porozumět obrázkům.„Díky schopnostem CM3Leon mohou nástroje pro generování obrázků vytvářet ucelenější snímky, které se lépe řídí vstupními pokyny,“ napsala Meta v příspěvku na blogu. „Věříme, že vysoký výkon CM3Leon v různých úlohách je krokem k vyšší věrnosti generování a porozumění obrazu.“Většina moderních generátorů obrázků, včetně DALL-E 2 od OpenAI, Imagen od Googlu a Stable Diffusion, se při vytváření umění spoléhá na proces zvaný difúze. Při difúzi se model učí, jak postupně odečítat šum z výchozího obrazu tvořeného výhradně šumem – krok za krokem se přibližuje k cílovému podnětu.Výsledky jsou působivé. Difuze je však výpočetně náročná, takže její provoz je drahý a dostatečně pomalý, takže většina aplikací v reálném čase je nepraktická.Naproti tomu CM3Leon je transformační model, který využívá mechanismus zvaný „pozornost“ pro zvažování relevance vstupních dat, jako je text nebo obrázky. Pozornost a další architektonické zvláštnosti transformátorů mohou zvýšit rychlost trénování modelů a usnadnit jejich paralelizaci. Jinými slovy, větší a větší transformátory lze trénovat s výrazným, ale nikoli nedosažitelným nárůstem výpočetní kapacity.Společnost Meta tvrdí, že CM3Leon je ještě efektivnější než většina transformátorů, protože vyžaduje pětkrát méně výpočtů a menší soubor trénovacích dat než předchozí metody založené na transformátorech.Zajímavé je, že společnost OpenAI zkoumala transformátory jako prostředek generování obrazu již před několika lety v modelu nazvaném Image GPT. Nakonec však od této myšlenky upustila ve prospěch difúze – a možná brzy přejde na „konzistenci“.K tréninku CM3Leon použila společnost Meta datovou sadu milionů licencovaných obrázků ze služby Shutterstock. Nejschopnější z několika verzí CM3Leon, které Meta vytvořila, má 7 miliard parametrů, což je více než dvakrát tolik než DALL-E 2. Jedním z klíčů k vyššímu výkonu systému CM3Leon je technika zvaná supervised fine-tuning, zkráceně SFT. SFT se s velkým úspěchem používá k trénování modelů pro generování textu, jako je ChatGPT společnosti OpenAI, ale Meta předpokládá, že by mohla být užitečná i při použití v oblasti obrazu. Vyladění instrukcí skutečně zlepšilo výkon modelu CM3Leon nejen při generování obrázků, ale i při psaní popisků k obrázkům, což mu umožnilo odpovídat na otázky týkající se obrázků a upravovat obrázky podle textových instrukcí .Většina generátorů obrázků má problémy se „složitými“ objekty a textovými výzvami, které obsahují příliš mnoho omezení. Ale CM3Leon to nedělá – nebo alespoň ne tak často. V několika vybraných příkladech Meta nechala CM3Leon vygenerovat obrázky pomocí zadání typu „Malý kaktus ve slaměném klobouku a neonových slunečních brýlích na saharské poušti“, „Detailní fotografie lidské ruky, model ruky“, „Hlavní hrdina mýval v anime se připravuje na epickou bitvu se samurajským mečem“ a „Značka zastávky ve stylu Fantasy s textem ‚1991‘“.
Společnost AppLovin, významný hráč v oblasti reklamních technologií, znovu přitáhla pozornost investorů i analytiků poté, co ve středu oznámila výsledky...