Společnost Stability AI dnes oznámila uvedení verze Stable Diffusion XL 1.0, modelu pro převod textu na obraz, který společnost označuje za svou dosud „nejpokročilejší“ verzi. Model Stable Diffusion XL 1.0, který je kromě rozhraní API a spotřebitelských aplikací ClipDrop a DreamStudio společnosti Stability k dispozici v otevřeném zdrojovém kódu na serveru GitHub, přináší ve srovnání se svým předchůdcem „živější“ a „přesnější“ barvy a lepší kontrast, stíny a osvětlení, tvrdí společnost Stability.
Joe Penna, vedoucí oddělení aplikovaného strojového učení společnosti Stability AI, v rozhovoru pro TechCrunch uvedl, že aplikace Stable Diffusion XL 1.0, která obsahuje 3,5 miliardy parametrů, dokáže získat snímky s plným rozlišením 1 megapixel „během několika sekund“ v různých poměrech stran. „Parametry“ jsou části modelu naučené z trénovacích dat a v podstatě definují dovednosti modelu v daném problému, v tomto případě při generování obrázků.
Předchozí generace modelu Stable Diffusion, Stable Diffusion XL 0.9, dokázala vytvořit i snímky s vyšším rozlišením, ale vyžadovala větší výpočetní výkon.
Zdroj: Stability.ai
„Stable Diffusion XL 1.0 je přizpůsobitelný, připravený k doladění konceptů a stylů,“ řekl Penna. „Je také jednodušší na používání, dokáže vytvářet složité návrhy se základními podněty pro zpracování přirozeného jazyka.“
Stable Diffusion XL 1.0 je navíc vylepšena v oblasti generování textu. Zatímco mnoho nejlepších modelů pro převod textu na obraz má problémy s generováním obrázků s čitelnými logy, natož s kaligrafií nebo písmy, Stable Diffusion XL 1.0 je schopen „pokročilého“ generování textu a čitelnosti, říká Penna.
Jak informovaly SiliconAngle a VentureBeat, Stable Diffusion XL 1.0 podporuje inpainting (rekonstrukci chybějících částí obrázku), outpainting (rozšíření stávajících obrázků) a „image-to-image“ výzvy – což znamená, že uživatelé mohou zadat obrázek a přidat několik textových výzev k vytvoření podrobnějších variant tohoto obrázku. Model navíc rozumí složitým, vícedílným pokynům zadaným v krátkých výzvách, zatímco předchozí modely stabilní difúze potřebovaly delší textové výzvy.
„Doufáme, že vydáním tohoto mnohem výkonnějšího modelu s otevřeným zdrojovým kódem nedojde pouze ke zčtyřnásobení rozlišení snímků, ale také k pokroku, který bude velkým přínosem pro všechny uživatele,“ dodal.
Stejně jako u předchozích verzí stabilní difuze však tento model vyvolává ožehavé morální otázky.
Zdroj: StabilityAI
Otevřenou verzi Stable Diffusion XL 1.0 mohou teoreticky využít špatní aktéři k vytváření toxického nebo škodlivého obsahu, například nekonsensuálních deepfakes. To je částečně odrazem dat, která byla použita k jejímu tréninku: miliony obrázků z celého webu.
V nesčetných výukových materiálech je ukázáno, jak k vytváření deepfakes používat vlastní nástroje Stability AI, včetně DreamStudia, open source rozhraní pro Stable Diffusion. Nespočet dalších ukazuje, jak vyladit základní modely Stable Diffusion pro generování pornografie.
Penna nepopírá, že zneužití je možné – a uznává, že model obsahuje i jistá zkreslení. Dodal však, že společnost Stability AI podnikla „dodatečné kroky“ ke zmírnění generování škodlivého obsahu tím, že filtruje tréninková data modelu na „nebezpečné“ snímky, vydává nová varování týkající se problematických výzev a blokuje co nejvíce jednotlivých problematických výrazů v nástroji.
„Neustále zlepšujeme bezpečnostní funkce systému Stable Diffusion a vážně se snažíme tato opatření dále zdokonalovat,“ uvedl Penna. „Navíc jsme odhodláni respektovat žádosti umělců o odstranění z tréninkových datových sad.“
Současně s vydáním Stable Diffusion XL 1.0 uvolňuje Stability AI v beta verzi pro své rozhraní API funkci jemného doladění, která uživatelům umožní použít pouhých pět obrázků ke „specializaci“ generování na konkrétní osoby, produkty a další. Společnost také přináší Stable Diffusion XL 1.0 na Bedrock, cloudovou platformu Amazonu pro hostování generativních modelů AI – rozšiřuje tak svou dříve oznámenou spolupráci s AWS.
Zdroj: StabilityAI
Snaha o navázání partnerství a získání nových schopností přichází v době, kdy společnost Stability trpí útlumem svých komerčních aktivit – čelí silné konkurenci společností OpenAI, Midjourney a dalších. V dubnu Semafor informoval, že Stability AI, která doposud získala více než 100 milionů dolarů rizikového kapitálu, se potýká s nedostatkem hotovosti, což v červnu podnítilo uzavření konvertibilního dluhopisu v hodnotě 25 milionů dolarů a hledání manažerů, kteří by pomohli zvýšit prodeje.
„Nejnovější model SDXL představuje další krok v inovačním dědictví společnosti Stability AI a její schopnosti uvádět na trh nejmodernější modely s otevřeným přístupem pro komunitu AI,“ uvedl v tiskové zprávě generální ředitel společnosti Stability AI Emad Mostaque. „Představení verze 1.0 na platformě Amazon Bedrock demonstruje naše pevné odhodlání spolupracovat s AWS na poskytování nejlepších řešení pro vývojáře a naše klienty.“
Společnost Stability AI dnes oznámila uvedení verze Stable Diffusion XL 1.0, modelu pro převod textu na obraz, který společnost označuje za svou dosud „nejpokročilejší“ verzi. Model Stable Diffusion XL 1.0, který je kromě rozhraní API a spotřebitelských aplikací ClipDrop a DreamStudio společnosti Stability k dispozici v otevřeném zdrojovém kódu na serveru GitHub, přináší ve srovnání se svým předchůdcem „živější“ a „přesnější“ barvy a lepší kontrast, stíny a osvětlení, tvrdí společnost Stability.Joe Penna, vedoucí oddělení aplikovaného strojového učení společnosti Stability AI, v rozhovoru pro TechCrunch uvedl, že aplikace Stable Diffusion XL 1.0, která obsahuje 3,5 miliardy parametrů, dokáže získat snímky s plným rozlišením 1 megapixel „během několika sekund“ v různých poměrech stran. „Parametry“ jsou části modelu naučené z trénovacích dat a v podstatě definují dovednosti modelu v daném problému, v tomto případě při generování obrázků.Předchozí generace modelu Stable Diffusion, Stable Diffusion XL 0.9, dokázala vytvořit i snímky s vyšším rozlišením, ale vyžadovala větší výpočetní výkon.„Stable Diffusion XL 1.0 je přizpůsobitelný, připravený k doladění konceptů a stylů,“ řekl Penna. „Je také jednodušší na používání, dokáže vytvářet složité návrhy se základními podněty pro zpracování přirozeného jazyka.“Stable Diffusion XL 1.0 je navíc vylepšena v oblasti generování textu. Zatímco mnoho nejlepších modelů pro převod textu na obraz má problémy s generováním obrázků s čitelnými logy, natož s kaligrafií nebo písmy, Stable Diffusion XL 1.0 je schopen „pokročilého“ generování textu a čitelnosti, říká Penna.Jak informovaly SiliconAngle a VentureBeat, Stable Diffusion XL 1.0 podporuje inpainting , outpainting a „image-to-image“ výzvy – což znamená, že uživatelé mohou zadat obrázek a přidat několik textových výzev k vytvoření podrobnějších variant tohoto obrázku. Model navíc rozumí složitým, vícedílným pokynům zadaným v krátkých výzvách, zatímco předchozí modely stabilní difúze potřebovaly delší textové výzvy.„Doufáme, že vydáním tohoto mnohem výkonnějšího modelu s otevřeným zdrojovým kódem nedojde pouze ke zčtyřnásobení rozlišení snímků, ale také k pokroku, který bude velkým přínosem pro všechny uživatele,“ dodal.Stejně jako u předchozích verzí stabilní difuze však tento model vyvolává ožehavé morální otázky.Otevřenou verzi Stable Diffusion XL 1.0 mohou teoreticky využít špatní aktéři k vytváření toxického nebo škodlivého obsahu, například nekonsensuálních deepfakes. To je částečně odrazem dat, která byla použita k jejímu tréninku: miliony obrázků z celého webu.V nesčetných výukových materiálech je ukázáno, jak k vytváření deepfakes používat vlastní nástroje Stability AI, včetně DreamStudia, open source rozhraní pro Stable Diffusion. Nespočet dalších ukazuje, jak vyladit základní modely Stable Diffusion pro generování pornografie.Penna nepopírá, že zneužití je možné – a uznává, že model obsahuje i jistá zkreslení. Dodal však, že společnost Stability AI podnikla „dodatečné kroky“ ke zmírnění generování škodlivého obsahu tím, že filtruje tréninková data modelu na „nebezpečné“ snímky, vydává nová varování týkající se problematických výzev a blokuje co nejvíce jednotlivých problematických výrazů v nástroji.„Neustále zlepšujeme bezpečnostní funkce systému Stable Diffusion a vážně se snažíme tato opatření dále zdokonalovat,“ uvedl Penna. „Navíc jsme odhodláni respektovat žádosti umělců o odstranění z tréninkových datových sad.“Současně s vydáním Stable Diffusion XL 1.0 uvolňuje Stability AI v beta verzi pro své rozhraní API funkci jemného doladění, která uživatelům umožní použít pouhých pět obrázků ke „specializaci“ generování na konkrétní osoby, produkty a další. Společnost také přináší Stable Diffusion XL 1.0 na Bedrock, cloudovou platformu Amazonu pro hostování generativních modelů AI – rozšiřuje tak svou dříve oznámenou spolupráci s AWS.Snaha o navázání partnerství a získání nových schopností přichází v době, kdy společnost Stability trpí útlumem svých komerčních aktivit – čelí silné konkurenci společností OpenAI, Midjourney a dalších. V dubnu Semafor informoval, že Stability AI, která doposud získala více než 100 milionů dolarů rizikového kapitálu, se potýká s nedostatkem hotovosti, což v červnu podnítilo uzavření konvertibilního dluhopisu v hodnotě 25 milionů dolarů a hledání manažerů, kteří by pomohli zvýšit prodeje.„Nejnovější model SDXL představuje další krok v inovačním dědictví společnosti Stability AI a její schopnosti uvádět na trh nejmodernější modely s otevřeným přístupem pro komunitu AI,“ uvedl v tiskové zprávě generální ředitel společnosti Stability AI Emad Mostaque. „Představení verze 1.0 na platformě Amazon Bedrock demonstruje naše pevné odhodlání spolupracovat s AWS na poskytování nejlepších řešení pro vývojáře a naše klienty.“