Meta vydává Lamu 2, užitečnější sadu modelů pro AI generování textu

Společnost Meta (META) oznámila „novou rodinu“ modelů umělé inteligence Llama 2, která je určena pro aplikace, jako je ChatGPT společnosti OpenAI, Bing Chat a další moderní chatboty. Společnost Meta tvrdí, že modely Llama 2, vyškolené na kombinaci veřejně dostupných dat, mají oproti předchozí generaci modelů Llama výrazně lepší výkon.

Llama 2 je pokračováním Lamy – sbírky modelů, které mohou generovat text a kód v reakci na výzvy, srovnatelné s jinými systémy podobnými chatbotům. Llama však byla dostupná pouze na vyžádání; Meta se rozhodla přístup k modelům uzavřít z obavy před zneužitím. (Navzdory tomuto preventivnímu opatření Llama později unikla na internet a rozšířila se v různých komunitách zabývajících se umělou inteligencí.)

Naproti tomu Llama 2, která je zdarma pro výzkumné i komerční využití, bude k dispozici k doladění na platformách AWS, Azure a na platformě pro hostování modelů AI společnosti Hugging Face v předtrénované podobě. A podle společnosti Meta bude snazší ji spustit – díky rozšířenému partnerství se společností Microsoft bude optimalizovaná pro systém Windows a také pro chytré telefony a počítače vybavené systémem Snapdragon od společnosti Qualcomm. (Qualcomm říká, že pracuje na tom, aby se Llama 2 dostala do zařízení Snapdragon v roce 2024.)

V čem se Llama 2 liší od Lamy? V mnoha ohledech, které Meta zdůrazňuje v obsáhlém dokumentu.

Llama 2 se dodává ve dvou verzích, Llama 2 a Llama 2-Chat, z nichž druhá byla vyladěna pro obousměrné konverzace. Llama 2 a Llama 2-Chat se dále dělí na různě propracované verze: Lama Lama je rozdělena do dvou verzí: 7 miliard parametrů, 13 miliard parametrů a 70 miliard parametrů. („Parametry“ jsou části modelu naučené z trénovacích dat a v podstatě definují dovednosti modelu v daném problému, v tomto případě generování textu).

Lama 2 byla vyškolena na dvou bilionech tokenů, kde „tokeny“ představují nezpracovaný text – např. „fan“, „tas“ a „tic“ pro slovo „fantastický“. To je téměř dvakrát více, než na kolika byla trénována Llama (1,4 bilionu), a obecně platí, že čím více tokenů, tím lépe, pokud jde o generativní umělou inteligenci. Současná vlajková loď společnosti Google, velký jazykový model (LLM) PaLM 2, byl údajně vycvičen na 3,6 milionu tokenů a spekuluje se, že GPT-4 byl vycvičen také na bilionech tokenů.

Společnost Meta neprozrazuje konkrétní zdroje vzdělávacích dat v dokumentu, pouze uvádí, že pocházejí z webu, většinou v angličtině, nepocházejí z vlastních produktů nebo služeb společnosti a zdůrazňují text „faktické“ povahy.

Troufám si odhadnout, že neochota odhalit podrobnosti o tréninku má kořeny nejen v konkurenčních důvodech, ale i v právních sporech týkajících se generativní umělé inteligence. Právě dnes podepsaly tisíce autorů dopis, ve kterém vyzývají technologické společnosti, aby přestaly používat jejich texty k trénování modelů AI bez svolení nebo náhrady.

Ale to už odbočuji. Společnost Meta uvádí, že v řadě srovnávacích testů dosahují modely Llama 2 o něco horších výsledků než nejprofláklejší uzavřená konkurence GPT-4 a PaLM 2, přičemž v oblasti počítačového programování Llama 2 výrazně zaostává za GPT-4. Meta však tvrdí, že lidští hodnotitelé považují systém Llama 2 za zhruba stejně „užitečný“ jako ChatGPT; systém Llama 2 odpovídal stejně v souboru zhruba 4 000 podnětů, jejichž cílem bylo zjistit „užitečnost“ a „bezpečnost“.

Výsledky však berte s rezervou. Společnost Meta uznává, že její testy nemohou zachytit všechny reálné scénáře a že její benchmarky mohou být nedostatečně rozmanité – jinými slovy, že dostatečně nepokrývají oblasti, jako je kódování a lidské uvažování.

Společnost Meta také připouští, že Llama 2, stejně jako všechny generativní modely umělé inteligence, má v určitých osách zkreslení. Například má sklon generovat zájmena „on“ ve vyšší míře než zájmena „ona“ díky nerovnováze v trénovacích datech. V důsledku toxického textu v trénovacích datech nepřekonává ostatní modely ve srovnávacích testech toxicity. A Llama 2 má západní sklon, opět díky nevyváženosti dat včetně hojného výskytu slov „křesťanský“, „katolický“ a „židovský“.

Modely Llama 2-Chat si vedou lépe než modely Llama 2 v interních měřítkách „užitečnosti“ a toxicity společnosti Meta. Mají však také tendenci být příliš opatrné, přičemž modely chybují v odmítání některých žádostí nebo odpovídají s příliš mnoha bezpečnostními detaily.

Abychom byli spravedliví, benchmarky nezohledňují další bezpečnostní vrstvy, které by mohly být použity u hostovaných modelů Llama 2. V rámci spolupráce se společností Microsoft Meta například využívá službu Azure AI Content Safety, která je určena k detekci „nevhodného“ obsahu v obrázcích a textech generovaných umělou inteligencí, aby omezila toxické výstupy Llama 2 na platformě Azure.

Přesto se Meta snaží distancovat od potenciálně škodlivých důsledků Llama 2 a v dokumentu zdůrazňuje, že uživatelé Llama 2 musí dodržovat licenční podmínky a zásady přijatelného používání Meta, jakož i pokyny týkající se „bezpečného vývoje a nasazení“.

„Věříme, že otevřené sdílení dnešních velkých jazykových modelů podpoří také vývoj užitečné a bezpečnější generativní umělé inteligence,“ píše Meta ve svém blogu. „Těšíme se na to, co svět vytvoří s Llama 2.“

Vzhledem k povaze modelů s otevřeným zdrojovým kódem však nelze říci, jak a kde přesně by se modely mohly používat. Vzhledem k bleskové rychlosti, kterou se internet pohybuje, nebude trvat dlouho, než se to dozvíme.

Společnost Meta oznámila „novou rodinu“ modelů umělé inteligence Llama 2, která je určena pro aplikace, jako je ChatGPT společnosti OpenAI, Bing Chat a další moderní chatboty. Společnost Meta tvrdí, že modely Llama 2, vyškolené na kombinaci veřejně dostupných dat, mají oproti předchozí generaci modelů Llama výrazně lepší výkon.Llama 2 je pokračováním Lamy – sbírky modelů, které mohou generovat text a kód v reakci na výzvy, srovnatelné s jinými systémy podobnými chatbotům. Llama však byla dostupná pouze na vyžádání; Meta se rozhodla přístup k modelům uzavřít z obavy před zneužitím. Naproti tomu Llama 2, která je zdarma pro výzkumné i komerční využití, bude k dispozici k doladění na platformách AWS, Azure a na platformě pro hostování modelů AI společnosti Hugging Face v předtrénované podobě. A podle společnosti Meta bude snazší ji spustit – díky rozšířenému partnerství se společností Microsoft bude optimalizovaná pro systém Windows a také pro chytré telefony a počítače vybavené systémem Snapdragon od společnosti Qualcomm. V čem se Llama 2 liší od Lamy? V mnoha ohledech, které Meta zdůrazňuje v obsáhlém dokumentu.Llama 2 se dodává ve dvou verzích, Llama 2 a Llama 2-Chat, z nichž druhá byla vyladěna pro obousměrné konverzace. Llama 2 a Llama 2-Chat se dále dělí na různě propracované verze: Lama Lama je rozdělena do dvou verzí: 7 miliard parametrů, 13 miliard parametrů a 70 miliard parametrů. .Lama 2 byla vyškolena na dvou bilionech tokenů, kde „tokeny“ představují nezpracovaný text – např. „fan“, „tas“ a „tic“ pro slovo „fantastický“. To je téměř dvakrát více, než na kolika byla trénována Llama , a obecně platí, že čím více tokenů, tím lépe, pokud jde o generativní umělou inteligenci. Současná vlajková loď společnosti Google, velký jazykový model PaLM 2, byl údajně vycvičen na 3,6 milionu tokenů a spekuluje se, že GPT-4 byl vycvičen také na bilionech tokenů.Společnost Meta neprozrazuje konkrétní zdroje vzdělávacích dat v dokumentu, pouze uvádí, že pocházejí z webu, většinou v angličtině, nepocházejí z vlastních produktů nebo služeb společnosti a zdůrazňují text „faktické“ povahy.Troufám si odhadnout, že neochota odhalit podrobnosti o tréninku má kořeny nejen v konkurenčních důvodech, ale i v právních sporech týkajících se generativní umělé inteligence. Právě dnes podepsaly tisíce autorů dopis, ve kterém vyzývají technologické společnosti, aby přestaly používat jejich texty k trénování modelů AI bez svolení nebo náhrady.Ale to už odbočuji. Společnost Meta uvádí, že v řadě srovnávacích testů dosahují modely Llama 2 o něco horších výsledků než nejprofláklejší uzavřená konkurence GPT-4 a PaLM 2, přičemž v oblasti počítačového programování Llama 2 výrazně zaostává za GPT-4. Meta však tvrdí, že lidští hodnotitelé považují systém Llama 2 za zhruba stejně „užitečný“ jako ChatGPT; systém Llama 2 odpovídal stejně v souboru zhruba 4 000 podnětů, jejichž cílem bylo zjistit „užitečnost“ a „bezpečnost“.Výsledky však berte s rezervou. Společnost Meta uznává, že její testy nemohou zachytit všechny reálné scénáře a že její benchmarky mohou být nedostatečně rozmanité – jinými slovy, že dostatečně nepokrývají oblasti, jako je kódování a lidské uvažování.Společnost Meta také připouští, že Llama 2, stejně jako všechny generativní modely umělé inteligence, má v určitých osách zkreslení. Například má sklon generovat zájmena „on“ ve vyšší míře než zájmena „ona“ díky nerovnováze v trénovacích datech. V důsledku toxického textu v trénovacích datech nepřekonává ostatní modely ve srovnávacích testech toxicity. A Llama 2 má západní sklon, opět díky nevyváženosti dat včetně hojného výskytu slov „křesťanský“, „katolický“ a „židovský“.Modely Llama 2-Chat si vedou lépe než modely Llama 2 v interních měřítkách „užitečnosti“ a toxicity společnosti Meta. Mají však také tendenci být příliš opatrné, přičemž modely chybují v odmítání některých žádostí nebo odpovídají s příliš mnoha bezpečnostními detaily.Abychom byli spravedliví, benchmarky nezohledňují další bezpečnostní vrstvy, které by mohly být použity u hostovaných modelů Llama 2. V rámci spolupráce se společností Microsoft Meta například využívá službu Azure AI Content Safety, která je určena k detekci „nevhodného“ obsahu v obrázcích a textech generovaných umělou inteligencí, aby omezila toxické výstupy Llama 2 na platformě Azure.Přesto se Meta snaží distancovat od potenciálně škodlivých důsledků Llama 2 a v dokumentu zdůrazňuje, že uživatelé Llama 2 musí dodržovat licenční podmínky a zásady přijatelného používání Meta, jakož i pokyny týkající se „bezpečného vývoje a nasazení“.„Věříme, že otevřené sdílení dnešních velkých jazykových modelů podpoří také vývoj užitečné a bezpečnější generativní umělé inteligence,“ píše Meta ve svém blogu. „Těšíme se na to, co svět vytvoří s Llama 2.“Vzhledem k povaze modelů s otevřeným zdrojovým kódem však nelze říci, jak a kde přesně by se modely mohly používat. Vzhledem k bleskové rychlosti, kterou se internet pohybuje, nebude trvat dlouho, než se to dozvíme.