Klíčové body
- Technologické firmy jako Arcee.AI se zaměřují na malé jazykové modely pro specifické firemní úkoly
- Malé jazykové modely jsou levnější a energeticky úspornější, což zvyšuje jejich atraktivitu pro firmy
- Společnosti jako Hugging Face a OpenAI vyvíjejí kompaktní modely AI, které lze snadno implementovat na běžných zařízeních
Technologičtí giganti jako Google a startupy jako OpenAI se už léta předhánějí ve vytváření stále větších a nákladnějších modelů umělé inteligence využívajících obrovské množství online dat.
Tato technologie, nasazená v chatbotech, jako je ChatGPT, dokáže zpracovat širokou škálu složitých dotazů, od psaní kódu a plánování výletů až po psaní Shakespearových sonetů o zmrzlině.
Mark McQuade sází na jinou strategii. Startup Arcee.AI, který loni spoluzaložil, pomáhá firmám trénovat a zavádět stále populárnější – a mnohem drobnější – přístup k umělé inteligenci: malé jazykové modely.
Namísto toho, aby se snažil dělat vše, co umí ChatGPT, pomáhá software Arcee plnit omezenější sadu každodenních firemních úkolů – jako je například vytvoření služby, která zodpovídá pouze dotazy týkající se daní -, aniž by k tomu potřeboval tolik dat. „Říkám, že v 99 % případů firemního využití pravděpodobně nepotřebujete vědět, kdo vyhrál zlatou olympijskou medaili v roce 1968,“ řekl McQuade.
Společnost Arcee se sídlem v Miami je jednou z rostoucího počtu společností, které přehodnocují tradiční názor v technologickém průmyslu, že větší je pro umělou inteligenci vždy lepší. Podporovány miliardami rizikového kapitálu se startupy navzájem předhánějí ve vývoji výkonnějších velkých jazykových modelů pro podporu chatbotů a dalších služeb AI, přičemž šéf společnosti Anthropic Dario Amodei předpovídá, že trénování modelů bude nakonec stát 100 miliard dolarů oproti dnešním 100 milionům.
Takové myšlení jistě stále existuje, ale startupy jako Arcee, Sakana AI a Hugging Face nyní lákají investory a zákazníky tím, že přijímají menší – a cenově dostupnější – přístup. Velké technologické společnosti se také učí myslet v malém. Společnosti Alphabet Inc. a Google, Meta Platforms Inc., OpenAI a Anthropic nedávno vydaly software, který je kompaktnější a svižnější než jejich stěžejní velké jazykové modely neboli LLM.
Za rozmachem malých modelů stojí řada faktorů, včetně nových technologických vylepšení, rostoucího povědomí o obrovské energetické náročnosti velkých jazykových modelů a tržní příležitosti nabídnout podnikům pestřejší škálu možností umělé inteligence pro různá použití. Malé jazykové modely jsou levnější nejen pro technologické společnosti, ale také pro podnikové zákazníky, což snižuje laťku pro jejich přijetí. Vzhledem k tomu, že investoři se stále více obávají vysokých nákladů a nejisté návratnosti podniků v oblasti AI, může se touto cestou vydat více technologických společností.
„Obecně platí, že malé modely dávají velký smysl,“ řekl Thomas Wolf, spoluzakladatel a vědecký ředitel společnosti Hugging Face, která vyrábí software pro umělou inteligenci a hostuje jej pro jiné společnosti. „Jen jsme dlouho nevěděli, jak je dobře vyrobit.“
Společnost Hugging Face zdokonalila techniky, jako je používání pečlivěji vybíraných souborů dat a efektivnější trénování modelů AI, řekl Wolf. V červenci startup vydal trojici malých modelů s otevřeným zdrojovým kódem pro všeobecné použití nazvaných SmolLM, které jsou dostatečně kompaktní, aby je bylo možné používat přímo v chytrých telefonech a noteboocích. To by mohlo umožnit rychlejší, levnější a bezpečnější provozování softwaru umělé inteligence než připojení ke vzdálené cloudové službě, které je nutné pro větší modely.
Po menších alternativách je jasná poptávka. Společnost Arcee.AI, která minulý měsíc získala 24 milionů dolarů v kole Series A, vycvičila malý model, který dokáže odpovídat na daňové otázky pro společnost Thomson Reuters, a vytvořila chatbota pro kariérního kouče pro společnost Guild, která se zabývá zvyšováním kvalifikace. Obě společnosti provozují tyto modely prostřednictvím vlastních účtů Amazon Web Services.
Společnost Guild, která pracuje se zaměstnanci společností Target a Disney, začala před více než rokem uvažovat o využití velkého jazykového modelu, jako jsou ty, které pohánějí ChatGPT společnosti OpenAI, aby mohla poskytovat kariérní poradenství většímu počtu lidí, než by mohla se svým týmem lidských koučů. Podle Matta Bishopa, vedoucího oddělení umělé inteligence společnosti Guild, sice ChatGPT odvedl dobrou práci, ale neměl ten správný pocit, který společnost hledala.
Malý jazykový model od společnosti Arcee, který společnost Guild v současné době testuje, byl podle Bishopa vycvičen na stovkách tisíc anonymizovaných konverzací mezi jejími lidskými kouči a uživateli, což je mnohem méně, než je celkové množství dat dodaných typickému LLM. Služba „skutečně ztělesňuje naši značku, náš tón, náš étos“, řekl, a odpovědi jsou v porovnání s ChatGPT preferovány zaměstnanci společnosti Guild v 93 % případů.
„Když je model menší, můžete se více zúžit a zaměřit na něj a skutečně se zaměřit na daný úkol a případ použití,“ řekl McQuade, „na rozdíl od modelu, který umí všechno a všechno, co potřebujete.“
OpenAI, stejně jako další velké společnosti zabývající se umělou inteligencí, také diverzifikuje svou nabídku a snaží se konkurovat na všech frontách. Minulý měsíc společnost OpenAI představila „mini“ verzi svého vlajkového modelu GPT-4o jako efektivnější a cenově dostupnější variantu pro zákazníky. Olivier Godement, vedoucí produktového oddělení API společnosti OpenAI, uvedl, že očekává, že vývojáři budou model GPT-4o mini využívat k sumarizaci, základnímu kódování a extrakci dat. Zároveň budou pro složitější úkoly nadále používat větší a dražší modely společnosti.
„Samozřejmě chceme i nadále dělat hraniční modely, posouvat zde hranice,“ uvedl Godement. „Ale chceme mít také nejlepší malé modely.“
I když technologický průmysl přijímá malé modely, ne všichni se shodují na tom, jak je definovat. McQuade řekl, že tento termín je „subjektivní“, ale pro něj se vztahuje na systémy umělé inteligence, které mají 70 miliard nebo méně parametrů, což je odkaz na celkový počet proměnných, které model zachytí během procesu trénování.
Podle tohoto měřítka jsou modely SmolLM společnosti Hugging Face, které mají 135 milionů až 1,7 miliardy parametrů, prakticky mikroskopické.
Stejně jako v mnoha jiných aspektech rychle se rozvíjejícího oboru umělé inteligence se budou standardy pro malé modely pravděpodobně neustále měnit. David Ha, spoluzakladatel a výkonný ředitel tokijského startupu Sakana, který se zabývá malými modely, uvedl, že modely AI, které se před několika lety zdály nehorázně velké, se dnes zdají být „skromné“.
Chcete využít této příležitosti?
Zanechte svůj telefon a email a budete kontaktováni licencovanými odborníky