QwQ-32B-Preview s 32,5 miliardy parametry konkuruje modelům od OpenAI a je dostupný ke stažení pod licencí Apache 2.0
Model dosahuje lepších výsledků v testech logiky a matematiky, ale má slabiny v otázkách vyžadujících „zdravý rozum“
Regulace čínské vlády ovlivňují politické odpovědi modelu, přičemž některá témata jsou zcela obcházena
Jako jeden z mála konkuruje modelu o1 od OpenAI a jako první je k dispozici ke stažení pod povolenou licencí.
Model QwQ-32B-Preview, vyvinutý týmem Qwen společnosti Alibaba, obsahuje 32,5 miliardy parametrů a dokáže posuzovat podněty o délce až ~32 000 slov; v některých srovnávacích testech dosahuje lepších výsledků než o1-preview a o1-mini, dva modely uvažování, které dosud vydala společnost OpenAI.
(Parametry zhruba odpovídají schopnostem modelu řešit problémy a modely s více parametry obecně dosahují lepších výsledků než modely s menším počtem parametrů. Společnost OpenAI počet parametrů svých modelů nezveřejňuje.)
Podle testů společnosti Alibaba překonává model QwQ-32B-Preview model o1-preview společnosti OpenAI v testech AIME a MATH. AIME používá k hodnocení výkonu modelu jiné modely umělé inteligence, zatímco MATH je sbírka slovních úloh.
Zdroj: Getty images
QwQ-32B-Preview dokáže řešit logické hádanky a odpovídat na přiměřeně náročné matematické otázky díky svým „rozumovým“ schopnostem. Není však dokonalý. Společnost Alibaba v příspěvku na blogu uvádí, že model může neočekávaně přepínat jazyky, zasekávat se ve smyčkách a podávat nižší výkony při řešení úloh, které vyžadují „uvažování zdravým rozumem“.
Na rozdíl od většiny umělé inteligence se QwQ-32B-Preview a další uvažující modely účinně kontrolují. To jim pomáhá vyhnout se některým nástrahám, které modely obvykle potrápí, přičemž nevýhodou je, že jim často trvá déle, než dospějí k řešení. Podobně jako o1, QwQ-32B-Preview uvažuje prostřednictvím úloh, plánuje dopředu a provádí řadu akcí, které modelu pomáhají vyvodit odpovědi.
QwQ-32B-Preview, který lze spustit a stáhnout z vývojářské platformy AI Hugging Face, se zdá být podobný nedávno vydanému modelu uvažování DeepSeek v tom, že kolem některých politických témat našlapuje lehce. Vzhledem k tomu, že Alibaba a DeepSeek jsou čínské společnosti, podléhají srovnávacímu testu čínského internetového regulátora, který má zajistit, aby odpovědi jejich modelů „ztělesňovaly základní socialistické hodnoty“.
Mnoho čínských systémů umělé inteligence často odmítá reagovat na témata, která by mohla vyvolat hněv regulátorů, jako jsou například spekulace o Si Ťin-pchingově režimu.
Na otázku „Je Tchaj-wan součástí Číny?“ odpověděl QwQ-32B-Preview, že ano (a také „nezcizitelný“) – což je pohled, který se vymyká většině světa, ale je v souladu s názorem čínské vládnoucí strany. Na otázky týkající se náměstí Nebeského klidu odpovědi nepřišly.
QwQ-32B-Preview je „otevřeně“ k dispozici pod licencí Apache 2.0, což znamená, že může být použit pro komerční účely. Byly však zveřejněny pouze některé součásti modelu, což znemožňuje replikovat QwQ-32B-Preview nebo získat větší přehled o vnitřním fungování systému. Otázka „otevřenosti“ modelů umělé inteligence není vyřešena, ale existuje obecné kontinuum od uzavřenějších (přístup pouze k API) po otevřenější (zveřejněný model, váhy, data) a tento model spadá někam doprostřed.
Zdroj: Getty images
Zvýšená pozornost věnovaná argumentačním modelům přichází v době, kdy se začíná prověřovat životaschopnost „zákonů škálování“, dlouho zastávaných teorií, podle nichž by se při vkládání více dat a výpočetního výkonu do modelu neustále zvyšovaly jeho schopnosti. Příval zpráv v tisku naznačuje, že modely z velkých laboratoří umělé inteligence včetně OpenAI, Google a Anthropic se nezlepšují tak dramaticky jako kdysi.
To vedlo k boji o nové přístupy, architektury a vývojové techniky AI, z nichž jednou je výpočet v testovacím čase. Výpočet v době testování, známý také jako inferenční výpočet, v podstatě poskytuje modelům dodatečný čas na zpracování úloh a je základem modelů jako o1 a QwQ-32B-Preview. .
Velké laboratoře kromě OpenAI a čínských firem sázejí na to, že test-time compute je budoucnost. Podle nedávné zprávy serveru The Information rozšířila společnost Google interní tým zaměřený na argumentační modely na zhruba 200 lidí a přidala do něj značný výpočetní výkon.
QwQ-32B-Preview přináší inovativní přístup v oblasti uvažující umělé inteligence. Díky svým schopnostem, výkonu a částečné otevřenosti nabízí zajímavé možnosti pro výzkumníky i firmy a naznačuje budoucí směr vývoje AI technologií.
Jako jeden z mála konkuruje modelu o1 od OpenAI a jako první je k dispozici ke stažení pod povolenou licencí.Model QwQ-32B-Preview, vyvinutý týmem Qwen společnosti Alibaba, obsahuje 32,5 miliardy parametrů a dokáže posuzovat podněty o délce až ~32 000 slov; v některých srovnávacích testech dosahuje lepších výsledků než o1-preview a o1-mini, dva modely uvažování, které dosud vydala společnost OpenAI. Podle testů společnosti Alibaba překonává model QwQ-32B-Preview model o1-preview společnosti OpenAI v testech AIME a MATH. AIME používá k hodnocení výkonu modelu jiné modely umělé inteligence, zatímco MATH je sbírka slovních úloh.QwQ-32B-Preview dokáže řešit logické hádanky a odpovídat na přiměřeně náročné matematické otázky díky svým „rozumovým“ schopnostem. Není však dokonalý. Společnost Alibaba v příspěvku na blogu uvádí, že model může neočekávaně přepínat jazyky, zasekávat se ve smyčkách a podávat nižší výkony při řešení úloh, které vyžadují „uvažování zdravým rozumem“.Na rozdíl od většiny umělé inteligence se QwQ-32B-Preview a další uvažující modely účinně kontrolují. To jim pomáhá vyhnout se některým nástrahám, které modely obvykle potrápí, přičemž nevýhodou je, že jim často trvá déle, než dospějí k řešení. Podobně jako o1, QwQ-32B-Preview uvažuje prostřednictvím úloh, plánuje dopředu a provádí řadu akcí, které modelu pomáhají vyvodit odpovědi.QwQ-32B-Preview, který lze spustit a stáhnout z vývojářské platformy AI Hugging Face, se zdá být podobný nedávno vydanému modelu uvažování DeepSeek v tom, že kolem některých politických témat našlapuje lehce. Vzhledem k tomu, že Alibaba a DeepSeek jsou čínské společnosti, podléhají srovnávacímu testu čínského internetového regulátora, který má zajistit, aby odpovědi jejich modelů „ztělesňovaly základní socialistické hodnoty“. Mnoho čínských systémů umělé inteligence často odmítá reagovat na témata, která by mohla vyvolat hněv regulátorů, jako jsou například spekulace o Si Ťin-pchingově režimu.Na otázku „Je Tchaj-wan součástí Číny?“ odpověděl QwQ-32B-Preview, že ano – což je pohled, který se vymyká většině světa, ale je v souladu s názorem čínské vládnoucí strany. Na otázky týkající se náměstí Nebeského klidu odpovědi nepřišly.QwQ-32B-Preview je „otevřeně“ k dispozici pod licencí Apache 2.0, což znamená, že může být použit pro komerční účely. Byly však zveřejněny pouze některé součásti modelu, což znemožňuje replikovat QwQ-32B-Preview nebo získat větší přehled o vnitřním fungování systému. Otázka „otevřenosti“ modelů umělé inteligence není vyřešena, ale existuje obecné kontinuum od uzavřenějších po otevřenější a tento model spadá někam doprostřed.Zvýšená pozornost věnovaná argumentačním modelům přichází v době, kdy se začíná prověřovat životaschopnost „zákonů škálování“, dlouho zastávaných teorií, podle nichž by se při vkládání více dat a výpočetního výkonu do modelu neustále zvyšovaly jeho schopnosti. Příval zpráv v tisku naznačuje, že modely z velkých laboratoří umělé inteligence včetně OpenAI, Google a Anthropic se nezlepšují tak dramaticky jako kdysi.To vedlo k boji o nové přístupy, architektury a vývojové techniky AI, z nichž jednou je výpočet v testovacím čase. Výpočet v době testování, známý také jako inferenční výpočet, v podstatě poskytuje modelům dodatečný čas na zpracování úloh a je základem modelů jako o1 a QwQ-32B-Preview. .Velké laboratoře kromě OpenAI a čínských firem sázejí na to, že test-time compute je budoucnost. Podle nedávné zprávy serveru The Information rozšířila společnost Google interní tým zaměřený na argumentační modely na zhruba 200 lidí a přidala do něj značný výpočetní výkon.QwQ-32B-Preview přináší inovativní přístup v oblasti uvažující umělé inteligence. Díky svým schopnostem, výkonu a částečné otevřenosti nabízí zajímavé možnosti pro výzkumníky i firmy a naznačuje budoucí směr vývoje AI technologií.