Alibaba Group Holding Ltd. představila nový model umělé inteligence Qwen3-Next, jehož cílem je výrazně zlepšit efektivitu trénování a inferenčních procesů. Tento model využívá hybridní mechanismus pozornosti a strukturálně bohatou architekturu s vysokou sparsitou, která je uzpůsobena pro stabilitu trénování.
Model Qwen3-Next-80B-A3B-Base obsahuje 80 miliard parametrů, avšak během inferenční fáze aktivuje pouze 3 miliardy. Alibaba tvrdí, že tento základní model dosahuje výkonu srovnatelného nebo mírně lepšího než dense model Qwen3-32B, přičemž využívá méně než 10 % nákladů na trénink v GPU hodinách.
Úspěchy nového modelu se odrážejí v jeho schopnosti poskytovat více než 10násobně vyšší propustnost při inferenci s kontextovými délkami přesahujícími 32 000 tokenů. Dále Alibaba uvolnila i dvě post-tréninkové verze: Qwen3-Next-80B-A3B-Instruct a Qwen3-Next-80B-A3B-Thinking. Instruct verze vykazuje porovnatelné výsledky s vlajkovou lodí modelu Qwen3-235B-A22B-Instruct-2507 a má výhody při úlohách s ultra-dlouhým kontextem až do 256 000 tokenů.
Převratné vlastnosti Qwen3-Next byly vyzdviženy experty na umělou inteligenci, kteří tvrdí, že tento model je krokem kupředu v řešení stabilitních a efektivních problémů v oblasti učení posilováním díky hybridní architektuře.
Chcete využít této příležitosti?Platforma Qwen3-Next je nyní dostupná na Hugging Face a ModelScope, což usnadňuje uživatelům přístup k této inovativní technologii přes Alibaba Cloud Model Studio a NVIDIA API Catalog.
Chcete využít této příležitosti?
Zanechte svůj telefon a email a budete kontaktováni licencovanými odborníky