Společnost Meta Platforms (NASDAQ:META) představila sadu nových modelů umělé inteligence, které posouvají hranice strojového vnímání a porozumění jazyku a signalizují skok vpřed v oblasti schopností umělé inteligence. Mezi nové modely patří Perception Encoder, Perception Language Model (PLM), Meta Locate 3D, Dynamic Byte Latent Transformer a Collaborative Reasoner, z nichž každý je navržen tak, aby řešil složité výzvy ve svém oboru.
Perception Encoder vyniká schopností interpretovat vizuální informace z obrázků a videí a překonává stávající modely v úkolech klasifikace a vyhledávání bez předchozího tréninku. Prokázal svou schopnost zvládat obtížné úkoly, jako je identifikace zvířat v jejich přirozeném prostředí, a po integraci s velkým jazykovým modelem vykázal významné zlepšení v jazykových úkolech.
PLM od společnosti Meta je naopak open-source model pro rozpoznávání obrazu a jazyka, který byl trénován na kombinaci dat označených lidmi a syntetických dat. Je navržen tak, aby zvládal náročné úkoly vizuálního rozpoznávání, a je k dispozici ve variantách s až 8 miliardami parametrů. PLM-VideoBench, nový benchmark vydaný společně s PLM, se zaměřuje na detailní porozumění aktivitám a prostorově-časové uvažování.
Společnost Meta Platforms představila sadu nových modelů umělé inteligence, které posouvají hranice strojového vnímání a porozumění jazyku a signalizují skok vpřed v oblasti schopností umělé inteligence. Mezi nové modely patří Perception Encoder, Perception Language Model , Meta Locate 3D, Dynamic Byte Latent Transformer a Collaborative Reasoner, z nichž každý je navržen tak, aby řešil složité výzvy ve svém oboru.
Perception Encoder vyniká schopností interpretovat vizuální informace z obrázků a videí a překonává stávající modely v úkolech klasifikace a vyhledávání bez předchozího tréninku. Prokázal svou schopnost zvládat obtížné úkoly, jako je identifikace zvířat v jejich přirozeném prostředí, a po integraci s velkým jazykovým modelem vykázal významné zlepšení v jazykových úkolech.
PLM od společnosti Meta je naopak open-source model pro rozpoznávání obrazu a jazyka, který byl trénován na kombinaci dat označených lidmi a syntetických dat. Je navržen tak, aby zvládal náročné úkoly vizuálního rozpoznávání, a je k dispozici ve variantách s až 8 miliardami parametrů. PLM-VideoBench, nový benchmark vydaný společně s PLM, se zaměřuje na detailní porozumění aktivitám a prostorově-časové uvažování.