Egy hete a DeepSeek rémhír és már új AI-t dob piacra a Google
A Google szerdán bemutatta a Gemini 2.0-t, amelyet a vállalat eddigi „legképességesebb” mesterséges intelligencia (AI) modellcsaládjának nevez. Ez a kiadás már mindenki számára elérhető, miután decemberben csak fejlesztők és megbízható tesztelők kaphattak hozzáférést, valamint néhány funkciót integráltak Google-termékekbe. A Gemini 2.0 egy „általános kiadás”, amely új lehetőségeket nyit meg az AI technológia terén.
A Gemini 2.0 modellcsalád
A csomag három fő modellt tartalmaz:
- Gemini 2.0 Flash: Egy „munkaállat modell”, amely nagy mennyiségű és gyakori feladatokra optimalizált.
- Pro Experimental: Kiemelkedő teljesítményt nyújt kódolási feladatokhoz.
- 2.0 Flash-Lite: A vállalat legköltséghatékonyabb modellje, amely alacsonyabb költségek mellett is kiváló teljesítményt nyújt.
A Gemini Flash ára fejlesztőknek 10 cent millió tokenenként szöveg, kép és videó bemenetek esetén, míg a Flash-Lite változat csak 0,75 centbe kerül ugyanilyen mennyiségű adatfeldolgozásért. A tokenek az adatok legkisebb egységeit jelentik, amelyeket a modell feldolgoz.
Az AI ügynökök fejlesztése
A Gemini 2.0 bevezetése része a Google szélesebb stratégiájának, amely során a vállalat komoly erőforrásokat fektet az AI ügynökök fejlesztésébe. Az AI verseny hevessé válik a tech óriások és startupok között is. A Meta, Amazon, Microsoft, OpenAI és Anthropic is hasonló irányba halad, azzal a céllal, hogy olyan AI ügynököket fejlesszenek, amelyek többlépcsős, komplex feladatokat képesek elvégezni a felhasználó nevében, anélkül, hogy a felhasználónak minden egyes lépést manuálisan meg kellene adnia.
A Google decemberi blogbejegyzésében kiemelte, hogy az utóbbi évben az ügynöki modellek fejlesztésére összpontosítottak, amelyek jobban megértik a világot, többlépcsős gondolkodásra képesek, és a felhasználó felügyelete mellett cselekvéseket hajtanak végre. A Gemini 2.0 új multimodális képességekkel rendelkezik, például natív kép- és hangkimenettel, valamint eszközhasználati képességekkel, amelyek lehetővé teszik új AI ügynökök létrehozását.
Verseny az AI piacon
Az Anthropic, az Amazon által támogatott AI startup, amelyet korábbi OpenAI kutatók alapítottak, szintén kulcsjátékos az AI ügynökök fejlesztésében. Októberben az Anthropic bejelentette, hogy AI ügynökei képesek számítógépeket használni, mint ahogyan az emberek teszik, beleértve a gombok kiválasztását, szövegbevitelt, weboldalak navigálását és feladatok végrehajtását bármilyen szoftveren keresztül. Jared Kaplan, az Anthropic fő tudományos vezetője szerint az ügynökök „tíz vagy akár száz lépésből álló feladatokat” is képesek elvégezni.
Az OpenAI is bemutatta hasonló funkcióját, az Operator-t, amely olyan feladatokat automatizál, mint az utazások tervezése, űrlapok kitöltése, éttermi foglalások és bevásárlások lebonyolítása. Az OpenAI ezt az ügynököt úgy írja le, mint egy olyan eszközt, amely „a weben keresztül végez feladatokat a felhasználó nevében”.
A jövő AI ügynökei
A Google és versenytársai egyre inkább az AI ügynökök irányába mozdulnak el, amelyek nemcsak egyszerű feladatokat látnak el, hanem komplex, több lépésből álló folyamatokat is képesek kezelni. A Google decemberi bejelentése szerint a Gemini 2.0 modellcsalád lehetővé teszi új AI ügynökök létrehozását, amelyek közelebb viszik a vállalatot az „univerzális asszisztens” víziójához.
Sundar Pichai, a Google CEO-ja szerint a történelemben nem mindig az számít, hogy ki az első, hanem az, hogy ki tudja a legjobban végrehajtani a terveket. „2025 arról szól, hogy a legjobb termékeket hozzuk létre” – mondta Pichai egy stratégiai megbeszélésen.