5 tipů od Petra, vydání #210
Dnešní menu: Mega nálož skvělých novinek od Google - Gemini 3, Nano Banana Pro a Google Anti-gravity. Jeden hlavních AI vývojářů opouští Metu - překvapí vás, proč. ElevenLabs nově umí obrázky a videa
Gemini 3: tento týden nový král AI modelů. A zaslouženě!
Google představil třetí generaci svého modelu Gemini a tentokrát to není jen maličký upgrade schopností. Spíš fakt celá nová verze. Gemini 3 totiž v testech předčí i ty nejvýkonnější konkurenty. Na první pohled zaujme jeho schopnost pracovat s různými typy vstupů (text, obraz, video, kód) a ještě víc tím, jak dobře jim rozumí. Když mu zadáš úkol, často ho splní bez dalšího upřesnění. Už žádné promptování na dvacet pokusů.
Zajímavý je i nový režim „Deep Think“, který posouvá logické schopnosti modelu ještě dál. V reálu to znamená, že s jeho pomocí zvládneš nejen vyřešit složitý matematický problém nebo rozklíčovat vědecký text, ale třeba i naplánovat kampaň, připravit datovou analýzu nebo vytvořit tréninkový plán podle videa tvého výkonu.
Google navíc u Gemini 3 poprvé mluví otevřeně o „agentickém chování“. Tedy o AI, která za tebe zvládne vyřešit vícestupňové úkoly. Třeba sama napíše kód, otestuje ho, upraví a pustí do provozu. První ukázky tohohle přístupu najdeš v nové platformě Google Antigravity (o ní o kousek níže).
Gemini 3 můžeš vyzkoušet rovnou třeba v AI Studiu nebo přes rozhraní v nástrojích jako Replit či GitHub. Tipuju, že budeš čučet.
Na Twitteru už někdo i sdílel, jak s pomocí Gemini 3 navibekódoval klon CapCutu. Prompt prý byl takhle “komplexní”: Design a CapCut.
Nano Banana Pro: nový král generování obrázků od Googlu
Google představil vylepšený model pro generování a úpravu obrázků Nano Banana Pro. Jde o jejich nejpokročilejší model pro práci s vizuálním obsahem, postavený na základě Gemini 3 Pro. Pokud pracuješ s obrázky, vizualizacemi nebo infografikami, rozhodně zpozorni.
Co vše je tedy nové?
Nano Banana Pro si poradí nejen s běžným generováním obrázků, ale rozumí kontextu a obsahu. To znamená, že zvládne vizualizovat i složitější nápady jako storyboardy, infografiky z dat nebo třeba recepty. Díky napojení na Google Search se umí dotáhnout k reálným faktům a vytvořit obrázek třeba na základě aktuální předpovědi počasí.
Druhou silnou stránkou je práce s textem v obrázcích. Model nově zvládá generovat čitelný text přímo do vizuálu, a to i ve víc jazycích najednou. To se hodí nejen pro lokalizaci, ale třeba i pro marketingové návrhy nebo edukační materiály.
A třetí zásadní novinka? Vysoká míra kontroly a přesnosti. Můžeš upravit světlo, ostrost, hloubku ostrosti nebo poměr stran, a pracovat až se 14 vizuálními vstupy najednou. Model zároveň udrží konzistenci postav, prvků i stylu napříč složitějšími scénami. To ocení každý, kdo dělá návrhy, moodboardy nebo třeba vizuální příběhy. Víc konkrétních tipů, jak z Nano Banana Pro dostat maximum, najdeš zde.
Nano Banana Pro už se postupně dostává do aplikací jako Gemini, Google Slides, Google Ads nebo Workspace. Pokud máš předplatné Gemini Ultra nebo Pro, můžeš ho vyzkoušet rovnou. Případně ho již najdeš v nástrojích jako jsou Freepik nebo Higgsfield.
Yann LeCun a jeho „world model“: proč se současná AI pořád jen snaží trefovat další slovo
Yann LeCun, šéf AI výzkumu v Metě a laureát Turingovy ceny, nedávno rozvířil debatu o směrování umělé inteligence. Podle něj se současné velké jazykové modely (LLM), včetně těch nejpokročilejších, pořád jen učí „doplnit další slovo“. Nechápou svět. Neumí plánovat. A nedokážou vyvodit, co se stane, když něco uděláš. Jsou tak vlastně “slepou uličkou”…
Jeho odpovědí je koncept tzv. „world modelu“. Tedy systému, který má vnitřní reprezentaci světa. Ne jen textu, ale fyzikálních zákonitostí, příčin a následků. Takový model by byl schopný například předvídat, co se stane, když pustíš sklenici ze stolu, nebo navrhnout vícekrokové řešení problému, který nikdy předtím neviděl. Inspirací je tu lidské vnímání a schopnost učení skrze zkušenost a nejen skrze slova.
LeCun popisuje architekturu, která se skládá z několika modulů: percepce, predikce, paměť, plánování a akce. A hlavně: takovýto model se má učit sám, bez nutnosti obřích datasetů nebo lidských anotací. Tady se ukazuje kontrast s dnešními LLM, které jsou sice působivé v konverzaci, ale samy od sebe nepochopí, že když prší, je venku mokro.
Ano, to samozřejmě souvisí s jeho plánovaným odchodem z Mety ke konci letošního roku. LeCun chce totiž založit vlastní startup zaměřený na tzv. „Advanced Machine Intelligence (AMI)“. Tedy AI, která má chápat fyzický svět, mít trvalou paměť, umět plánovat a dedukovat. K odchodu ale asi nedochází ve zlém, protože Meta zůstane partnerem jeho nové firmy.
Je otázka, kdy (a jestli) se jeho vize naplní. Ale pokud ano, pak se možná za pár let budeme dívat zpět na dnešní AI nástroje jako na kalkulačky v porovnání s budoucími „myslícími stroji“.
Google Anti-gravity: Od kódujícího studenta k manažerovi agentů
A ještě jednou Google. Jo, tento týden to skoro vypadá jako placená spolupráce :-)
Po Gemini 3 a Nano Banana Pro se podíváme na zoubek programátorským schopnostem jejich modelu. Evidentně jsme v éře, kdy modely umělé inteligence neustále posouvají hranice toho, co dokážou napsat za kód. Když se objeví takový průlom, jako je například model Gemini 3, je potřeba přehodnotit, jak by měl vlastně vývoj softwaru vypadat.
V reakci na tento technologický skok vzniklo Google Anti-gravity. Nejedná se jen o další vývojové prostředí (IDE), ale spíše o nový způsob práce pro tuto nastupující éru tzv. agentní inteligence. Anti-gravity má ambici stát se ideální domovskou základnou pro agentní vývoj.
Co přesně Anti-gravity je a jak se liší od klasického IDE?
Google Anti-gravity sice obsahuje základní IDE, ale přidává spoustu funkcí, které ho orientují primárně na práci s agenty (označovanou jako *agent-first feature*).
Mezi tyto pokročilé prvky patří:
1. Využití prohlížeče.
2. Asynchronní interakční vzorce.
3. Speciální nový formát produktu zaměřený na agenty, který ti má pomoci zažít pocit “Vzlétnutí” (Liftoff).
Revoluce v pracovních postupech
Pokud jsi zvyklý trávit hodiny implementací každého řádku kódu, Anti-gravity mění tvou roli od základů. Byl jsi totiž právě povýšen na manažera agentů :-)
Tvé nové zaměření již není na implementaci každého jednotlivého kroku, ale na architekturu řešení. Zatímco dříve agent (nebo AI pomocník) žil uvnitř tvých nástrojů, nyní se tvé nástroje stávají instrumenty pro mnoho agentů.
Agent začíná pracovat autonomně. Nejprve vytvoří implementační plán a pak aktivuje více ploch najednou, aby tvůj požadavek dokončil. Agent je schopnější, dokáže řešit komplexní úkoly, a dokonce je provádí paralelně, což ti ve výsledku umožní dodat více práce než kdykoli předtím.
Důvěra a ověřování: Jak dostat 90 % na 100 %
Jedním z největších problémů AI generovaného kódu bylo vždy to, jak ho ručně dobrousit z 90 % na plných 100 %. Anti-gravity tuto bolest odstraňuje a umožňuje snadné dovedení agentova 90% řešení až ke 100 %.
Klíčovým prvkem je možnost ověřit kvalitu kódu jediným pohledem a následně ho dodat s absolutní jistotou.
Jak Anti-gravity buduje tuto důvěru? Tím, že agent automaticky generuje okamžité ověřitelné artefakty, které dokazují, že práce byla provedena a otestována. Může například:
Automaticky pořídit snímky obrazovky prohlížeče s opravami chyb.
Vytvořit nahrávky obrazovky při implementaci nových funkcí.
Díky těmto artefaktům můžeš kód důvěřivě schválit a sloučit (merge) bez toho, aby bylo nutné strávit hodiny manuálním přezkoumáváním.
Nová úroveň spolupráce
Anti-gravity zavádí i zcela nový způsob, jak s agenty spolupracovat.
Představ si, že agent vytvoří maketu vstupní stránky s nápisem “Nano Banana” a ty potřebuješ provést úpravy uživatelského rozhraní (UI). Můžeš zadávat vizuální komentáře (přesně tak, jak by to dělal designér) a zanechat zpětnou vazbu přesně v místě, kde je problém. Zpětnou vazbu je také možné zanechat u změn v kódu nebo u nahrávek obrazovky používání prohlížeče.
V podstatě, zatímco tradiční vývoj byl jako skládání nekonečné sady LEGO kostek, kde jsi byl nucen stavět každou cihlu sám, Anti-gravity ti dává k dispozici tým autonomních robotů (agentů). Tvá práce se mění z manuálního stavění na dohled a revizi architektonického plánu, přičemž roboti sami prokazují, že stavba stojí pevně, a ty jen ukazuješ na místa, kde je třeba přidat okno nebo vylepšit střechu.
Už i ElevenLabs teď umí rozpovídat obrázky
Hlasová AI od ElevenLabs se od začátku profilovala jako jedna z nejpřesvědčivějších. A teď udělala další krok. Protože nově zvládá rozpohybovat statický obrázek, přidat mu realistický hlas a vytvořit z něj krátké video, kde daná postava (nebo klidně kreslený obličej) mluví. Stačí nahrát obrázek a text, zbytek zařídí AI. Můžeš dokonce přidat i vlastní nahrávku hlasu a nechat ji „naučit se“ mimiku podle zvuku.
Využití? Třeba onboarding video, firemní školení nebo jazyková mutace stávajícího obsahu bez nutnosti znovu točit. Pro sólo tvůrce nebo malé týmy to znamená rychlou cestu k obsahu, který působí profesionálně a přitom nevznikal za miliony. ElevenLabs přitom zvládá i různé jazyky a intonaci řeči, takže výstup působí lidsky a přirozeně.
Zároveň tím ElevenLabs ukazuje směr, kam se generativní AI ubírá. Už to nejsou jen nástroje na text, obrázky nebo hlas zvlášť, ale propojené multimodální systémy, které zvládnou všechno v jednom.
Vypadá to, že fanoušci AI si budou mít tento víkend opravdu s čím hrát :-)
Moc ti děkuji za přečtení nového vydání 5 tipů od Petra!
Jejich další tvorbu můžeš podpořit na tomto odkazu jednorázovým příspěvkem podle tvého uvážení.
Za to ti předem moc děkuji! Tvůj příspěvek použiji na podporu některé z pražíren kávy a získání čerstvé dávky kofeinu pro povzbuzení při psaní! :-)
A nebo můžeš aspoň 5 tipů od Petra nasdílet svým kamarádům:





