5 tipů od Petra, vydání #183
Dnešní menu: Midjourney verze 7. Castmagic - přepis audia na text. Neuronové sítě pro generování AI videí. Protokol pro komunikaci mezi AI agenty. Jak AI pomáhá Google v boji s falešnými recenzemi
Midjourney V7 - co přináší za novinky?
Přesně týden je venku Midjourney ve verzi 7 - vím to naprosto přesně, protože vyšla jen pár minut před odeslání minulého vydání 5 tipů od Petra :-) A tak až dnes je čas se podívat, co nového uživatelům nabízí.
Vcelku očekávaně přináší hromadu vylepšení, která potěší jak kreativce, tak i běžné uživatele. Nejde jen o kosmetické změny – tohle je zatím největší upgrade od verze 5. Nový model není jen chytřejší, ale i rychlejší a přizpůsobivější. I když… své mouchy zatím ještě má. I na ně v představení dojde.
Tady jsou hlavní novinky v kostce:
Realističtější výstupy: Lepší textury, přesnější světlo, přirozenější postavy i výrazy. To souhlasí a podepisuji!
Podle vývojářů si model lépe poradí i s těžkými detaily jako jsou ruce a prsty – bez těch zvláštních deformací, co nás dřív trochu děsily. Popravdě… zrovna prsty a končetiny aktuálně skýtají dost “zábavy”, ale vývojáři pracují na tom, aby ty výsledky byly opravdu lepší. Ale zase, abys nenabyl/a dojmu, že verze 7 ruce a prsty neumí - umí, výsledky jsou často skvělé, ale k těm deformacím zatím přeci jen dochází častěji než u verze 6.1.
Lepší porozumění promptům: Midjourney teď mnohem přesněji chápe, co po něm chceš. Scény, které popíšeš, převede do obrázku věrněji.
Draft mód: Chceš si jen rychle otestovat nápad? Draft mód ti vygeneruje obrázek až 10× rychleji a za polovic kreditů. Ideální pro experimentování. A když se ti výsledek líbí, jedním klikem ho necháš vygenerovat znovu ve vysoké kvalitě.
Ovládání hlasem: Experimentální, ale nadějné. Nově můžeš generovat obrázky hlasem – jednoduše nadiktuješ, co chceš vytvořit, a Midjourney ti to obratem nakreslí. Ale může se stát, že tuto možnost ve svém účtu ještě nemáš přístupnou. Tady nelze dělat nic jiného, než si chvíli počkat.
Zdá se mi, že parametr -- sref funguje trochu jinak, resp. ve verzích 7 a 6.1 dává trochu odlišné styly vygenerovaných obrázků. Což je trochu nepohodlné, když si člověk mezitím udělal sbírku svých oblíbených srefů…
Verze 7 je zatím v alfa režimu, takže ji musíš aktivovat ručně (--v 7
). Funguje jak v rychlém Turbo režimu, tak i v pohodovém Relax módu.
Osobně zkouším verzi 7 využívat co jen to jde, ale pokud z ní nedostávám dobré výsledky (a přiznávám, že zatím se to občas děje), tak se rád vracím k odladěné verzi 6.1. Nicméně verze 7 se neustále vyvíjí, vývojáři do ní přidávají nové funkce a odstraňují nedokonalosti. Takže doporučuji si ji také zapnout a pokoušet ji.
Castmagic: Nech audio pracovat za tebe
Pokud pracuješ s audio obsahem – nahráváš podcasty, vedeš porady na Zoomu nebo si jen děláš hlasové poznámky – může ti Castmagic ušetřit hodiny práce. Tenhle chytrý nástroj totiž vezme jakýkoli audiozáznam a během pár minut z něj vytvoří přehled, přepis, klíčové myšlenky i připravený text na blog, do e-mailu nebo na LinkedIn.
Jak to funguje? Nahraješ audio (nebo propojíš nástroj přímo s kalendářem, YouTube nebo RSS podcastu), vybereš styl výstupu a Castmagic ti automaticky vygeneruje:
plný přepis (včetně oddělených mluvčích),
shrnutí (krátké i podrobnější),
výpis hlavních myšlenek, témat nebo úkolů,
citace nebo „zvukové zlaté hřeby“,
ready-to-publish obsah – třeba tweetstorm, popisek podcastu, newsletter nebo blogový článek.
Hodí se to nejen pro tvůrce obsahu, ale i pro manažery nebo freelancery. Nahráváš si hlasové poznámky? Castmagic z nich udělá úkoly. Vedeš online meetingy? Máš zápis a úkoly během chvilky. Tvoříš podcast? Máš přepis, popis epizody, otázky pro hosta i příspěvky pro sociální sítě téměř bez další práce.
Zkrátka – Castmagic ti pomůže proměnit „mluvené slovo“ na textový obsah různých formátů. Místo zdlouhavého přepisování a ručního shrnování můžeš víc tvořit a míň ztrácet čas. Za mě jeden z nejpraktičtějších AI nástrojů pro každého, kdo mluví rychleji, než píše.
Castmagic je placená služba, nicméně na základní osahání má trial verzi a rozhodně stojí za to ho vyzkoušet.
Mini neuronové sítě pomáhají generovat AI videa
Většina současných generativních AI nástrojů zvládne vygenerovat krátké video o jedné scéně. A je to zrovna ta oblast, na kterou se jejich vývojáři soustředí, protože udržení konzistence výstupů mezi různými scénami dost brání praktickému rozšíření AI video generátorů. Jakmile máš totiž delší příběh – se změnami prostředí, dynamikou a návazností – dost často se všechno rozpadá. Tým ze Stanfordu, NVIDIA a dalších univerzit teď přišel s novým přístupem, který slibuje o dost světlejší zítřky.
Řešení se jmenuje Test-Time Training (TTT) a umožňuje modelu „učit se“ i během samotného generování videa. Autoři do už existujícího modelu CogVideo-X přidali vrstvy, které mají výrazně bohatší paměť – a fungují jako miniaturní neuronové sítě uvnitř větší sítě. Tím dokážou zpracovat mnohem delší kontext, aniž by to model zahltilo výpočetně.
Jako trénovací materiál si vybrali epizody Toma a Jerryho, ručně je rozkouskovali na scény a vyrobili k nim textové storyboardy. Výsledek? Model umí vygenerovat jednominutové animované video, které má hlavu a patu, konzistentní prostředí, hladké pohyby a vypráví příběh. Bez potřeby stříhat, spojovat nebo postprodukčně upravovat výstup.
V porovnání s ostatními metodami, jako jsou Mamba nebo DeltaNet, si jejich přístup vedl o 34 Elo bodů lépe v lidském hodnocení. Což je mimochodem srovnatelný skok, jaký je mezi GPT-3.5 a GPT-4.
Pokud tě baví vývoj text-to-video AI, určitě mrkni na jejich ukázky a kód. Tahle práce ukazuje, že vývoj jde dál nejen v realistickém obrazu, ale i v tom, jak vyprávíme příběhy pomocí umělé inteligence.
A2A: AI agenti se učí mluvit mezi sebou. A to je dost velká věc.
Google představil koncept A2A – Agent-to-Agent – a možná se časem ukáže, že jde o jeden z nejzásadnějších kroků v evoluci umělé inteligence. Základní myšlenka je jednoduchá: jednotliví AI agenti by spolu měli umět komunikovat napřímo, ne přes uživatele. Aby sis nemusel hrát na prostředníka pokaždé, když chceš propojit různé nástroje nebo služby.
Technicky v tom Google sází na otevřený standard a spolupráci v rámci Open Agent Framework (OAF), kde každý agent nabízí tzv. capabilities – schopnosti, které lze zveřejnit a popsat přes rozhraní, které ostatní agenti umí číst. Používá se k tomu JSON-based API s deklarativní syntaxí, které popisuje, co agent umí a jak s ním mluvit. Když to zkusím napsat lidsky a jednoduše, tak místo ručně psaných integrací tu vzniká „jazyk“ pro AI agenty, jak se mezi sebou domluvit, kdo co zvládne a jak si rozdělit práci.
Reálně to znamená, že když řekneš agentovi „najdi mi hotel v Barceloně a domluv schůzku s Jirkou na příští týden“, tvoje AI může delegovat část úkolu jinému agentovi – třeba cestovnímu botovi nebo kalendářovému plánovači – a oni se mezi sebou domluví, co kdo zařídí. Zatímco ty si můžeš dát kafe.
I pro vývojáře je to prima možnost. Nemusí totiž tvořit jednoho „superagenta“, ale můžou stavět specializované agenty, kteří se přirozeně zapojí do širšího ekosystému. A firmy? Ty konečně můžou začít přemýšlet o AI ne jako o chytrém widgetu, ale jako o sítích spolupracujících agentů, které zvládnou komplexní procesy – od zákaznické podpory až po řízení provozu.
Pokud se tento systém od Google uchytí a různí AI agenti si opravdu začnou navzájem rozumět, tak si troufám tvrdit, že nás čeká ještě rychlejší boom AI agentů, než probíhá právě teď (a že už teď je to fičák).
Google vytahuje AI do boje proti falešným recenzím
Falešné recenze na Google jsou problém. Ono to možná pro běžného uživatele nevypadá, ale pokud se do tohoto tématu ponoříš, tak objevíš džungli, která se vyrovná řádění fake účtů na sociálních sítích.
A je to problém nejen pro uživatele, kteří se chtějí někde dobře najíst nebo si vybrat spolehlivého řemeslníka. Je to samozřejmě problém i pro podniky, které si poctivě budují reputaci – a pak jim ji někdo sestřelí několika „jednohvězdičkami“ od anonymních účtů. Google si to uvědomuje a jeho obrana proti těmto recenzím dostala výrazný upgrade, a to hlavně díky AI.
Jeho nové AI modely prý lépe rozpoznají podezřelé vzorce chování – třeba když se najednou objeví desítky recenzí z účtů, které nikdy předtím žádnou nenapsaly, nebo když někdo zkouší „recenzemi bombit“ konkurenci. Díky kombinaci strojového učení a lidské kontroly odstranil Google jen v roce 2023 přes 170 milionů falešných recenzí. To je o 45 % víc než v roce předchozím.
AI navíc kontroluje nejen text recenze, ale i kontext – jaký má recenzent účet, kde se pohyboval, jestli recenzuje podezřele často v různých státech. A i když se samozřejmě pořád něco protáhne sítem, počet manipulativních recenzí viditelně klesá.
A to je fajn, ne?
Díky za tvůj čas, který jsi věnovala/a přečtení tohoto vydání 5 tipů od Petra a přeji ti krásný slunečný víkend! :-)
P.S. Další tvorbu 5 tipů od Petra, můžeš podpořit na tomto odkazu jednorázovým příspěvkem podle tvého uvážení.
Já ti za to předem moc děkuji!
Budu rád i za doporučení 5 tipů od Petra tvým kamarádům - stačí přes toto tlačítko