Jak na generování obrázků a textů. Tipy ve Finmag newsletteru
Rozhovory, úvahy i návody nejen k přelomovému modelu Stable Diffusion. Pravidelný Finmag newsletter právě přistál.
Ne že by média někdy byla klidným oborem. Je podvečer, svou stránku v zítřejších novinách jste napsali a zalomili hezky, můžete jít domů – a bum, umře královna, stejný zmar v roce 1901 i 2022. Současná generace novinářů se navíc celou kariéru musí popasovávat s rozvojem digitálních technologií: učili jsme se psát titulky pro vyhledávače, být vidět na sociálních sítích, stříhat video, komunikovat šifrovaně.
Žádná z technologických změn ale nebyla tak rychlá jako ta, kterou jsme mohli sledovat letos od jara do podzimu. Praktické schopnosti i samotné množství nástrojů pro generování textu a obrázků poskočily způsobem, pro který se mi těžko hledá příměr. Jako kdyby se redaktoři a sazeči z Čapkova Jak se co dělá v září vrátili z letního bytu do redakce a místo psacích strojů a linotypů tam měli počítače.
Co teď?
Můžeme si s novými nástroji hrát. Přesně to jsem udělal, když jsem svou povídku pro nový Football Club – ano, toto je reklama na pěkný časopis – doplnil olejomalbou fotbalového zápasu od Pietera Bruegela vygenerovanou modelem Stable Diffusion. Zdála se mi být fascinující, zábavná a originální. Stejně jako v roce 1997 přišlo maturantům zábavné a originální zdeformovat si na tablo obličeje nějakým dřevním softwarem pro úpravu fotografií.
Newsletter z kuchyně Finmagu
Pravidelně pro vás přinášíme přehled chytrého čtení (nejen) na víkend. Protože dobré čtení má oproti sebelepší buchtě jednu výhodu: nevadí, že se do něj před vámi zakousl někdo jiný. Každý týden tým magazínu Finmag a webu Finmag.cz ochutná metráky textů. A každý pátek vám e-mailem pošle přehled těch nejlepších. Pokud tedy budete chtít a přihlásíte se k odběru našeho pravidelného newsletteru.
Možná tedy bude lepší novým nástrojům napřed ze všech stran porozumět. A právě tomu se snažím napomoci tímto výběrem čtení. (Pravda, vyloženě technickou stránku vynechám.)
Nejdřív k modelům samotným, abychom se v tom čtení snáz orientovali. Pokud odebíráte newsletter dlouho a/nebo čtete Finmag, GPT-3 už znáte. Generuje texty, zvládá to i v češtině. Funguje přes webové i přes aplikační rozhraní. Po registraci dostanete velkorysý bezplatný čtvrtrok na zkoušku, pak za běh průběžně platíte podle rozsahu zpracovaného textu.
Vedle toho se budeme věnovat třem modelům přetvářejícím textové zadání na obrázky. DALL-E je patrně nejznámější, stále bohužel na pozvánky. Midjourney se stalo virálním v létě, betaverzi můžete vyzkoušet na Discordu. Osobně mi nejpozoruhodnější přijde Stable Diffusion. Především proto, že je dostupná nejen přes webové Dream Studio, ale i k volné instalaci na PC s dostatečně výkonnou grafikou, na MacBook s čipy Apple Silicon nebo na cloudovou službu, jako je Google Colab.
(Malá osobní vsuvka. Nenadál bych se, že mi k práci po letech opět nebude stačit obyčejný notebook, nebo že budu muset nad zadáními pro počítač pečlivě přemýšlet, abych nespaloval výpočetní čas a s ním peníze. Pokud chcete po Stable Diffusion hezké velké výstupy, mizí v něm stovka za stovkou.)
Modely se vedle šoupadel s technickými parametry ovládají především prompty, tedy psaným zadáním. Za „Přijde X a Y do baru“ dokončí GPT-3 vtip, popřípadě historku tak nevtipnou, až je vtipná. „Namaluj X ve stylu Y“ navede modely pro tvorbu grafiky směrem, který pak ladíte dalšími prompty. Co je na tom zajímavé: protože se modely učily samočinně na obřích kvantech podkladů, náhodný jouda z internetu může objevit funkci, která překvapí i samotné tvůrce nástroje. O tom víc v předposledním odstavci.
Poslední praktická informace do startu: pokud hodláte generovat obrázky pro komerční užití, nejdřív si prostudujte licence: DALL-E, Midjourney, Stable Diffusion. Typická case use „ilustrák k článku nebo k příspěvku na sociální média“ by měla být ve většině případů v pohodě, spíš než v licenci můžou být háčky třeba v zasahování do autorských nebo osobnostních práv žijících lidí. GPT-3 jde nasadit i do komerčních projektů.
Jak začít programovat v Pythonu. Finmag newsletter tentokrát jinak
Zaujalo? Zkuste další tipy Michala Kašpárka, tentokrát srozumitelné výukové materiály ke „druhému nejlepšímu jazyku úplně pro všechno“.
Jak se v médiích děje něco nového, mezi prvními u toho v Česku bývá Marek Lutonský ze Živě. Místo do fotobank chodí pro ilustrace k článkům za Midjourney a dělí se o zkušenosti.
Dále a hlouběji už jen anglicky – méně sebevědomým opět připomínám existenci překladače DeepL.
Pokud byste si chtěli přečíst jedinou praktickou věc, ať je to kuchařka The DALL·E 2 Prompt Book. Ušetří vám spoustu peněz (nebo volných kreditů) a času tím, že vám na 82 stranách příkladů udělá představu, jaké prompty vedou k jakým vizuálům. Většina funguje dobře nejen na DALL-E, ale i na Midjourney a Stable Diffusion.
Při formulování promptů je dobré přemýšlet od konce. Modely se učily na popsaných fotkách a obrázcích – jakými slovy by nezaujatý člověk popsal výstup, jaký si představujete? Prakticky: „magazine illustration“ vede k úhlednějším a všeobecně použitelnějším výsledkům než jen „illustration“. Může to být trochu nezvyk: zadání sice píšete prostou angličtinou, nekomunikujete však s člověkem, nýbrž entitou zároveň schopnější i výrazně méně důvtipnou, než je člověk. Hodně se toho můžete naučit v databázi ukázek z tréninkového korpusu Stable Diffusion i v databázi vygenerovaných výstupů. Sám jsem jeden večer věnoval hledání významných českých výtvarníků, které Stable Diffusion „umí“. (Jsou to především Alfons Mucha a Jan Saudek.)
Shubham Saboo má za to, že je „prompt engineering“ povoláním budoucnosti. Což není docela pravda: promptové inženýrství je povoláním současnosti. Nebo spíš základem jiných povolání, podobně jako neexistuje profese „googlaření“. Abyste byli co k čemu, musíte být obratní i s jinými technologiemi. S jakými, to vám napoví Max Woolf z BuzzFeedu, který naučil GPT-3 ladit co nejlákavější titulky článků a sdílí detailní know how.
Ke kafi ku poslechu máme...
Nebaví snad číst? Nevadí! Co oči nebaví, uši napraví! A i pro ty něco máme: Finmag podcast. Reality, investice a zajímaví hosté. Uvařte si kafe, sedněte si, a zaposlouchejte se. Dobrou chuť!
Že má Stable Diffusion na rozdíl od jiných text-to-image nástrojů otevřený zdroják a relativně volnou licenci, má velké implikace, píší v Ars Technica: tuhle plechovku s červy už nikdo nezavře. Fakes, v tomto případě včetně těch sexuálně explicitních, už nadále bude moct vytvářet kdokoliv. Těžko říct, do jaké míry si Emad Mostaque, zakladatel mateřské Stability AI, uvědomuje rizika. V rozhovorech, například tomto, mi připomíná Marka Zuckerberga a jeho dnes už hořce znějící heslo postupujte rychle a rozbíjejte věci.
Díky otevřenému kódu Stable Diffusion velmi rychle vzniká řada odvozených nástrojů, viz přehled těch prvních na Multimodal Art.
Otevřenost není jedinou zvláštností Stable Diffusion. Další: model se učil i na obrázcích chráněných copyrightem, umí tedy napodobit i dílo řady stále aktivních umělců a umělkyň. A ještě jedna: soubor s váhami je velký 4,2 GB. Tedy spíš malý. Pomněte, že obsahuje zásadní porci vizuální paměti lidstva. Od panoramat měst, přes styly slavných malířů a fotografů, umělecké slohy, módní styly a estetiku subkultur i zaniklých civilizací, po tvary rostlin, zvířat i věcí. Malý model, velká věc, píše Simon Willison.
Čímž se dostáváme k širším mediálním i společenským dopadům podobných nástrojů. Ben Thompson vzpomíná, jak digitální technologie odstranily různá úzká hrdla mediálního průmyslu. Například řádově zlevnily distribuci obsahu. Umělá inteligence teď podle něj slibuje odstranit poslední zbývající úzké hrdlo tím, že zlevní tvorbu.
Na blogu Scale.com pak nepodepsaný prorok přesvědčuje, že mnoho byznysových problémů půjde vyřešit správným promptem, jen zatím nevíme jakým. Článek mimochodem hezky ilustruje, jak divná tahle nová scéna je. Když v promptu pro GPT-3 upřesníte, že má následovat projev extrémně chytré umělé inteligence, bude výstup skutečně chytřejší. Obrázkové modely zase podobně reagují na dovětek „Unreal engine“ propracovanějšími výstupy, protože se naučily, že když mají obrázky v popisku název tohoto herního enginu, bývají realistické.
Je teď umění mrtvé? Naopak! Oblíbil jsem si podcast Nascent Clouds, ve kterém hosté Dannyho Cisca mluví o tom, jak může umělá inteligence proměnit mediální prostor. Například má být mnohem snadnější pitchovat náměty filmů či formulovat zadání lidským tvůrcům. Nejvíc se mi ale líbilo, co v třetím díle říkal Nuwan Rohitha, který s pomocí Stable Diffusion vytváří obrázky ozeleňování pouště: „Je naší povinností sdílet naše nejradostnější představy.“
Kam dál? Ochutnejte Finmag newsletter:
- Těžká doba i pro tlachání u piva. Finmag newsletter o energiích a Rusku
- Sentimentální vzpomínání na zlaté devadesátky. Finmag newletter je tu
- Černá budoucnost malovaná narůžovo. Ušlí dnové ve Finmag newsletteru
- Kola, deskovky a volná láska. Máme pro vás nový Finmag newsletter
- Válka, hračky, plovárny. Cestování časem ve Finmag newsletteru
Když je škola soukromou hrou… Čtěte v aktuálním Finmagu
Je čas upravit slavný slogan Komenského. Alternativní formy vzdělávání v Česku bodují a soukromé školy často udávají směr i veřejným školám.
ŠKOLA JE BYZNYS
Do montessori škol Duhovka investovali manželé Janečkovi přes 300 milionů. • Jan Kala do škol Heuréka vložil zase peníze ze svého podílu v eBance. • Proč jsou přesvědčeni, že to bylo to nejlepší, co mohli udělat?
BYZNYS JE HRA
Kdy odejít? ptá se dnes celá generace podnikatelů. • Jak se povedlo Jaroslavě Valové předat SIKO dětem? • Kdy se Zbyněk Frolík rozhodl svěřit Linet manažerům? • A proč v Dino Toys převzali vedení vnuci zakladatele?
Související témata
Nejčtenější články
Aktuální číslo časopisu
Když je škola soukromou hrou… Čtěte v aktuálním Finmagu