Videa generovaná umělou inteligencí (AI): Nová éra kreativity

Vstupujeme do doby, kdy je tvorba videí dosažitelná i pro ty, kdo nemají zkušenost s natáčením a postprodukcí, dokonce ani nevlastní potřebnou techniku. Jak je to možné?
Videa generovaná umělou inteligencí (AI)

Díky umělé inteligenci se otevírají dveře k rozpohybování obrázků a tvorbě realistických videospotů každému, a to i bez znalostí základních parametrů pro natáčení. Stačí napsat jednoduchý textový příkaz a renderování videa může začít.

Jaká historie stojí za vznikem AI videí, co nám jejich generování přináší za nové možnosti, kde si nástroje lze vyzkoušet a jaká rizika jsou s tím vším spojená? To vše se dozvíte v našem článku. Tak čtěte dál!

Historie generování videa pomocí umělé inteligence

Kořeny tvorby videa pomocí umělé inteligence lze vysledovat už v 60. a 70. letech minulého století, kdy se začaly objevovat první snímky generované počítačem (CGI), které daly za vznik jednoduchých vizuálním efektům a grafice. Pravda, zapotřebí bylo víc než jen napsat pár vět do chatbotu, přesto, pokud budeme hovořit o historii AI videí, právě zde s vyprávěním začneme. 

Za vůbec první použití CGI (Computer-generated imagery) se často uvádí úvodní titulková scéna z Hitchcockova thrilleru Vertigo z roku 1958. Nejednalo se sice o pokročilé CGI v dnešním slova smyslu, i přesto však můžeme Alfreda Hitchcocka považovat za průkopníka v této oblasti. Dá se totiž říci, že se jednalo o ranou formu počítačové animace, která pomohla otevřít dveře pro budoucí technologický vývoj.

Animace hlavy robota

Skutečný potenciál této technologie si veřejnost uvědomila až s uvedením filmu Westworld z roku 1973. Film obsahoval krátké 2D CGI záběry, které simulovaly pohled robota. Úspěch tohoto snímku vedl k natočení pokračování, Futureworld v roce 1976, které si klade nárok na prvenství v oblasti 3D CGI animace. Konkrétně se jednalo o animaci hlavy robota. 

S rozvojem počítačové grafiky se systémy CGI stávaly stále sofistikovanějšími a schopnějšími generovat realističtější vizuální obsah. Tento vývoj přispěl k technologickému základu pro budoucí rozvoj generování videí pomocí umělé inteligence.

V průběhu 21. století začaly nabírat na významu techniky AI, zejména metody hlubokého učení. Generativní modely, jako jsou generativní adversární sítě (GAN) a rekurentní neuronové sítě (RNN), se staly schopnými generovat realistické vizuální obsahy, včetně obrazů a videí.

Hluboké učení

Díky těmto inovacím můžeme tvořit realistické vizuální efekty a animace bez nutnosti ručního kreslení či natáčení každého snímku, což otevírá cestu k široké škále kreativních aplikací od filmového průmyslu a herního designu až po vzdělávání a marketing.

AI videa a současnost

Na začátku roku 2023 jsme všichni blaženě zkoumali možnosti chatbotů AI, generovali si chytlavé texty, diskutovali s umělou inteligencí nebo tvořili obrázky, které doslova zaplavily internet. O tom, že by bylo možné takto snadno vytvořit i videospot, jsme si mohli nechat jenom zdát. 

To, co se však dříve zdálo jako sci-fi z daleké budoucnosti, se dneska přibližuje realitě. 

Od začátku letošního roku se vynořila celá řada veřejně dostupných produktů s možností tvořit krátké klipy z textových nebo obrazových výzev. 

I když je tato technologie stále v rané fázi a s jistými omezeními, jako je délka videa (3-4 sekundy), variabilní kvalita a nedořešené problémy s konzistencí postav, představuje to obrovský krok vpřed. 

Vytvoření krátkometrážního filmu na úrovni Pixaru či Disney pomocí jediného textového pokynu je sice stále vzdálenou metou, ale tempo vývoje naznačuje, že to není nereálný cíl. 

Dnes už můžeme sledovat širokou škálu videí, na kterých se podílí umělá inteligence, od zábavných parodií až po poutavé reklamy, jako je například spot pro Coca-Colu.

Video oživuje některá z nejslavnějších světových uměleckých děl plynulým propojením animace s využitím umělé inteligence a hraného záběru.

Dalším z příkladů může být na internetu oblíbený crossover mezi módní značkou Balenciaga a knižní a filmovou sérií Harry Potter, ve kterém ožívají ikonické postavy kouzelníků v oblečení Balenciaga, čímž se propojují dva odlišné světy a vzniká jedinečný (i když možná lehce bizarní) výsledek.

A na závěr těchto příkladů přidáváme i trailer ze světa Pána Prstenů, který přetváří příběh Hobita do Wes Andersenova svérázného stylu.

To vše je ukázkou toho, jak nám umělá inteligence umožňuje kombinovat příběhy a umělecké prvky z různých oblastí a vytvářet tak zcela nové styly, žánry a perspektivy.

Co lze očekávat v dalších letech? Především další inovace a zdokonalování, které povedou k ještě kreativnějším příležitostem pro tvorbu videa.

Nejlepší nástroje pro generování AI videa v roce 2024

Tvorbu AI videa si můžete vyzkoušet například v Runway, Pika, Genmo, Stable Video Diffusion, nebo v dalších nástrojích od společností, jako jsou Kaliber, ModelScope, Hotshot, Moonvalley, Deforum, Leonardo aj.

Většina nástrojů pochází od startupů, z nichž mnohé začínají jako Discord boti (to má za výhody, že nemusí budovat vlastní rozhraní a mají k dispozici základnu 150 mil. měsíčně aktivních uživatelů). Setkat se ale můžete i se společnostmi, které se vydaly po vlastní ose a budují si jak vlastní webovky, tak mobilní aplikace

Startup company

A jak je to s velkými hráči na poli AI? 

Sora OpenAI

Sora je revoluční model umělé inteligence od OpenAI, která dokáže generovat videa až o délce jedné minuty a přitom si zachovat vizuální kvalitu a věrnost zadání.

Využívá nejmodernější technologie AI, včetně pokročilých modelů NLP, GAN, VQ-VAE, sémantických a kontextových modelů, technik pro syntézu videa a animaci a metod posíleného učení.

Make-A-Video od Mety

Make-A-Video je nový systém umělé inteligence od Meta AI, který umožňuje uživatelům přeměnit textové výzvy na krátké videoklipy

Využívá veřejně dostupné datové sady, což přidává výzkumu na transparentnosti. Nástroj navazuje na multimodální generativní metody umělé inteligence, tzv. Make-A-Scene, která lidem dává větší kontrolu nad obsahem generovaným umělou inteligencí, který vytvářejí. 

Stejně jako ostatní nástroje AI, má i tento potenciál otevřít nové příležitosti pro tvůrce a umělce. 

Google Lumiere AI Model

Lumiere se odlišuje od jiných nástrojů pro generování videa revoluční difúzní architekturou Space-Time-U-Net (STUNet)

Zatímco běžné programy skládají video z jednotlivých statických snímků, Lumiere ho vytváří v jednom kroku, čímž dosahuje plynulého pohybu a realistického zobrazení objektů v čase.

STUNet umožňuje Lumiere nejen umístit objekty v prostoru, ale také zachytit jejich pohyb a změny v průběhu videa. V praxi to znamená, že na základě textového popisu tento nástroj nejprve vytvoří základní scénu a následně generuje pohyb objektů a další snímky, které na sebe plynule navazují. Díky této technologii dokáže Lumiere vytvořit až 80 snímků za sekundu, čímž otevírá dveře k tvorbě vysoce kvalitních a realistických videí.

Možná si říkáte: „Super! Jdu to vyzkoušet!” Tady ale prozatím narazíte. Ačkoliv nejsou velikáni v digitálním světě nijak pozadu, po tom, co u generování statických výstupů pomocí AI vyvstalo několik otázek týkajících se zneužití obrázků a vykrádání původních děl, vyčkávají tyto společnosti se zpřístupněním programů široké veřejnosti a stále je testují, aby se vyhnuly ohrožení společenské bezpečnosti. 

Umělá inteligence a právo

Generování videí z textu: Jaké jsou jeho největší slabiny?

Většina společností v tomto odvětví se zaměřuje na řešení několika klíčových (a dosud nevyřešených) problémů, jako je kontrola nad výstupem, časová soudržnost nebo délka klipů

Aktuálně ještě není doladěná naprostá kontrola nad scénou. Nástroje ne vždy dodržují sepsaný prompt, což ovlivňuje například pohyb postav ve videospotu nebo zobrazenou scénu. 

S tím souvisí konzistentnost snímků. Pokud jste si už zkoušeli nějaké free nástroje pro generování videí z textu, jistě vás zarazila deformace objektů nebo průběžné změny v pozadí, které jste nevyžadovali. Na tom všem je nutné ještě zapracovat. 

A v neposlední řadě je tu také délka spotů, která aktuálně nepřesahuje řád sekund. Než se tedy dočkáme absolutně perfektního nástroje, který bude generovat videa přesně podle našich představ, asi si ještě chvíli počkáme. 

Příležitosti spojené s tvorbou videí pomocí AI

Umělá inteligence s využitím špičkových technologií posouvá videoprodukci na novou úroveň.

Producenti mohou vytvářet poutavější, rozmanitější a personalizovanější obsah pro různé platformy a publikum. A tím příležitosti pro využití AI ve videu nekončí. Automatizace úkolů a zvýšení produktivity jsou jen zlomkem toho, čeho díky umělé inteligenci můžeme dosáhnout. 

Zvýšení prroduktivity

V marketingu a reklamě můžete začít ve velkém vytvářet personalizovaná videa, která zvýší viditelnost vaší značky. Můžete přizpůsobit obsah sdělení určitým cílovým skupinám, a to za zlomek času, než tomu bylo doposud. 

  • Víte třeba, že příslušníci generace Z, tzv. Gen Zers, sledují 2x více videí na internetu než příslušníci jiných generací?

Zdravotní péče se může posunout díky tvorbě lékařských realistických scénářů, které pomohou se vzděláním i simulací zákroků. 

Generování AI videa dokáže také zefektivnit tvorbu filmů a snížit náklady na jejich produkci. 

S výčtem výhod bychom mohli dál pokračovat, jak by ale řekl Benjamin Parker: „S velkou mocí přichází i velká zodpovědnost!” A tak se pojďme podívat i na možná rizika spojená s AI.

Rizika spojená s generováním obsahu pomocí AI

O tom, jaké jsou etické problémy spojené s umělou inteligencí, jsme si říkali už v dřívějším článku, který se věnoval tématu Generování obrázků pomocí AI. Pojďme si říct ale i o dalších možných nebezpečích. 

To, že nástroje pro generování obrázků a videí dokážou snadno a rychle zkopírovat určitý styl umělce, řešíme už nějakou dobu. Legislativa zkrátka neměla připravenou půdu pro široký rozmach těchto nástrojů a spousta tvůrců díky tomu přišla k újmě, což se nyní řeší v mnoha žalobách. 

Dalším problémem je šíření dezinformací, tzv. deepfakes, které mohou vést k poškození reputace, ztráty důvěry v instituce a mnohem víc. Pomlouvačné kampaně dokážou zničit osobní i profesní život, a také se mohou stát nástrojem pro vydírání. Představte si, že by vám na obrazovkách vyskočil třeba prezident, který by se přiznával ke zločinu. Děsivé, že?

A to se netýká pouze slavných osob, ale i podniků. Co kdyby konkurence využila AI k poškození jména vaší firmy? 

Čím více vidíme obrázky a videa generované pomocí umělé inteligence, tím těžší je určit, zda se jedná o klam nebo skutečnost.

AI fake

Jak z toho ven? 

Trochu jsem vás postrašila, že? Ale rizika s sebou přináší i příležitosti. A proto je důležité neusnout na vavřínech, nenechat se strhnout s davem a dát na svůj zdravý selský rozum.

Vývojáři už nyní vytvářejí aplikace pro analýzu a detekci videí a obrázků generovaných pomocí AI. Vlády zase řeší regulace a legislativy, které zamezí zneužití umělé inteligence, a vznikají už i systémy, které umožní tvůrcům podepsat si svá díla a tím chránit svá autorská práva. 

Shrnutí

Generování videí pomocí AI umožňuje úplně každému rozpohybovat obrázky nebo vytvořit videospot na základě jednoduchého textového příkazu. I když se o AI videích mluví více až teď, jejich historie sahá do 60. let 20. století (počátky CGI).

Kde si tvorbu videí pomocí AI můžete vyzkoušet? Například v nástroji Runway, Pika, Genmo, Stable Video Diffusion a dalších. Vygenerované výstupy můžete následně využít v mnoha oblastech, jako je marketing, reklama nebo vzdělávání. Ve filmovém průmyslu se používají už dnes. 

Přes všechny možnosti, které AI nabízí, má tvorba videí pomocí umělé inteligence stále své mouchy. Patří sem: 

  • Nedostatečná kontrola nad výstupem (scénář, pohyb postav).
  • Nesoulad snímků (deformace, změny pozadí).
  • Krátké délky klipů.
  • Neoprávněné kopírování uměleckých stylů.

Do budoucna očekáváme další inovace a zdokonalování technologií, větší kreativní možnosti pro tvorbu videa a posun v etických aspektech a boji proti zneužití AI.

Na co se nejčastěji ptáte?

FAQ

Co jsou videa generovaná umělou inteligencí (AI)?

Vytváření videí s pomocí AI probíhá v podstatě stejným způsobem jako u populárních generátorů textu a obrázků, jako jsou ChatGPT a DALL-E. Díky strojovému učení (ML), hlubokému učení (DL), hlubokým neuronovým sítím (DNN) a zpracování přirozeného jazyka (NLP) mají tyto nástroje přístup k obrovskému množství dat z internetu. 

Na základě textových pokynů od uživatelů, které specifikují detaily jako objekty, situace, požadovaný styl, úhly kamery a objektivy, dokáží během několika sekund vygenerovat originální videa.

Jak funguje generování videa pomocí textu? 

Nástroje na tvorbu videa z textu pomocí umělé inteligence fungují na principu analýzy zadaného textu. Extrahují z něj klíčová slova, témata a obecný smysl. Následně prohledávají vlastní databázi volně dostupných médií a hledají relevantní obrazový a video materiál, hudbu a zvukové efekty.

chci se o ai dozvědět víc

napište nám

Související články: 

Generování obrázků pomocí AI

Generování obrázků skrze AI
Zcela bez nadsázky můžeme říct, že s generováním obrázků prostřednictvím umělé inteligence se v posl

ChatGPT a SEO: Jak ho efektivně využít?

ChatGPT a jeho využití v SEO
Ač byl ChatGPT spuštěn teprve v listopadu roku 2022, těší se nesmírné oblibě.

ChatGPT nebo Google Bard, který z nich je lepší?

Umělá inteligence a práce s textem
Který chatbot je pro práci s textem lepší, ChatGPT nebo Google Bard? To zjistíte v našem článku!