Mali by sme prestať veriť videám? OpenAI oficiálne vydalo verejnosti svoj generátor videí

11.12.2024 14:00

HNonline.sk

Videogenerátor Sora od svojho predstavenia vyvoláva nadšenie aj obavy. Dokáže urobiť v podstate z každého videotvorcu. Stačí, aby používateľ napísal nejaké textové zadanie a systém mu vygeneruje zodpovedajúce video.

Dá sa očakávať, že to bude podobné, ako pri promptoch pre ChatGPT od rovnakej spoločnosti, čím lepší prompt (zadanie), tým lepšie zodpovedajúce video. Okrem toho môže Sora ako časť zadania využiť obrázky alebo videá, ktoré jej používateľ nahrá, tie potom systém rozšíri alebo rôzne namieša.

Je potrebné počítať s tým, že generované video nebude dokonalé, obzvlášť pri zložitých akciách, ktoré majú trvať dlhšiu dobu. Firma tiež varuje pred tým, že Sora môže generovať nerealistickú fyziku. Už pri uvedení vo februári ale boli zverejnené videá naozaj zaujímavé.

Rozhranie videogenerátora Sora Turbo od OpenAI

FOTO: OpenAI, Technet.cz

Firma OpenAI pre službu zaregistrovala internetovú adresu sora.com. Cez ňu môžu používatelia získať prístup k verzii Sora Turbo, čo má byť výrazne rýchlejší model v pomere k tomu uvedenému vo februári.

Nie je dostupná každému

Kto bude chcieť tento nový generátor vyskúšať, musí splniť dve podmienky. Na jednej strane musí byť predplatiteľ služby ChatGPT Plus (20 dolárov za mesiac) alebo Pro (200 dolárov za mesiac) a tiež nesmie byť zo Spojené kráľovstvo, Švajčiarska a Európskeho hospodárskeho priestoru. Druhá podmienka zrejme súvisí s ochranou osobných údajov a ďalšími reguláciami, ktoré majú chrániť citlivé údaje používateľov a firma si tak najskôr bude musieť vyjednať podmienky využívania.

Záujemcovia o túto službu si teraz pri generovaní videí s dĺžkou až 30 sekúnd budú môcť vybrať pomer strán medzi štvorcovým, širokouhlým alebo obrazom na výšku. K dispozícii je rozlíšenie až do 1080p.

Videogenerátor Sora od OpenAI

„Vyvinuli sme nové rozhrania, ktoré uľahčujú zadávanie promptov aplikácii Sora pomocou textu, obrázkov a videí. Náš nástroj storyboard umožňuje používateľom presne špecifikovať vstupy pre každú snímku. Máme aj kanály Featured a Recent, ktoré sú neustále aktualizované výtvormi od komunity,“ popisuje OpenAI funkcie generátora Sora.

Spoločnosť do systému zakomponovala niektoré bezpečnostné funkcie, aby sme nemuseli úplne prestať veriť tomu, čo vidíme vo videách na internete. Jednak využíva C2PA metadáta, ktoré identifikujú videá ako vygenerované Sorou a potom tiež nemá byť generátor schopný vytvoriť niektoré videá.

„V súčasnej dobe blokujeme obzvlášť škodlivé formy zneužívania, ako sú materiály o sexuálnom zneužívaní detí a sexuálne deepfakes. Nahrávanie osôb bude pri spustení obmedzené, ale máme v úmysle túto funkciu rozšíriť na viacerých používateľov, ako budeme zdokonaľovať našu kontrolu deepfake,“ vysvetľujú tvorcovia generátora.

The Origin of Toys R Us: Brand Film

FOTO: Toys R Us

Obmedzené verejné testovanie Sory, ktoré prebiehalo od februára, sa prejavilo aj v niektorých reklamách, ktoré boli za pomoci tohto nástroja vytvorené. Najznámejšia je asi tá vianočná od Coca-Coly, ale využitá bola pri hračkárstve Toys R Us, ktoré si nechalo vytvoriť snímku The Origin of Toys R Us: Brand Film.

Nástroj ale vyvolal aj kontroverziu. Ku koncu minulého mesiaca musela dokonca firma kvôli jednému protestu na chvíľu prevádzku systému pozastaviť. Vyvolala to skupina niekoľkých umelcov zo zhruba troch stoviek, ktorí získali predbežný prístup k tomuto nástroju. Skupina týchto testerov totiž zverejnila prístup k nástroju spolu s manifestom, v ktorom program OpenAI odsúdila ako vykorisťovateľský.

Konkurencia skúša aj zvuk

OpenAI nie je jediná spoločnosť, ktorá vytvorila takýto generátor videí. V marci tohto roku na seba upozornili výskumníci z čínskej Alibaby. Tí ukázali systém, ktorý za pomoci AI z jednej fotografie človeka vytvorí pomerne realisticky vyzerajúcu tvár, ktorá hovorí alebo zaspieva, čo jej zadáte. Ich model, ktorý nazvali EMO, pracuje s dvoma fázami.

Stačí jedna fotografia a umelá inteligencia rozospieva aj Monu Lisu

V prvej fáze sa extrahujú rysy z predloženej snímky, aby bol výsledok potom použitý na vytvorenie série rozpohybovaných snímok. Druhou je fáza, kedy vopred natrénovaný zvukový kodér spracováva zvukové vložky.

Na začiatku decembra zase ukázala svoj AI videogenerátor spoločnosť Google. Volá sa Veo a využíva skúsenosti skupiny okolo projektu Google DeepMind. Veo generuje videá z existujúcich alebo umelou inteligenciou vytvorených snímok, rovnako ako z textového zadania. Firma sľubuje rýchle generovanie.

Veo: our most capable video generation model is now available on Vertex AI in private preview!

Developed by @GoogleDeepMind, Veo generates high-quality videos based on text or image prompts in a range of cinematic & visual styles with exceptional speed → https://t.co/ZXTIHYRSPr pic.twitter.com/vYsmqALjAa
— Google Cloud (@googlecloud) December 3, 2024

„Vďaka pokročilému porozumeniu prirodzeného jazyka a vizuálnej sémantike sa generujú videá, ktoré presne zodpovedajú zadaniu. Veo na Vertex AI vytvára zábery, ktoré sú konzistentné a súvislé, takže sa ľudia, zvieratá a objekty v záberoch pohybujú realisticky,“ opisujú zástupcovia Googlu.

Aj tieto videá majú označenie. V tomto prípade sa používa vodoznak Google DeepMind‘s SynthID. Zároveň majú fungovať filtre, ktoré dodržiavajú bezpečnostné AI princípy Googlu.

Známy je aj generátor animácií od Adobe s názvom Firefly. AI videogenerátory ponúkajú aj startupy ako Runway, Hailuo, Luma a ďalšie.