Meta Pixel
AlexisAlexis
7 min read
1262 orð

MiniMax Video Agent: Fyrsta Gervigreindin Sem Skrifar, Leikstýrir og Klippir Myndbönd Sjálfstætt

MiniMax's Video Agent Beta táknar breytingu frá fyrirmælabyggðri myndvinnslu til sjálfvirkrar myndbandsframleiðslu, þar sem gervigreind sér um allt skapandi verkflæðið frá hugmynd til lokaklippingar.

MiniMax Video Agent: Fyrsta Gervigreindin Sem Skrifar, Leikstýrir og Klippir Myndbönd Sjálfstætt

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Hvað ef þú gætir lýst myndbandshugmynd í einni setningu og látið gervigreindarkerfi skrifa handritið, skipuleggja upptökur, búa til hverja senu og klippa þær saman í fullunnna lokaafurð? MiniMax's Video Agent Beta gerir þetta mögulegt og markar fyrstu viðskiptalegu notkun á raunverulega sjálfvirkri myndbandssköpun.

Frá Fyrirmælahönnun til Myndbandsútsetningar

Þróun gervigreindar myndbandsmyndunar hefur fylgt kunnuglegu mynstri. Fyrst kom grunn texta-í-myndband samruni. Síðan varð fyrirmælahönnun að listform, þar sem höfundar lærðu að tilgreina myndavélahreyfingar, lýsingarskilyrði og tímaflæði í sífellt flóknari fyrirmælum. Hver kynslóð líkana krafðist ítarlegri leiðbeininga fyrir betri árangur.

MiniMax's Video Agent snýr þessu sambandi alveg við.

💡

Video Agent táknar breytinguna frá "fyrirmælahönnun" til "ásetningatjáningar." Þú lýsir því sem þú vilt ná fram og gervigreindin sér um hvernig það er gert.

Í stað þess að móta fullkomnu fyrirmælin fyrir hverja upptöku gefur þú yfirlitsbundna skapandi samantekt. Kerfið framkvæmir síðan sjálfstætt:

  • Þróar frásagnarbyggingu
  • Skrifar senu-fyrir-senu handrit
  • Ákvarðar bestu myndsamsetningar
  • Býr til hvern myndbandskafla með nýjustu líkönum Hailuo
  • Klippir myndir saman með viðeigandi umbreytingum
  • Bætir við samstilltum hljóði og tónlist

Þetta er ekki umbúðir utan um núverandi myndbandsmyndun. Þetta er aðgerðakerfi sem tekur skapandi ákvarðanir.

Byggingin Að Baki Sjálfvirkri Sköpun

MiniMax Video Agent kerfisbygging sem sýnir útsetningarlag sem tengir saman handritsframleiðslu, upptökuáætlanagerð, myndbandssamruna og klippingareiningar
Video Agent margþrepa rörverk útsetja sérhæfð líkön fyrir hverja framleiðsluáfanga

Video Agent byggir á víðtæku fjölþætta grunni MiniMax. Fyrirtækið, sem rekur leiðandi gervigreindar myndbandavettvang Kína, Hailuo, hefur framkvæmt yfir 370 milljónir myndbandsmyndana. Þessi umfang útvegaði þjálfunargögn til að skilja hvað gerir myndbönd áhrifarík.

Kerfið starfar í gegnum nokkrar samtengdar einingar:

4
Kjarnaeiningar
370M+
Þjálfunarmyndbönd
12
Studd Tungumál

Handritsframleiðslueining: Knúin af tungumálalíkönum MiniMax, umbreytir þessi hluti stuttum lýsingum í skipulögð handrit. Hún skilur frásagnarvenjur, hraða og hvernig senur ættu að flæða saman.

Upptökuáætlunarvél: Þessi eining ákvarðar myndavélahorn, hreyfingarmynstur og sjónrænar samsetningar fyrir hverja senu. Hún dregur úr kvikmyndamálfræði sem lærð var með greiningu á faglegum framleiðslum.

Myndbandssamrunalag: Byggt á Hailuo 2.3, býr þetta til hverja upptöku með persónusamkvæmni og eðlisfræðihermun sem vettvangurinn er þekktur fyrir. Kerfið viðheldur sjálfkrafa sjónrænu samræmi milli upptaka.

Ritstjórnargreind: Síðasta einingin sér um samsetningu, ákvarðar klippupunkta, umbreytingarstíla og hljóðsamstillingu. Hún beitir meginreglum faglegrar klippingar til að skapa samhangandi raðir.

Hvað Video Agent Getur Í Raun

Beta útgáfan styður nokkur framleiðsluverkflæði sem áður kröfðust mannlegrar skapandi stjórnunar:

Hvað Video Agent Sér Um

Handritsþróun frá hugmyndasamantektum, margra sena frásagnarsbygging, samkvæmir persónuútlitir milli upptaka, sjálfvirkar senuumbreyitingar og hraði, samstilltur hljóður og bakgrunnstónlist, stílsamkvæmni í gegnum alla framleiðslu

Núverandi Takmarkanir

Hámarksúttak um það bil 2-3 mínútur, takmörkuð fínstýring á tilteknum ramma, engin rauntímasamvinna eða endurtekningar, krefst skýrrar skapandi stefnu í upphafssamantekt, einstaka ósamræmi í flóknum senum með mörgum persónum

Kerfið skarar fram úr við efnisgerðir með skýr skipulagsmynstur. Vöruframleiðslur, útskýringarmyndbönd og stuttir frásagnarmyndir passa allar vel við núverandi getu. Tilraunakenndara eða óhlutbundnara efni nýtur enn góðs af hefðbundinni fyrirmælabyggðri myndun.

Hagnýtt Dæmi: Frá Samantekt til Fullkláraðs Myndbands

Til að skilja hvernig Video Agent virkar í reynd, skoðaðu dæmigert verkflæði:

Skref 1

Skapandi Samantekt

Þú gefur: "Búðu til 60 sekúndna myndband um kaffihúseiganda sem uppgötvar að fastur morgungestur hennar er í raun frægur rithöfundur sem rannsakar fyrir næstu bók sína"

Skref 2

Handritsframleiðsla

Video Agent þróar þriggja sena byggingu með samtali, kynningarupptökum og uppljóstrunarstund

Skref 3

Upptökuáætlanagerð

Kerfið ákvarðar 8 einstakar upptökur: ytra kynning, innra vítt, nánarmynd af aðalpersónu, innkoma gestsins, samtalsröð, bókauppljóstrun, viðbragðsupptaka, lokaupptaka vítt

Skref 4

Myndun

Hver upptaka er mynduð með samkvæmum persónuútlitum, lýsingu og stíl

Skref 5

Samsetning

Myndir eru klipptar saman með viðeigandi umbreytingum, bakgrunnsandrúmslofti og þögulri tónlist

Allt ferlið lýkur á innan við 10 mínútum. Mannlegur höfundur myndi eyða klukkustundum í sömu framleiðslu, jafnvel með aðgang að sömu myndunar tækni.

Samkeppnislandslagið

MiniMax er ekki eitt um að sækjast eftir sjálfvirkri myndbandssköpun, en þau eru fyrst á markaði með viðskiptalega vöru. Samkeppnisstaðan er lærdómsrík:

FyrirtækiNálgunStaða
MiniMaxFullkomlega sjálfvirkt umboðBeta tiltækt
RunwayHálfsjálfvirkt með Act-OneRannsóknarstig
OpenAIOrðrómur um Sora umboðsgetuÓstaðfest
GoogleDeepMind heimsmódelrannsóknirFræðilegar greinar

Nálgun Runway beinist að því að varðveita mannlega skapandi stjórn á meðan tæknileg framkvæmd er sjálfvirknuð. Act-One kerfið þeirra fangar mannleg framföri og þýðir þau í gervigreindarmyndaðar persónur, sem heldur fólki í skapandi ferlinu.

MiniMax veðjar á hið gagnstæða: að fyrir mörg notkunartilvik verður fullkomlega sjálfvirk sköpun verðmætari en samvinna manns og gervigreindar. Markaðurinn mun að lokum ákvarða hvaða nálgun vinnur.

Áhrif á Myndbandshöfunda

💡

Video Agent kemur ekki í stað mannlegrar sköpunar. Það sér um framkvæmdina svo höfundar geti einbeitt sér að hugmyndavinnu og stjórnun.

Fyrir faglega höfunda breyta sjálfvirk umboð eins og Video Agent starfslýsingunni frekar en að útrýma hlutverkinu. Færnin sem skiptir máli færist frá tæknilegri framkvæmd til:

  • Skapandi Stjórnun: Að skilgreina sýnina sem stýrir sjálfvirkum kerfum
  • Gæðamat: Að meta gervigreindarúttak gegn listrænum stöðlum
  • Endurtekningarstefna: Að vita hvenær á að betrumbæta samantektir gegn því að grípa inn handvirkt
  • Áhorfendaskilningur: Að þýða þarfir áhorfenda í áhrifaríkar samantektir

Höfundarnir sem dafna verða þeir sem læra að stjórna gervigreindarkerfum á áhrifaríkan hátt, rétt eins og leikstjórar lærðu að vinna með nýjum kvikmyndatækniframförum í gegnum kvikmyndasöguna.

Tæknilegar Hugleiðingar

Nokkrar byggingarákvarðanir gera Video Agent mögulegt:

Stigveld Áætlanagerð: Í stað þess að mynda myndbönd ramma-fyrir-ramma starfar kerfið á mörgum sviðsstigum. Háþróaðar frásagnarákvarðanir upplýsa miðstigsupptökuáætlanagerð, sem stýrir lægri stigs myndun. Þetta endurspeglar hvernig mannlegar framleiðslur virka.

Samkvæmnisbúnaður: Persónusamkvæmnitækni MiniMax, kynnt í Hailuo 2.3, reynist nauðsynleg hér. Án stöðugra persónuútlita milli upptaka myndi sjálfvirk klipping framleiða ójafnar niðurstöður.

Gæðahlið: Kerfið inniheldur matseiningar sem meta myndað efni fyrir samsetningu. Upptökur sem standast ekki gæðaþröskulda eru sjálfkrafa endurgerðar, sem viðheldur samkvæmum úttaksstöðlum.

Fyrir þá sem hafa áhuga á undirliggjandi myndbandsmyndunargetunni, veitir samanburður okkar á leiðandi gervigreindar myndbandatólum samhengi um hvernig Hailuo ber saman við aðra valkosti.

Hvað Þetta Þýðir fyrir Iðnaðinn

Video Agent kemur á tímamótum fyrir gervigreindar myndbönd. Tæknin hefur þroskast nóg þannig að takmarkandi þátturinn er ekki lengur myndunar gæði heldur framleiðsluverkflæði. MiniMax viðurkenndi þessa breytingu og byggði í samræmi við það.

Mynstrið er kunnuglegt frá öðrum gervigreindarsvæðum. Tungumálalíkön þróuðust frá lokavélum til umboða sem gátu vafrað um vefinn, skrifað kóða og framkvæmt margþrepa verkefni. Myndframleiðsla færðist frá stökum úttökum til endurtekinna hönnunarverkflæða. Myndband fylgir sömu braut, frá myndun til útsetningar.

Fyrirtækin sem ná árangri í þessum næsta áfanga verða þau sem skilja myndbandsframleiðslu sem verkflæði, ekki sem stakt myndunarverkefni. Snemmbær hreyfing MiniMax inn í sjálfvirka framleiðslu bendir til þess að þau séu að hugsa um rétt vandamál.

Horft Fram á Við

Beta útgáfa Video Agent er líklega aðeins byrjunin. Vegvísir fyrir sjálfvirka myndbandssköpun bendir í átt að:

  • Grunn margra sena frásagnarmyndun
  • Sjálfvirk stíl- og persónusamkvæmni
  • Rauntíma samstarfsendurtekningar
  • Samþætting við ytri eignir og efnistök
  • Framleiðslugeta í bíómyndarlengd

Breytingin frá verkfærum til umboða táknar grundvallarbreytingu á því hvernig við hugsum um gervigreindar myndbönd. Í stað þess að spyrja "hvernig mynda ég þessa upptöku?" munu höfundar í auknum mæli spyrja "hvernig stjórna ég þessu kerfi til að ná minni sýn?"

Fyrir dýpri skoðun á því hvernig heimslíkön gera þessa breytingu í átt að sjálfvirkum gervigreindarkerfum mögulega, sjá umfjöllun okkar um GWM-1 frá Runway og víðtækara heimslíkanskennd.

Video Agent frá MiniMax kann að vera beta vara, en hún táknar forsýningu á hvert öll iðngreinin stefnir. Spurningin er ekki lengur hvort gervigreind geti myndað myndbönd, heldur hvort gervigreind geti framleitt myndbönd. Svarið er í auknum mæli: já.

Var þessi grein gagnleg?

Alexis

Alexis

Gervigreindartæknir

Gervigreindartæknir frá Lausanne sem sameinar dýpt rannsókna og hagnýta nýsköpun. Skiptir tíma sínum á milli líkanaarkitektúra og Alpafjalla.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Tengdar greinar

Haltu áfram að kanna með þessum tengdu færslum

Líkaði þér þessi grein?

Fáðu meiri innsýn og fylgstu með nýjasta efninu okkar.

MiniMax Video Agent: Fyrsta Gervigreindin Sem Skrifar, Leikstýrir og Klippir Myndbönd Sjálfstætt