CraftStory Model 2.0: Hvernig tvístefnu dreifing opnar fyrir 5 mínútna gervigreindarmyndbönd
Á meðan Sora 2 nær aðeins 25 sekúndum, hefur CraftStory gefið út kerfi sem býr til samhengjandi 5 mínútna myndbönd. Leyndarmálið? Að keyra margar dreifivélar samhliða með tvístefnu takmörkunum.

Stóra málið í gervigreindarmyndböndum? Lengd. Sora 2 stoppar við 25 sekúndur. Runway og Pika eru við 10 sekúndur. CraftStory kom nýlega og sagði: samhengjandi 5 mínútna myndbönd. Tæknin á bak við þetta er alveg snjallt.
Lengdarvandamálið sem enginn hefur leyst
Svona er málið með núverandi gervigreindarmyndbandslíkön: þau eru sprinthlaupari, ekki maraþonhlaupari. Búðu til átta sekúndur af fallegri upptöku, reyndu svo að lengja hana, og þú færð sjónræna útgáfu af símaleiknum. Villur safnast upp. Persónur færast til. Allt dettur í sundur.
Hefðbundin nálgun virkar svona: búðu til hluta, notaðu síðustu rammana sem samhengi fyrir næsta hluta, sauma þá saman. Vandamálið? Villur safnast upp. Örlítið skrýtin handstaða í hluta eitt verður skrítin kúla í hluta fimm.
CraftStory var stofnað af teyminu á bak við OpenCV, tölvusjónarsafnið sem keyrir í nánast hverju sjónarkerfi sem þú hefur nokkru sinni notað. Forstjóri þeirra Victor Erukhimov stofnaði Itseez, tölvusjónarfyrirtæki sem Intel keypti árið 2016.
Tvístefnu dreifing: Nýjungin í arkitektúr
Lausn CraftStory snýr venjulegri nálgun á hvolf. Í stað þess að búa til í röð og vona það besta, keyra þeir margar minni dreifivélar samtímis yfir alla myndbandalínuna.
Tvístefnu takmarkanir
Lykilinnsýnin: "Síðari hluti myndbandins getur haft áhrif á fyrri hluta myndbandins líka," útskýrir Erukhimov. "Og þetta er nokkuð mikilvægt, því ef þú gerir þetta eitt af öðru, þá berst villa sem kemur fram í fyrsta hlutanum yfir í annan hlutann, og safnast svo upp."
Hugsaðu um þetta eins og að skrifa skáldsögu á móti því að útlista hana. Raðframleiðsla er eins og að skrifa blaðsíðu eitt, svo blaðsíðu tvö, svo blaðsíðu þrjú, án getu til að fara til baka. Nálgun CraftStory er eins og að hafa útlínur þar sem kafli tíu getur upplýst það sem þarf að gerast í kafla tvö.
Hefðbundin röð
- Búðu til hluta A
- Notaðu enda A til að byrja B
- Notaðu enda B til að byrja C
- Vonaðu að ekkert safnist upp
- Krossaðu fingur við saumsstaði
Samhliða tvístefnu
- Vinndu alla hluta samtímis
- Hver hluti takmarkar nágranna sína
- Snemma hlutar eru undir áhrifum síðari
- Villur leiðrétta sjálfar yfir tímalínuna
- Eðlilegt samhengi, engin saumur
Hvernig Model 2.0 virkar í raun
Eins og er, er CraftStory Model 2.0 myndband-í-myndband kerfi. Þú gefur upp mynd og stýrimyndband, og það býr til úttaksmyndband þar sem manneskjan á myndinni þinni framkvæmir hreyfingar úr stýrimyndbandinu.
- ✓Hladdu upp viðmiðunarmynd (viðfangið þitt)
- ✓Gefðu upp stýrimyndband (hreyfingarsnið)
- ✓Líkanið býr til frammistöðu
- ○Texti-í-myndband kemur í næstu uppfærslu
Varasamstillingarkerfið sker sig úr. Gefðu því handrit eða hljóðspor, og það býr til samsvarandi munntilhreyfingar. Aðskilið bendingar samstillingaralgrím samstillir líkamstjáningu við talhrynjandi og tilfinningalegan tón. Niðurstaðan? Myndbönd þar sem manneskjan virkilega lítur út fyrir að vera að segja þessi orð, ekki bara að blaðra kjálkanum.
CraftStory þjálfaðist á eigin hárammaflutningum sem voru tekin sérstaklega fyrir líkanið. Venjuleg 30fps YouTube klipp hafa of mikið hreyfingarmót fyrir fínar smáatriði eins og fingur. Þeir réðu stúdíó til að taka leikara á hærri rammahraða fyrir hreinni þjálfunargögn.
Úttakið: Það sem þú færð í raun
- Allt að 5 mínútna samfellt myndband
- 480p og 720p upprunaleg upplausn
- 720p hægt að skala upp í 1080p
- Landslag og lóðrétt snið
- Samstilltar varatilhreyfingar
- Eðlileg bendingasamstilling
- Aðeins myndband-í-myndband (ekki texti-í-myndband ennþá)
- Krefst stýrimyndbandsinnsláttar
- Um það bil 15 mínútur fyrir 30 sekúndur í lágri upplausn
- Föst myndavél núna (hreyfanleg myndavél á leiðinni)
Framleiðsla tekur um það bil 15 mínútur fyrir 30 sekúndna klipp í lágri upplausn. Það er hægara en nánast tafarlaus framleiðsla sem sum líkön bjóða upp á, en skilaboðin eru samhengjandi langform úttaksmyndband frekar en fallegir brot sem tengjast ekki.
Af hverju þetta skiptir máli fyrir höfunda
5 mínútna þröskuldurinn er ekki handahófskenndur. Þetta er þröskuldurinn þar sem gervigreindarmyndband verður gagnlegt fyrir raunverulegt efni.
Samfélagsmyndbrot
Gott fyrir TikTok klipp og auglýsingar, en takmörkuð frásögn
Stuttar útskýringar
Nóg fyrir hraða vörusýningu eða hugmyndamynd
Raunverulegt efni
YouTube kennsluefni, þjálfunarmyndbönd, kynningar, frásagnarefni
Langt form
Heilar þættir, heimildarmyndir, fræðsluáfangar
Flest viðskiptamyndbandaefni er í 2-5 mínútna bilinu. Vörusýningar. Þjálfunareiningar. Útskýringarmyndbönd. Innri samskipti. Þetta er þar sem CraftStory verður viðeigandi fyrir faglega notkunartilvik.
Notkunartilvik sem opnast:
- Vörukennslumyndbönd með samræmdum kynnara í gegn
- Þjálfunarmyndbönd sem krefjast ekki hæfileikaskipulagningar
- Persónuleg myndbandskilaboð í stórum stíl
- Fræðsluefni með sýndarkennarum
- Fyrirtækjasamskipti með útbúnum talsmanns
Samkeppnislandslagið
CraftStory safnaði $2 milljónir í frumfjármögnun undir forystu Andrew Filev, stofnanda Wrike og Zencoder. Það er hóflegt samanborið við milljarðana sem streyma til OpenAI og Google, en nóg til að sanna tæknina.
OpenCV tengingin
Ættfræði stofnteymisins skiptir máli hér. OpenCV knýr tölvusjónarkerfi í mörgum atvinnugreinum. Þetta fólk skilur grundvallaratriði sjónrænnar vinnslu á stigi sem flest gervigreindarmyndbandsfyrirtæki gera ekki.
Texti-í-myndband getan er í þróun. Þegar það er gefið út, verður gildistillagan skýrari: lýstu 5 mínútna myndbandi í texta, fáðu samhengjandi úttaksmyndband án ramma-fyrir-ramma gæðalækkunar sem hrjáir önnur verkfæri.
Hvað kemur næst
Vegvísieiginleikar▼
CraftStory hefur tilkynnt um nokkrar komandi getur:
- Texti-í-myndband: Búðu til úr fyrirspurnum án stýrimyndbands
- Hreyfanleg myndavél: Halla, þysja og rakningartökur
- Ganga-og-tala: Viðföng sem hreyfast um rými á meðan þau tala
Tvístefnu dreifingarnálgunin er ekki bara CraftStory brella. Þetta er mynstur sem önnur teymi munu líklega taka upp. Þegar þú hefur leyst "villur safnast fram" vandamálið, verður lengri framleiðsla verkfræðileg áskorun frekar en grundvallar hindrun.
Model 2.0 einbeitir sér núna að mannamiðuðu myndbandi. Fyrir senur án fólks, viltu samt verkfæri sem eru fínstillt fyrir umhverfis- eða óhlutbundna framleiðslu. Þetta er sérhæft verkfæri, ekki almennt.
Stærri myndin
Við erum að horfa á gervigreindarmyndband fara í gegnum erfiðan unglingsáfanga sinn. Líkönin geta framleitt stórkostleg 10 sekúndna klipp, en biddu þau um að viðhalda samhengi yfir mínútur og þau detta í sundur. Tvístefnu nálgun CraftStory er eitt svar við því vandamáli.
Raunverulega spurningin: hversu lengi þar til þessi tækni er tekin upp af stærri leikmönnum? OpenAI, Google og Runway hafa allir úrræðin til að innleiða svipuð arkitektúr. Kostur CraftStory er að vera fyrst á markaðinn með virkandi langforms framleiðslu.
Í bili, ef þú þarft samræmt margra mínútna gervigreindarmyndbandaefni með manneskjum, er CraftStory bara orðið eina leikurinn í bænum. Lengdarþröskuldurinn er ekki brotinn ennþá, en einhver setti alveg alvarlegan sprungu í hann.
Prófaðu það
CraftStory Model 2.0 er fáanlegt núna. Verðskipulag hefur ekki verið opinberlega ítarlegt, svo þú þarft að athuga síðuna þeirra fyrir núverandi tilboð. Texti-í-myndband er á leiðinni, sem mun gera pallinn aðgengilegan fyrir notendur án núverandi stýrimyndbandaefnis.

Henry
Skapandi tæknimaðurSkapandi tæknimaður frá Lausanne sem kannar þar sem gervigreind hittir listir. Tilraunir með framleiðandi líkön á milli rafeindatónleikaþátta.