CraftStory Model 2.0: Kif Bidirectional Diffusion Tiftaħ il-Portijiet għal Vidjows AI ta' 5 Minuti
Filwaqt li Sora 2 jaqta' għal 25 sekonda biss, CraftStory għadu kemm ħareġ sistema li tiġġenera vidjows koerenti ta' 5 minuti. Is-sigriet? L-użu ta' diversi engines diffusion b'mod parallel b'restrizzjonijiet bidirezzjonali.

Il-problema kbira fil-qasam tal-vidjow AI? It-tul. Sora 2 jieqaf għal 25 sekonda. Runway u Pika jduru madwar 10 sekondi. CraftStory għadu kemm daħal u qal: vidjows koerenti ta' 5 minuti. It-teknika warajh hija tabilħaqq intelliġenti.
Il-Problema tat-Tul li Ħadd Ma Ssolva
Hawn hu l-punt dwar mudelli attwali tal-vidjow AI: huma sprinters, mhux runners tal-maratona. Iġġenera tmien sekondi ta' filmati sabiħa, imbagħad ipprova testendi, u tikseb l-ekwivalenti viżwali ta' logħba tat-telefon. L-artifatti jikbru. Il-karattri jitbiegħdu. Kollox jinħall.
L-approċċ tradizzjonali jaħdem hekk: iġġenera biċċa, uża l-aħħar ftit frames bħala kuntest għall-biċċa li jmiss, qabbdhom flimkien. Il-problema? L-iżbalji jakkumulaw. Pożizzjoni tal-id ftit stramba fil-biċċa waħda ssir blob stramb sal-biċċa ħames.
CraftStory twaqqfet mit-tim wara OpenCV, il-librerija tal-viżjoni tal-kompjuter li taħdem fi kważi kull sistema ta' viżjoni li qatt użajt. Iċ-CEO tagħhom Victor Erukhimov kien ko-fundatur ta' Itseez, startup tal-viżjoni tal-kompjuter li Intel akkwistat fl-2016.
Bidirectional Diffusion: L-Innovazzjoni Arkitetturali
Is-soluzzjoni ta' CraftStory ddawwar l-approċċ tipiku fuq rasu. Minflok tiġġenera b'mod sekwenzjali u tittama għall-aħjar, huma jħaddmu diversi engines diffusion iżgħar simultanjament fuq il-linja tat-ċiklu kollu tal-vidjow.
Restrizzjonijiet Bidirezzjonali
Il-ħsieb ewlieni: "Il-parti ta' wara tal-vidjow tista' tinfluwenza l-parti ta' quddiem tal-vidjow ukoll," jispjega Erukhimov. "U dan huwa pjuttost importanti, għax jekk tagħmluh wieħed wieħed, allura artifatt li jidher fil-parti l-ewwel jippropaga għat-tieni waħda, u mbagħad jakkumula."
Aħsbu fuqu bħal kitba ta' rumanz kontra outlining. Il-ġenerazzjoni sekwenzjali hija bħal kitba ta' paġna waħda, imbagħad paġna tnejn, imbagħad paġna tlieta, mingħajr il-ħila li tmur lura. L-approċċ ta' CraftStory huwa bħal li jkollok outline fejn il-kapitlu għaxra jista' jinforma dak li jeħtieġ jiġri fil-kapitlu tnejn.
Sekwenzjali Tradizzjonali
- Iġġenera segment A
- Uża tmiem ta' A biex tibda B
- Uża tmiem ta' B biex tibda C
- Ittama li xejn ma jakkumula
- Aqbad subgħajk fil-punti tal-ħjata
Parallel Bidirezzjonali
- Ipproċessa s-segmenti kollha simultanjament
- Kull segment jillimita l-ġirien tiegħu
- Segmenti bikrija influwenzati minn dawk aktar tard
- L-artifatti jikkoreġu ruħhom fil-linja taż-żmien
- Koerenza nattiva, ebda ħjata
Kif Model 2.0 Tabilħaqq Jaħdem
Bħalissa, CraftStory Model 2.0 huwa sistema vidjow-għal-vidjow. Tipprovdi immaġni u vidjow ta' sewqan, u jiġġenera output fejn il-persuna fl-immaġni tiegħek tesegwixxi l-movimenti mill-vidjow ta' sewqan.
- ✓Tella' immaġni ta' referenza (is-suġġett tiegħek)
- ✓Ipprovdi vidjow ta' sewqan (it-template tal-moviment)
- ✓Il-mudell jissintetizza l-prestazzjoni
- ○Test-għal-vidjow ġej f'aġġornament futur
Is-sistema tal-lip-sync tispikka. Agħtiha skript jew track awdjo, u tiġġenera movimenti tal-ħalq li jaqblu. Algoritmu separat ta' allinjament tal-ġesturi jissinkronizza l-lingwa tal-ġisem mar-ritmu tal-kelma u t-ton emozzjonali. Ir-riżultat? Vidjows fejn il-persuna verament tidher bħallikieku qed tgħid dawk il-kelmiet, mhux sempliċement qed tbiegħed ix-xedaq.
CraftStory ittrejna fuq filmati proprjetarji ta' frame rate għoli mfassla speċifikament għall-mudell. Clips standard ta' YouTube ta' 30fps għandhom wisq motion blur għal dettalji fini bħall-subgħajn. Huma kkriew studji biex jaqbdu atturi f'frame rates ogħla għal data ta' taħriġ aktar nadifa.
L-Output: Dak li Verament Tikseb
- Sa 5 minuti ta' vidjow kontinwu
- Riżoluzzjoni nattiva ta' 480p u 720p
- 720p jista' jkabbar għal 1080p
- Formati landscape u portrait
- Movimenti tas-sinsla ssinkronizzati
- Allinjament tal-ġesturi naturali
- Vidjow-għal-vidjow biss (ebda test-għal-vidjow għadu)
- Jeħtieġ input ta' vidjow ta' sewqan
- Madwar 15-il minuta għal 30 sekonda f'riżoluzzjoni baxxa
- Kamera statika bħalissa (kamera li tmexxi ġejja)
Il-ġenerazzjoni tieħu madwar 15-il minuta għal clip ta' riżoluzzjoni baxxa ta' 30 sekonda. Dan huwa aktar bil-mod minn ġenerazzjoni kważi istantanja li xi mudelli joffru, iżda l-kompromess huwa output fit-tul koerenti aktar milli frammenti sbieħ li ma jgħaqqdu xejn.
Għaliex Dan Jimporta għall-Kreaturi
Il-barriera tal-5 minuti mhix arbitrarja. Hija l-limitu fejn il-vidjow AI isir utli għal kontenut tabilħaqq.
Clips Soċjali
Tajjeb għal snippets TikTok u reklami, iżda storytelling limitat
Spjegazzjonijiet Qosra
Biżżejjed għal demo tal-prodott malajr jew illustrazzjoni tal-kunċett
Kontenut Reali
Tutorials YouTube, vidjows ta' taħriġ, preżentazzjonijiet, kontenut narrattiv
Formola Twila
Episodji sħaħ, dokumentarji, korsijiet edukattivi
Il-biċċa l-kbira tal-kontenut tal-vidjow tan-negozju jgħix fil-medda ta' 2-5 minuti. Demos tal-prodotti. Moduli ta' taħriġ. Vidjows ta' spjegazzjoni. Komunikazzjonijiet interni. Hawn huwa fejn CraftStory jsir rilevanti għal każijiet ta' użu professjonali.
Każijiet ta' Użu li Jinfetħu:
- Tutorials tal-prodotti bi preżentatur konsistenti tul il-vidjow
- Vidjows ta' taħriġ li ma jeħtieġux skedulazzjoni ta' talent
- Messaġġi vidjow personalizzati fuq skala kbira
- Kontenut edukattiv b'istruturi virtwali
- Komunikazzjonijiet korporattivi b'spokespersons iġġenerati
Il-Pajsaġġ Kompetittiv
CraftStory ġabret $2 miljun f'finanzjament seed imexxi minn Andrew Filev, fundatur ta' Wrike u Zencoder. Dan huwa modest meta mqabbel mal-biljuni li jiddefnu f'OpenAI u Google, iżda huwa biżżejjed biex jipprova t-teknoloġija.
Il-Konnessjoni OpenCV
Il-pedigree tat-tim fundatur jimporta hawn. OpenCV tħaddem sistemi ta' viżjoni tal-kompjuter madwar l-industriji. Dawn in-nies jifhmu l-fundamentali tal-ipproċessar viżwali f'livell li l-biċċa l-kbira tal-startups tal-vidjow AI ma jifhmux.
Il-kapaċità test-għal-vidjow qed tiġi żviluppata. Ladarba tinbeda, il-proposta tal-valur issir aktar ċara: iddeskrivi vidjow ta' 5 minuti fit-test, ikseb output koerenti mingħajr id-degradazzjoni tal-kwalità frame-b'frame li tħasseb għodod oħra.
X'Inhu Li Jmiss
Karatteristiċi tar-Roadmap▼
CraftStory ħabbret diversi kapaċitajiet li ġejjin:
- Test-għal-vidjow: Iġġenera minn prompts mingħajr vidjow ta' sewqan
- Kamera li tmexxi: Pan, zoom, u tracking shots
- Walk-and-talk: Suġġetti li jiċċaqalqu fiż-żona waqt li jitkelmu
L-approċċ tal-bidirectional diffusion mhuwiex sempliċiment xogħol ta' CraftStory. Huwa mudell li timijiet oħra x'aktarx se jadottaw. Ladarba ssolvi l-problema ta' "l-iżbalji jakkumulaw 'il quddiem", ġenerazzjoni itwal issir sfida ta' inġinerija aktar milli barriera fundamentali.
Model 2.0 bħalissa huwa ffukat fuq vidjow ċentriku fuq il-bniedem. Għal xeni mingħajr nies, xorta se trid għodod ottimizzati għal ġenerazzjoni ambjentali jew astratta. Dan huwa għodda speċjalista, mhux ġeneralista.
Il-Kwadru Ikbar
Qed naraw il-vidjow AI jgħaddi mill-fażi awkward tat-teenager. Il-mudelli jistgħu jipproduċu clips stupendu ta' 10 sekondi, iżda staqsihom biex iżommu koerenza fuq minuti u jaqgħu. L-approċċ bidirezzjonali ta' CraftStory huwa tweġiba waħda għal dik il-problema.
Il-mistoqsija vera: kemm se jdumu sakemm din it-teknika tiġi adottata mill-players ikbar? OpenAI, Google, u Runway kollha għandhom ir-riżorsi biex jimplimentaw arkitetturi simili. Il-vantaġġ ta' CraftStory huwa li tkun l-ewwel fis-suq b'ġenerazzjoni fit-tul li taħdem.
Għalissa, jekk għandek bżonn ta' kontenut konsistenti tal-vidjow AI ta' diversi minuti b'suġġetti umani, CraftStory għadu kemm sar il-logħba waħda fil-belt. Il-barriera tat-tul għadha mhix miksura, iżda xi ħadd għadu kemm poġġa xaqq serju fiha.
Ipprova
CraftStory Model 2.0 huwa disponibbli issa. L-istruttura tal-prezzijiet ma ġietx dettaljata pubblikament, allura se jkollok tivverifika s-sit tagħhom għall-offerti attwali. Test-għal-vidjow ġej, li se jagħmel il-pjattaforma aċċessibbli għall-utenti mingħajr kontenut ta' vidjow ta' sewqan eżistenti.

Henry
Teknoloġist KreattivTeknoloġist kreattiv minn Lausanne jesplora fejn l-AI tiltaqa' mal-arti. Jespermenta b'mudelli ġenerattivi bejn sessjonijiet ta' mużika elettronika.