HenryHenry
6 min read
1122 kelmiet

CraftStory Model 2.0: Kif Bidirectional Diffusion Tiftaħ il-Portijiet għal Vidjows AI ta' 5 Minuti

Filwaqt li Sora 2 jaqta' għal 25 sekonda biss, CraftStory għadu kemm ħareġ sistema li tiġġenera vidjows koerenti ta' 5 minuti. Is-sigriet? L-użu ta' diversi engines diffusion b'mod parallel b'restrizzjonijiet bidirezzjonali.

CraftStory Model 2.0: Kif Bidirectional Diffusion Tiftaħ il-Portijiet għal Vidjows AI ta' 5 Minuti

Il-problema kbira fil-qasam tal-vidjow AI? It-tul. Sora 2 jieqaf għal 25 sekonda. Runway u Pika jduru madwar 10 sekondi. CraftStory għadu kemm daħal u qal: vidjows koerenti ta' 5 minuti. It-teknika warajh hija tabilħaqq intelliġenti.

Il-Problema tat-Tul li Ħadd Ma Ssolva

Hawn hu l-punt dwar mudelli attwali tal-vidjow AI: huma sprinters, mhux runners tal-maratona. Iġġenera tmien sekondi ta' filmati sabiħa, imbagħad ipprova testendi, u tikseb l-ekwivalenti viżwali ta' logħba tat-telefon. L-artifatti jikbru. Il-karattri jitbiegħdu. Kollox jinħall.

25s
Sora 2 Max
10s
Mudelli Tipiċi
5min
CraftStory

L-approċċ tradizzjonali jaħdem hekk: iġġenera biċċa, uża l-aħħar ftit frames bħala kuntest għall-biċċa li jmiss, qabbdhom flimkien. Il-problema? L-iżbalji jakkumulaw. Pożizzjoni tal-id ftit stramba fil-biċċa waħda ssir blob stramb sal-biċċa ħames.

💡

CraftStory twaqqfet mit-tim wara OpenCV, il-librerija tal-viżjoni tal-kompjuter li taħdem fi kważi kull sistema ta' viżjoni li qatt użajt. Iċ-CEO tagħhom Victor Erukhimov kien ko-fundatur ta' Itseez, startup tal-viżjoni tal-kompjuter li Intel akkwistat fl-2016.

Bidirectional Diffusion: L-Innovazzjoni Arkitetturali

Is-soluzzjoni ta' CraftStory ddawwar l-approċċ tipiku fuq rasu. Minflok tiġġenera b'mod sekwenzjali u tittama għall-aħjar, huma jħaddmu diversi engines diffusion iżgħar simultanjament fuq il-linja tat-ċiklu kollu tal-vidjow.

🔄

Restrizzjonijiet Bidirezzjonali

Il-ħsieb ewlieni: "Il-parti ta' wara tal-vidjow tista' tinfluwenza l-parti ta' quddiem tal-vidjow ukoll," jispjega Erukhimov. "U dan huwa pjuttost importanti, għax jekk tagħmluh wieħed wieħed, allura artifatt li jidher fil-parti l-ewwel jippropaga għat-tieni waħda, u mbagħad jakkumula."

Aħsbu fuqu bħal kitba ta' rumanz kontra outlining. Il-ġenerazzjoni sekwenzjali hija bħal kitba ta' paġna waħda, imbagħad paġna tnejn, imbagħad paġna tlieta, mingħajr il-ħila li tmur lura. L-approċċ ta' CraftStory huwa bħal li jkollok outline fejn il-kapitlu għaxra jista' jinforma dak li jeħtieġ jiġri fil-kapitlu tnejn.

Sekwenzjali Tradizzjonali

  • Iġġenera segment A
  • Uża tmiem ta' A biex tibda B
  • Uża tmiem ta' B biex tibda C
  • Ittama li xejn ma jakkumula
  • Aqbad subgħajk fil-punti tal-ħjata

Parallel Bidirezzjonali

  • Ipproċessa s-segmenti kollha simultanjament
  • Kull segment jillimita l-ġirien tiegħu
  • Segmenti bikrija influwenzati minn dawk aktar tard
  • L-artifatti jikkoreġu ruħhom fil-linja taż-żmien
  • Koerenza nattiva, ebda ħjata

Kif Model 2.0 Tabilħaqq Jaħdem

Bħalissa, CraftStory Model 2.0 huwa sistema vidjow-għal-vidjow. Tipprovdi immaġni u vidjow ta' sewqan, u jiġġenera output fejn il-persuna fl-immaġni tiegħek tesegwixxi l-movimenti mill-vidjow ta' sewqan.

  • Tella' immaġni ta' referenza (is-suġġett tiegħek)
  • Ipprovdi vidjow ta' sewqan (it-template tal-moviment)
  • Il-mudell jissintetizza l-prestazzjoni
  • Test-għal-vidjow ġej f'aġġornament futur

Is-sistema tal-lip-sync tispikka. Agħtiha skript jew track awdjo, u tiġġenera movimenti tal-ħalq li jaqblu. Algoritmu separat ta' allinjament tal-ġesturi jissinkronizza l-lingwa tal-ġisem mar-ritmu tal-kelma u t-ton emozzjonali. Ir-riżultat? Vidjows fejn il-persuna verament tidher bħallikieku qed tgħid dawk il-kelmiet, mhux sempliċement qed tbiegħed ix-xedaq.

💡

CraftStory ittrejna fuq filmati proprjetarji ta' frame rate għoli mfassla speċifikament għall-mudell. Clips standard ta' YouTube ta' 30fps għandhom wisq motion blur għal dettalji fini bħall-subgħajn. Huma kkriew studji biex jaqbdu atturi f'frame rates ogħla għal data ta' taħriġ aktar nadifa.

L-Output: Dak li Verament Tikseb

Kapaċitajiet
  • Sa 5 minuti ta' vidjow kontinwu
  • Riżoluzzjoni nattiva ta' 480p u 720p
  • 720p jista' jkabbar għal 1080p
  • Formati landscape u portrait
  • Movimenti tas-sinsla ssinkronizzati
  • Allinjament tal-ġesturi naturali
Limitazzjonijiet
  • Vidjow-għal-vidjow biss (ebda test-għal-vidjow għadu)
  • Jeħtieġ input ta' vidjow ta' sewqan
  • Madwar 15-il minuta għal 30 sekonda f'riżoluzzjoni baxxa
  • Kamera statika bħalissa (kamera li tmexxi ġejja)

Il-ġenerazzjoni tieħu madwar 15-il minuta għal clip ta' riżoluzzjoni baxxa ta' 30 sekonda. Dan huwa aktar bil-mod minn ġenerazzjoni kważi istantanja li xi mudelli joffru, iżda l-kompromess huwa output fit-tul koerenti aktar milli frammenti sbieħ li ma jgħaqqdu xejn.

Għaliex Dan Jimporta għall-Kreaturi

Il-barriera tal-5 minuti mhix arbitrarja. Hija l-limitu fejn il-vidjow AI isir utli għal kontenut tabilħaqq.

10 sek

Clips Soċjali

Tajjeb għal snippets TikTok u reklami, iżda storytelling limitat

30 sek

Spjegazzjonijiet Qosra

Biżżejjed għal demo tal-prodott malajr jew illustrazzjoni tal-kunċett

2-5 min

Kontenut Reali

Tutorials YouTube, vidjows ta' taħriġ, preżentazzjonijiet, kontenut narrattiv

Futur

Formola Twila

Episodji sħaħ, dokumentarji, korsijiet edukattivi

Il-biċċa l-kbira tal-kontenut tal-vidjow tan-negozju jgħix fil-medda ta' 2-5 minuti. Demos tal-prodotti. Moduli ta' taħriġ. Vidjows ta' spjegazzjoni. Komunikazzjonijiet interni. Hawn huwa fejn CraftStory jsir rilevanti għal każijiet ta' użu professjonali.

Każijiet ta' Użu li Jinfetħu:

  • Tutorials tal-prodotti bi preżentatur konsistenti tul il-vidjow
  • Vidjows ta' taħriġ li ma jeħtieġux skedulazzjoni ta' talent
  • Messaġġi vidjow personalizzati fuq skala kbira
  • Kontenut edukattiv b'istruturi virtwali
  • Komunikazzjonijiet korporattivi b'spokespersons iġġenerati

Il-Pajsaġġ Kompetittiv

CraftStory ġabret $2 miljun f'finanzjament seed imexxi minn Andrew Filev, fundatur ta' Wrike u Zencoder. Dan huwa modest meta mqabbel mal-biljuni li jiddefnu f'OpenAI u Google, iżda huwa biżżejjed biex jipprova t-teknoloġija.

🎯

Il-Konnessjoni OpenCV

Il-pedigree tat-tim fundatur jimporta hawn. OpenCV tħaddem sistemi ta' viżjoni tal-kompjuter madwar l-industriji. Dawn in-nies jifhmu l-fundamentali tal-ipproċessar viżwali f'livell li l-biċċa l-kbira tal-startups tal-vidjow AI ma jifhmux.

Il-kapaċità test-għal-vidjow qed tiġi żviluppata. Ladarba tinbeda, il-proposta tal-valur issir aktar ċara: iddeskrivi vidjow ta' 5 minuti fit-test, ikseb output koerenti mingħajr id-degradazzjoni tal-kwalità frame-b'frame li tħasseb għodod oħra.

X'Inhu Li Jmiss

Karatteristiċi tar-Roadmap

CraftStory ħabbret diversi kapaċitajiet li ġejjin:

  • Test-għal-vidjow: Iġġenera minn prompts mingħajr vidjow ta' sewqan
  • Kamera li tmexxi: Pan, zoom, u tracking shots
  • Walk-and-talk: Suġġetti li jiċċaqalqu fiż-żona waqt li jitkelmu

L-approċċ tal-bidirectional diffusion mhuwiex sempliċiment xogħol ta' CraftStory. Huwa mudell li timijiet oħra x'aktarx se jadottaw. Ladarba ssolvi l-problema ta' "l-iżbalji jakkumulaw 'il quddiem", ġenerazzjoni itwal issir sfida ta' inġinerija aktar milli barriera fundamentali.

⚠️

Model 2.0 bħalissa huwa ffukat fuq vidjow ċentriku fuq il-bniedem. Għal xeni mingħajr nies, xorta se trid għodod ottimizzati għal ġenerazzjoni ambjentali jew astratta. Dan huwa għodda speċjalista, mhux ġeneralista.

Il-Kwadru Ikbar

Qed naraw il-vidjow AI jgħaddi mill-fażi awkward tat-teenager. Il-mudelli jistgħu jipproduċu clips stupendu ta' 10 sekondi, iżda staqsihom biex iżommu koerenza fuq minuti u jaqgħu. L-approċċ bidirezzjonali ta' CraftStory huwa tweġiba waħda għal dik il-problema.

Il-mistoqsija vera: kemm se jdumu sakemm din it-teknika tiġi adottata mill-players ikbar? OpenAI, Google, u Runway kollha għandhom ir-riżorsi biex jimplimentaw arkitetturi simili. Il-vantaġġ ta' CraftStory huwa li tkun l-ewwel fis-suq b'ġenerazzjoni fit-tul li taħdem.

Għalissa, jekk għandek bżonn ta' kontenut konsistenti tal-vidjow AI ta' diversi minuti b'suġġetti umani, CraftStory għadu kemm sar il-logħba waħda fil-belt. Il-barriera tat-tul għadha mhix miksura, iżda xi ħadd għadu kemm poġġa xaqq serju fiha.

🚀

Ipprova

CraftStory Model 2.0 huwa disponibbli issa. L-istruttura tal-prezzijiet ma ġietx dettaljata pubblikament, allura se jkollok tivverifika s-sit tagħhom għall-offerti attwali. Test-għal-vidjow ġej, li se jagħmel il-pjattaforma aċċessibbli għall-utenti mingħajr kontenut ta' vidjow ta' sewqan eżistenti.

Henry

Henry

Teknoloġist Kreattiv

Teknoloġist kreattiv minn Lausanne jesplora fejn l-AI tiltaqa' mal-arti. Jespermenta b'mudelli ġenerattivi bejn sessjonijiet ta' mużika elettronika.

Għoġbok dan l-artiklu?

Skopri aktar għarfien u żomm ruħek aġġornat bl-aħħar kontenut tagħna.

CraftStory Model 2.0: Kif Bidirectional Diffusion Tiftaħ il-Portijiet għal Vidjows AI ta' 5 Minuti