CraftStory Model 2.0: Πώς η αμφίδρομη διάχυση ξεκλειδώνει 5λεπτα βίντεο AI
Ενώ το Sora 2 σταματά στα 25 δευτερόλεπτα, το CraftStory μόλις παρουσίασε ένα σύστημα που δημιουργεί συνεκτικά βίντεο 5 λεπτών. Το μυστικό; Παράλληλη εκτέλεση πολλαπλών μηχανών διάχυσης με αμφίδρομους περιορισμούς.

Ο ελέφαντας στο δωμάτιο του AI βίντεο; Η διάρκεια. Το Sora 2 σταματά στα 25 δευτερόλεπτα. Τα Runway και Pika κυμαίνονται γύρω στα 10 δευτερόλεπτα. Το CraftStory μόλις μπήκε και είπε: συνεκτικά βίντεο 5 λεπτών. Η τεχνική πίσω από αυτό είναι πραγματικά έξυπνη.
Το πρόβλημα διάρκειας που κανείς δεν έλυσε
Το θέμα με τα τρέχοντα μοντέλα AI βίντεο είναι αυτό: είναι σπρίντερ, όχι μαραθωνοδρόμοι. Δημιουργήστε οκτώ δευτερόλεπτα υπέροχου υλικού, μετά προσπαθήστε να το επεκτείνετε και παίρνετε το οπτικό ισοδύναμο του τηλεφωνικού παιχνιδιού. Τα λάθη πολλαπλασιάζονται. Οι χαρακτήρες μεταβάλλονται. Όλο το σύστημα καταρρέει.
Η παραδοσιακή προσέγγιση λειτουργεί έτσι: δημιουργήστε ένα κομμάτι, χρησιμοποιήστε τα τελευταία καρέ ως πλαίσιο για το επόμενο κομμάτι, συρράψτε τα μεταξύ τους. Το πρόβλημα; Τα λάθη συσσωρεύονται. Μια ελαφρώς περίεργη θέση χεριού στο κομμάτι ένα γίνεται μια παράξενη κηλίδα στο κομμάτι πέντε.
Το CraftStory ιδρύθηκε από την ομάδα πίσω από το OpenCV, τη βιβλιοθήκη υπολογιστικής όρασης που τρέχει σχεδόν σε κάθε σύστημα όρασης που χρησιμοποιήσατε ποτέ. Ο CEO τους Victor Erukhimov συνίδρυσε την Itseez, μια startup υπολογιστικής όρασης που εξαγόρασε η Intel το 2016.
Αμφίδρομη διάχυση: η αρχιτεκτονική καινοτομία
Η λύση του CraftStory αναποδογυρίζει την τυπική προσέγγιση. Αντί να δημιουργεί διαδοχικά ελπίζοντας για το καλύτερο, εκτελεί πολλαπλές μικρότερες μηχανές διάχυσης ταυτόχρονα σε ολόκληρη τη χρονική γραμμή του βίντεο.
Αμφίδρομοι περιορισμοί
Η κεντρική διαίσθηση: "Το μεταγενέστερο τμήμα του βίντεο μπορεί να επηρεάσει το προγενέστερο τμήμα του βίντεο επίσης," εξηγεί ο Erukhimov. "Και αυτό είναι αρκετά σημαντικό, γιατί αν το κάνετε ένα προς ένα, τότε ένα λάθος που εμφανίζεται στο πρώτο μέρος διαδίδεται στο δεύτερο, και μετά συσσωρεύεται."
Σκεφτείτε το σαν να γράφετε ένα μυθιστόρημα έναντι του να κάνετε μια περίληψη. Η διαδοχική δημιουργία είναι σαν να γράφετε σελίδα ένα, μετά σελίδα δύο, μετά σελίδα τρία, χωρίς δυνατότητα να γυρίσετε πίσω. Η προσέγγιση του CraftStory είναι σαν να έχετε μια περίληψη όπου το κεφάλαιο δέκα μπορεί να πληροφορήσει τι πρέπει να συμβεί στο κεφάλαιο δύο.
Παραδοσιακή διαδοχική
- Δημιουργία τμήματος A
- Χρήση τέλους του A για έναρξη του B
- Χρήση τέλους του B για έναρξη του C
- Ελπίδα ότι τίποτα δεν πολλαπλασιάζεται
- Σταυρωμένα δάχτυλα στα σημεία σύνδεσης
Αμφίδρομη παράλληλη
- Επεξεργασία όλων των τμημάτων ταυτόχρονα
- Κάθε τμήμα περιορίζει τους γείτονές του
- Τα πρώιμα τμήματα επηρεάζονται από τα μεταγενέστερα
- Τα λάθη αυτοδιορθώνονται κατά μήκος της χρονικής γραμμής
- Εγγενής συνοχή, χωρίς ραφές
Πώς λειτουργεί πραγματικά το Model 2.0
Προς το παρόν, το CraftStory Model 2.0 είναι ένα σύστημα βίντεο σε βίντεο. Παρέχετε μια εικόνα και ένα οδηγό βίντεο, και δημιουργεί ένα αποτέλεσμα όπου το πρόσωπο στην εικόνα σας εκτελεί τις κινήσεις από το οδηγό βίντεο.
- ✓Ανεβάστε μια εικόνα αναφοράς (το θέμα σας)
- ✓Παρέχετε ένα οδηγό βίντεο (το πρότυπο κίνησης)
- ✓Το μοντέλο συνθέτει την παράσταση
- ○Το κείμενο σε βίντεο έρχεται σε μελλοντική ενημέρωση
Το σύστημα συγχρονισμού χειλιών ξεχωρίζει. Τροφοδοτήστε το με ένα σενάριο ή ηχητικό κομμάτι, και δημιουργεί αντίστοιχες κινήσεις στόματος. Ένας ξεχωριστός αλγόριθμος ευθυγράμμισης χειρονομιών συγχρονίζει τη γλώσσα του σώματος με τον ρυθμό ομιλίας και τον συναισθηματικό τόνο. Το αποτέλεσμα; Βίντεο όπου το πρόσωπο πραγματικά φαίνεται να λέει αυτές τις λέξεις, όχι απλώς να κινεί τη σιαγόνα.
Το CraftStory εκπαιδεύτηκε σε ιδιόκτητο υλικό υψηλής συχνότητας καρέ που γυρίστηκε ειδικά για το μοντέλο. Τα τυπικά κλιπ YouTube 30fps έχουν πολύ θάμπωμα κίνησης για λεπτές λεπτομέρειες όπως τα δάχτυλα. Προσέλαβαν στούντιο για να καταγράψουν ηθοποιούς σε υψηλότερες συχνότητες καρέ για καθαρότερα δεδομένα εκπαίδευσης.
Το αποτέλεσμα: τι παίρνετε πραγματικά
- Έως 5 λεπτά συνεχές βίντεο
- Εγγενής ανάλυση 480p και 720p
- 720p με δυνατότητα αναβάθμισης σε 1080p
- Μορφές οριζόντια και κάθετα
- Συγχρονισμένες κινήσεις χειλιών
- Φυσική ευθυγράμμιση χειρονομιών
- Μόνο βίντεο σε βίντεο (όχι ακόμα κείμενο σε βίντεο)
- Απαιτεί είσοδο οδηγού βίντεο
- Περίπου 15 λεπτά για 30 δευτερόλεπτα σε χαμηλή ανάλυση
- Προς το παρόν στατική κάμερα (κινούμενη κάμερα έρχεται)
Η δημιουργία διαρκεί περίπου 15 λεπτά για ένα κλιπ 30 δευτερολέπτων χαμηλής ανάλυσης. Αυτό είναι πιο αργό από την σχεδόν άμεση δημιουργία που προσφέρουν ορισμένα μοντέλα, αλλά η ανταλλαγή είναι συνεκτικό μακρύ αποτέλεσμα αντί για όμορφα θραύσματα που δεν συνδέονται.
Γιατί αυτό είναι σημαντικό για δημιουργούς
Το φράγμα των 5 λεπτών δεν είναι αυθαίρετο. Είναι το κατώφλι όπου το AI βίντεο γίνεται χρήσιμο για πραγματικό περιεχόμενο.
Κοινωνικά κλιπ
Καλό για αποσπάσματα TikTok και διαφημίσεις, αλλά περιορισμένη αφήγηση
Σύντομες επεξηγήσεις
Αρκετό για γρήγορη επίδειξη προϊόντος ή εικονογράφηση έννοιας
Πραγματικό περιεχόμενο
Οδηγοί YouTube, εκπαιδευτικά βίντεο, παρουσιάσεις, αφηγηματικό περιεχόμενο
Μεγάλη μορφή
Πλήρη επεισόδια, ντοκιμαντέρ, εκπαιδευτικά μαθήματα
Το περισσότερο επαγγελματικό περιεχόμενο βίντεο βρίσκεται στο εύρος των 2-5 λεπτών. Επιδείξεις προϊόντων. Εκπαιδευτικές ενότητες. Επεξηγηματικά βίντεο. Εσωτερικές επικοινωνίες. Εδώ το CraftStory γίνεται σχετικό για επαγγελματικές χρήσεις.
Περιπτώσεις χρήσης που ανοίγουν:
- Οδηγοί προϊόντων με συνεπή παρουσιαστή σε όλη τη διάρκεια
- Εκπαιδευτικά βίντεο που δεν απαιτούν προγραμματισμό ταλέντων
- Εξατομικευμένα μηνύματα βίντεο σε κλίμακα
- Εκπαιδευτικό περιεχόμενο με εικονικούς εκπαιδευτές
- Εταιρική επικοινωνία με δημιουργημένους εκπροσώπους
Το ανταγωνιστικό τοπίο
Το CraftStory συγκέντρωσε 2 εκατομμύρια δολάρια σε αρχική χρηματοδότηση με επικεφαλής τον Andrew Filev, ιδρυτή των Wrike και Zencoder. Αυτό είναι μέτριο σε σύγκριση με τα δισεκατομμύρια που ρέουν στην OpenAI και την Google, αλλά είναι αρκετό για να αποδειχθεί η τεχνολογία.
Η σύνδεση με OpenCV
Το ιστορικό της ομάδας ιδρυτών έχει σημασία εδώ. Το OpenCV τροφοδοτεί συστήματα υπολογιστικής όρασης σε διάφορους κλάδους. Αυτοί οι άνθρωποι κατανοούν τα θεμέλια της οπτικής επεξεργασίας σε επίπεδο που οι περισσότερες startups AI βίντεο δεν κατανοούν.
Η δυνατότητα κειμένου σε βίντεο βρίσκεται υπό ανάπτυξη. Μόλις κυκλοφορήσει, η πρόταση αξίας γίνεται σαφέστερη: περιγράψτε ένα βίντεο 5 λεπτών σε κείμενο, λάβετε συνεκτικό αποτέλεσμα χωρίς την υποβάθμιση ποιότητας καρέ προς καρέ που ταλαιπωρεί άλλα εργαλεία.
Τι έρχεται στη συνέχεια
Χαρακτηριστικά χάρτη πορείας▼
Το CraftStory έχει ανακοινώσει αρκετές επερχόμενες δυνατότητες:
- Κείμενο σε βίντεο: Δημιουργία από προτροπές χωρίς οδηγό βίντεο
- Κινούμενη κάμερα: Πανοραμικά, ζουμ και λήψεις παρακολούθησης
- Περπάτημα και ομιλία: Υποκείμενα που κινούνται στον χώρο ενώ μιλούν
Η προσέγγιση αμφίδρομης διάχυσης δεν είναι απλώς ένα κόλπο του CraftStory. Είναι ένα μοτίβο που πιθανώς θα υιοθετήσουν και άλλες ομάδες. Μόλις λύσετε το πρόβλημα "τα λάθη συσσωρεύονται προς τα εμπρός", η μακρύτερη δημιουργία γίνεται μια μηχανική πρόκληση παρά θεμελιώδες εμπόδιο.
Το Model 2.0 επικεντρώνεται επί του παρόντος σε βίντεο με επίκεντρο τον άνθρωπο. Για σκηνές χωρίς ανθρώπους, θα θέλετε ακόμα εργαλεία βελτιστοποιημένα για περιβαλλοντική ή αφηρημένη δημιουργία. Αυτό είναι ένα εξειδικευμένο εργαλείο, όχι γενικού σκοπού.
Η μεγαλύτερη εικόνα
Παρακολουθούμε το AI βίντεο να περνά από την άβολη εφηβική του φάση. Τα μοντέλα μπορούν να παράγουν εκπληκτικά κλιπ 10 δευτερολέπτων, αλλά ζητήστε τους να διατηρήσουν συνοχή σε λεπτά και καταρρέουν. Η αμφίδρομη προσέγγιση του CraftStory είναι μια απάντηση σε αυτό το πρόβλημα.
Η πραγματική ερώτηση: πόσο θα διαρκέσει μέχρι αυτή η τεχνική να υιοθετηθεί από τους μεγαλύτερους παίκτες; Η OpenAI, η Google και το Runway έχουν όλοι τους πόρους για να υλοποιήσουν παρόμοιες αρχιτεκτονικές. Το πλεονέκτημα του CraftStory είναι να είναι πρώτο στην αγορά με λειτουργική δημιουργία μεγάλης μορφής.
Προς το παρόν, αν χρειάζεστε συνεπές περιεχόμενο AI βίντεο πολλών λεπτών με ανθρώπινα θέματα, το CraftStory μόλις έγινε η μόνη επιλογή. Το φράγμα διάρκειας δεν έχει σπάσει ακόμα, αλλά κάποιος μόλις έβαλε μια σοβαρή ρωγμή σε αυτό.
Δοκιμάστε το
Το CraftStory Model 2.0 είναι διαθέσιμο τώρα. Η δομή τιμολόγησης δεν έχει λεπτομερώς δημοσιοποιηθεί, οπότε θα χρειαστεί να ελέγξετε τον ιστότοπό τους για τρέχουσες προσφορές. Το κείμενο σε βίντεο έρχεται, γεγονός που θα κάνει την πλατφόρμα προσβάσιμη σε χρήστες χωρίς υπάρχον περιεχόμενο οδηγού βίντεο.

Henry
Δημιουργικός ΤεχνολόγοςΔημιουργικός τεχνολόγος από τη Λωζάνη που εξερευνά το σημείο συνάντησης της AI με την τέχνη. Πειραματίζεται με generative μοντέλα ανάμεσα σε συνεδρίες ηλεκτρονικής μουσικής.