Το μοντέλο AI νέας γενιάς βίντεο της Google Lumiere χρησιμοποιεί ένα νέο μοντέλο διάχυσης που ονομάζεται Space-Time-U-Net (STUNet). Ξέρει πού βρίσκονται τα πράγματα στο βίντεο (χωρική) και πώς κινούνται και αλλάζουν ταυτόχρονα (χρόνος). ars technica Χρησιμοποιώντας αυτήν τη μέθοδο, η Lumiere αναφέρει ότι μπορεί να δημιουργήσει βίντεο σε μία διαδικασία, αντί να συγκεντρώνει μικρά ακίνητα καρέ.
Το Lumiere ξεκινά δημιουργώντας ένα πλαίσιο βάσης από μια προτροπή. Στη συνέχεια, χρησιμοποιώντας το πλαίσιο STUNet, αρχίζουμε να υπολογίζουμε κατά προσέγγιση πού θα κινηθούν τα αντικείμενα μέσα σε αυτό το πλαίσιο, δημιουργώντας περισσότερα πλαίσια που ρέουν το ένα μέσα στο άλλο για να δημιουργήσουν την εμφάνιση απρόσκοπτης κίνησης. Επιπλέον, το Lumiere δημιουργεί 80 καρέ σε σύγκριση με 25 καρέ για σταθερή διάχυση βίντεο.
Ομολογουμένως, είμαι περισσότερο δημοσιογράφος κειμένου παρά άτομο βίντεο, αλλά ο κύλινδρος που δημοσίευσε η Google με την επιστημονική της εργασία πριν από τη δημοσίευση δείχνει πώς η δημιουργία βίντεο και τα εργαλεία επεξεργασίας βίντεο με τεχνητή νοημοσύνη έχουν μετακινηθεί από την παράξενη κοιλάδα στην σχεδόν πραγματικότητα σε λίγα μόνο χρόνια.Δείχνει ότι έχει γίνει. Ετος. Επίσης, καθιερώνει την τεχνολογία της Google σε έδαφος που ήδη καταλαμβάνεται από ανταγωνιστές όπως το Runway, το Stable Video Diffusion και το Meta’s Emu. Η Runway, μια από τις πρώτες πλατφόρμες μετατροπής κειμένου σε βίντεο στη μαζική αγορά, άρχισε να προσφέρει βίντεο με πιο ρεαλιστική εμφάνιση με την κυκλοφορία του Runway Gen-2 τον περασμένο Μάρτιο. Είναι δύσκολο να εκφράσεις την κίνηση και σε βίντεο πασαρέλας.
Η Google είχε την καλοσύνη να δημοσιεύσει το κλιπ και την προτροπή στον ιστότοπό της στο Lumiere, ώστε να μπορώ να δημοσιεύσω το ίδιο μήνυμα στο Runway για σύγκριση. Τα αποτελέσματα είναι τα εξής.
Ναι, υπάρχει μια τεχνητή πινελιά σε μερικά από τα κλιπ που παρουσιάζονται, ειδικά αν κοιτάξετε προσεκτικά τις υφές του δέρματος ή αν οι σκηνές είναι πιο ατμοσφαιρικές. Αλλά κοίτα αυτή τη χελώνα! Στην πραγματικότητα κινείται όπως μια χελώνα κάτω από το νερό. Μοιάζει με αληθινή χελώνα! Έστειλα ένα εισαγωγικό βίντεο στο Lumiere σε έναν φίλο που είναι επαγγελματίας πρόγραμμα επεξεργασίας βίντεο. Ενώ σημείωσε ότι «προφανώς δεν είναι εντελώς πραγματικό», σκέφτηκα ότι ήταν εντυπωσιακό ότι αν δεν της έλεγα ότι ήταν AI, θα νόμιζε ότι ήταν CGI. (Είπε επίσης, “Θα μου κοστίσει τη δουλειά μου, σωστά;”)
Ενώ άλλα μοντέλα συρράπτουν βίντεο από δημιουργημένα καρέ-κλειδιά όπου έχει ήδη συμβεί κίνηση (σκεφτείτε μια εικόνα flipbook), με το STUNet, το Lumiere συρράπτει ένα βίντεο από δημιουργημένα καρέ-κλειδιά όπου έχει ήδη συμβεί κίνηση (σκεφτείτε μια εικόνα flipbook), αλλά με το STUNet. Lumiere Μπορείτε να εστιάσετε στην ίδια την κίνηση με βάση το πού βρίσκεται το περιεχόμενο.
Η Google δεν είναι μεγάλος παίκτης στην κατηγορία κειμένου σε βίντεο, αλλά σταδιακά κυκλοφορεί πιο προηγμένα μοντέλα τεχνητής νοημοσύνης και κλίνει προς μια πιο πολυτροπική εστίαση. Το γλωσσικό μοντέλο μεγάλης κλίμακας του Gemini θα φέρει τελικά τη δημιουργία εικόνων στον Bard. Αν και το Lumiere δεν είναι ακόμη διαθέσιμο για δοκιμή, καταδεικνύει την ικανότητα της Google να αναπτύξει μια πλατφόρμα βίντεο τεχνητής νοημοσύνης που είναι εφάμιλλη και ίσως λίγο καλύτερη από τις κοινώς διαθέσιμες γεννήτριες βίντεο τεχνητής νοημοσύνης όπως οι Runway και Pika. Υπενθυμίζουμε ότι εδώ η Google ανέπτυξε βίντεο AI πριν από δύο χρόνια.
Εκτός από τη δημιουργία κειμένου σε βίντεο, το Lumiere προσφέρει επίσης δημιουργία εικόνας σε βίντεο, στυλιζαρισμένη γενιά που επιτρέπει στους χρήστες να δημιουργούν βίντεο σε συγκεκριμένο στυλ, κινηματογραφικές φωτογραφίες που κινούν μόνο ένα μέρος ενός βίντεο και γενιά από περιοχή σε βίντεο Επισκευές κάλυψης είναι επίσης δυνατές. Αλλαγή χρωμάτων και μοτίβων βίντεο.
Ωστόσο, το έγγραφο Lumiere της Google σημειώνει ότι “η τεχνολογία μας κινδυνεύει από κατάχρηση για τη δημιουργία ψευδούς ή επιβλαβούς περιεχομένου και για να διασφαλίσουμε ασφαλές και δίκαιο περιεχόμενο, πρέπει να ανιχνεύσουμε περιπτώσεις μεροληψίας και κακόβουλης χρήσης. Πιστεύουμε ότι είναι σημαντικό να αναπτύξουμε και να εφαρμόσουμε εργαλεία προς την χρήση. «Οι συντάκτες της εργασίας δεν εξηγούν πώς μπορεί να επιτευχθεί αυτό.