- Ένα πείραμα με τεχνητή νοημοσύνη μετατρέπει κλασικές ταινίες από 4:3 σε 16:9, προκαλώντας μεγάλη συζήτηση.
- Η μέθοδος βασίζεται στο outpainting και στο μοντέλο LTX-2.3-22b-IC-LoRA-Outpaint, που λειτούργησε σε ComfyUI με μια RTX 5060 Ti.
- Το αποτέλεσμα δείχνει ότι η AI μπορεί να επεκτείνει το κάδρο, αλλά δεν μπορεί πάντα να αναπαράγει με ακρίβεια την αρχική καλλιτεχνική πρόθεση.
Αυτή η είδηση έχει έντονο αντιπαραθετικό χαρακτήρα, γιατί περιγράφει πως ένας Βραζιλιάνος λάτρης της τεχνητής νοημοσύνης χρησιμοποίησε ένα ανοιχτού κώδικα μοντέλο βίντεο για να επεκτείνει τρεις αθάνατους κλασικούς της παγκόσμιας κινηματογραφίας, που είχαν κυκλοφορήσει αρχικά σε 4:3, σε ένα 16:9 που δημιουργήθηκε από την AI για τα κενά τμήματα.
Ο δημιουργός, Carlos Cardoso, δοκίμασε το LTX-2.3-22b-IC-LoRA-Outpaint, μια ελαφριά ρύθμιση βασισμένη στην έκδοση 22B του μοντέλου LTX-2.3.
Το τεστ έγινε στο ComfyUI, δηλαδή την τοπική εφαρμογή δημιουργίας εικόνων και βίντεο, πάνω σε μια GeForce RTX 5060 Ti με 16 GB μνήμης.
Η υπόθεση, όμως, δεν αφορά μόνο ένα τεχνικό πείραμα. Ανοίγει ξανά μια συζήτηση που αγγίζει τη συντήρηση, την πιστότητα και το κατά πόσο η ψηφιακή επέμβαση μπορεί να θεωρηθεί αποκατάσταση ή, αντίθετα, ανακατασκευή της μνήμης του σινεμά.
Το outpainting επεκτείνει μια εικόνα ή ένα βίντεο έξω από τα αρχικά του όρια και γεμίζει το «κενό» με νέο περιεχόμενο. Δεν ανακτά χαμένα δεδομένα· τα εφευρίσκει.
Πως έγινε το πείραμα
Ο τεχνικός πυρήνας που πρέπει να καταλάβει κανείς είναι το outpainting. Ένα μοντέλο τέτοιου τύπου ξεκινά από μια εικόνα ή ένα βίντεο τοποθετημένο σε έναν μεγαλύτερο καμβά, με κενές περιοχές στα πλάγια ή πάνω και κάτω, και δημιουργεί το περιεχόμενο που λείπει.
Στην περίπτωση του LoRA που χρησιμοποίησε ο Cardoso, οι μαύρες ζώνες λειτουργούν ως θέσεις-κράτησης.
Το μοντέλο τις διαβάζει ως χώρο που πρέπει να γεμίσει και προσπαθεί να επεκτείνει σκηνικά, αντικείμενα και κίνηση με τρόπο που να ταιριάζει τόσο με το κέντρο του πλάνου όσο και με τις περιοχές κοντά στα όρια του frame.
Το LoRA χρησιμεύει ακριβώς για να εξειδικεύει ένα βασικό μοντέλο σε μια πολύ συγκεκριμένη εργασία, χωρίς να χρειάζεται να επανεκπαιδευτούν όλοι οι συντελεστές του.
Αυτό κάνει την προσέγγιση πιο πρακτική, πιο ελαφριά και πολύ πιο προσιτή για όσους θέλουν να πειραματιστούν τοπικά.
| στοιχείο | περιγραφή | ρόλος στο πείραμα |
|---|---|---|
| LTX-2.3-22b-IC-LoRA-Outpaint | εξειδικευμένο μοντέλο βίντεο με LoRA | γεμίζει τα κενά του κάδρου με νέα εικόνα |
| ComfyUI | τοπικό περιβάλλον παραγωγής εικόνων και βίντεο | εκτελεί τη ροή εργασίας σε χρήστη-ελεγχόμενο σύστημα |
| RTX 5060 Ti 16 GB | καταναλωτική GPU με 16 GB VRAM | δείχνει ότι η τεχνολογία είναι πλέον πιο προσιτή |
Πίσω από το βασικό μοντέλο LTX βρίσκεται η Lightricks, η ισραηλινή εταιρεία που είναι γνωστή για εφαρμογές όπως τα Facetune, Videoleap και Photoleap.
Τους τελευταίους μήνες η εταιρεία προωθεί το LTX ως πλατφόρμα για video generation με ανοιχτά βάρη, τοπική εκτέλεση και πρόσβαση μέσω API.
Υπάρχει επίσης δωρεάν desktop εφαρμογή, αλλά αν τη κατεβάσεις, ζητά ένα κλειδί API, το οποίο συνοδεύεται από τιμές που δίνονται μόνο αφού περάσεις από ένα είδος «ερωτηματολογίου-ανάκρισης» για το ποιος είσαι και τι κάνεις στη ζωή σου.
Το LTX-2.3, που ανακοινώθηκε στις αρχές Μαρτίου, είναι η νεότερη έκδοση του μοντέλου και φέρνει ανανεωμένη αρχιτεκτονική για καλύτερη λεπτομέρεια, καλύτερη κατανόηση του prompt, πιο αξιόπιστο image-to-video και βελτιωμένο audio.
Αν δοκιμάζεις outpainting σε αρχειακό υλικό, ξεκίνα πάντα με μικρά τμήματα και σαφείς μάσκες. Έτσι μειώνεις τις παραμορφώσεις σε πρόσωπα, αντικείμενα και γραμμές του κάδρου.
Τι έδειξαν τα τρία παραδείγματα
Ο Cardoso πήρε αυτόν τον κινητήρα και τον εφάρμοσε σε ένα πεδίο που προκαλεί αμέσως συζήτηση: την ιδέα να ανοίξεις το κάδρο ιστορικών ταινιών, όχι απλώς για να τις αποκαταστήσεις, αλλά για να εφεύρεις ό,τι δεν προβλήθηκε ποτέ στην οθόνη.
Στα τρία παραδείγματα που επέλεξε, το Τραγουδώντας στη βροχή, το Καζαμπλάνκα και Ο μεγάλος δικτάτορας, το αποτέλεσμα δείχνει καθαρά τόσο τη γοητεία όσο και το όριο αυτής της διαδικασίας.
Η πλευρική επέκταση στέκεται αρκετά καλά όταν χρειάζεται να προσθέσει μέρη σκηνικού ή κομπάρσους στο βάθος.
Μόλις όμως το μοντέλο πρέπει να κρατήσει αναγνωρίσιμες μορφές ή διάσημα πρόσωπα, η ψευδαίσθηση αρχίζει να ραγίζει.
| ταινία | τι λειτούργησε | τι αλλοιώθηκε | συνολική εντύπωση |
|---|---|---|---|
| Τραγουδώντας στη βροχή | σκηνικά και βάθος πλάνου | η φυτική μάζα αριστερά επιμηκύνθηκε αφύσικα | εντυπωσιακό, αλλά όχι πάντα πιστό |
| Καζαμπλάνκα | γενική ατμόσφαιρα και πλαίσιο | η μορφή του Paul Henreid άλλαξε ελαφρά σε μακρινά πλάνα | λειτουργικό, με ορατές αποκλίσεις |
| Ο μεγάλος δικτάτορας | επέκταση σκηνής και περιβάλλοντος | η εικόνα του Charlie Chaplin αλλοιώθηκε σε απομακρυσμένα καρέ | πειστικό σε μέρη του, εύθραυστο σε άλλα |
Στο μουσικό νούμερο του Τραγουδώντας στη βροχή, για παράδειγμα, το φυτό στην αριστερή πλευρά της σκηνής προεκτείνεται πέρα από το αρχικό όριο, αλλά χάνει τη συμπαγή μορφή που είχε στην ταινία και απλώνεται υπερβολικά.
Στην Καζαμπλάνκα, η φυσιογνωμία του Paul Henreid αλλάζει ελαφρώς στα καρέ όπου το πρόσωπο είναι πιο μακρινό.
Το ίδιο συμβαίνει και με τον Charlie Chaplin στον Μεγάλο δικτάτορα, κυρίως όταν η κάμερα απομακρύνεται στη σκηνή με τη σφαίρα.
Το outpainting δεν «ξέρει» τι βρισκόταν έξω από το αρχικό κάδρο. Μπορεί να πλάσει κάτι πειστικό, αλλά όχι απαραίτητα ιστορικά ή καλλιτεχνικά σωστό.
Πού αρχίζει το πρόβλημα
Το πρόβλημα είναι το συνηθισμένο της γενετικής AI. Ένα σύστημα outpaint δεν ανακτά πληροφορίες που υπήρχαν έξω από το κάδρο του φιλμ. Τις εφευρίσκει.
Μπορεί να το κάνει με αρκετή συνέπεια ως προς το φως, την κίνηση και τη γενική γεωμετρία, όμως το αποτέλεσμα παραμένει μια πιθανή ανακατασκευή, όχι μια φιλολογικά ουδέτερη επέκταση του αρχικού έργου.
Θα μπορούσε να υπάρξει καλύτερη ενσωμάτωση αν ένα τέτοιο μοντέλο είχε τη δυνατότητα να αναλύει και τα «μελλοντικά» αρχικά frames, δηλαδή αυτά που θα έδειχναν τα στοιχεία που το outpaint δημιουργεί σε ένα καρέ όπου εκείνα δεν είναι ορατά.
Όπως συνέβη με το φυτό στο αριστούργημα με τον Gene Kelly.
Αν το μοντέλο μπορούσε να δει το πλήρες σύνολο της σκηνής από το πρωτότυπο φιλμ, η επέκταση θα είχε περισσότερες πιθανότητες να μείνει πιστή στο φυτό που κινηματογραφήθηκε το 1952.
Πώς θα μπορούσε να βελτιωθεί
Η πιο ώριμη προσέγγιση δεν είναι να εμπιστευτούμε τυφλά την AI, αλλά να τη βάλουμε μέσα σε ένα ελεγχόμενο πλαίσιο.
Αυτό σημαίνει αναφορά στις πρωτότυπες εκδοχές, ανθρώπινη επιμέλεια και ξεκάθαρη σήμανση για το ποια τμήματα είναι αυθεντικά και ποια δημιουργήθηκαν αλγοριθμικά.
Ειδικά σε ταινίες με ισχυρή εικαστική ταυτότητα, το 16:9 δεν πρέπει να θεωρείται αυτομάτως βελτίωση.
Συχνά αλλάζει τη σχέση του θεατή με το κάδρο, μετατοπίζει την προσοχή και μπορεί να επηρεάσει τη δραματουργία της σύνθεσης.
| προσέγγιση | πλεονέκτημα | ρίσκο |
|---|---|---|
| κλασικό pillarbox | διατηρεί το αρχικό κάδρο | αφήνει μαύρες μπάρες στις πλευρές |
| χειροκίνητο remaster | υψηλός έλεγχος στην εικόνα | χρειάζεται πολύ χρόνο και εξειδίκευση |
| ai outpainting | ταχεία επέκταση του κάδρου | μπορεί να αλλοιώσει πρόσωπα και λεπτομέρειες |
Η πιο ενδιαφέρουσα πλευρά, τουλάχιστον από τεχνική άποψη, είναι ότι το φράγμα εισόδου έχει πέσει πολύ χαμηλότερα. Από το screenshot που μοιράστηκε ο Cardoso φαίνεται ότι το workflow τρέχει στο ComfyUI σε μια καταναλωτική GPU με 16 GB VRAM, ενώ το LoRA είναι δημοσιευμένο ανοιχτά στο Hugging Face.
Με μια σύντομη έρευνα, σε μια RTX PRO 6000 με 96 GB, το μοντέλο dev LTX-2.3 χωρίς LoRA χρειάζεται περίπου 115 δευτερόλεπτα για να δημιουργήσει ένα νέο βίντεο σε 1366×768 και διάρκεια 5 δευτερολέπτων.
Του ζητήσαμε από τον Cardoso να μας πει πόσο χρόνο πήραν τα κινηματογραφικά του τεστ, αλλά μέχρι στιγμής δεν έχει απαντήσει.
Σε μια RTX PRO 6000 96GB, η δημιουργία ενός βίντεο 5 δευτερολέπτων σε 1366×768 χρειάζεται περίπου 115 δευτερόλεπτα. Αυτό δείχνει ότι η διαδικασία γίνεται ταχύτερη, αλλά παραμένει υπολογιστικά απαιτητική.
Τι σημαίνει για αρχειονόμους και δημιουργούς
Το πείραμα αυτό δεν αφορά μόνο τους φίλους της AI. Αφορά και όσους δουλεύουν με αρχεία ταινιών, αποκαταστάσεις, μουσεία και εταιρείες που θέλουν να επανασυστήσουν κλασικό περιεχόμενο σε κοινό που έχει συνηθίσει στις οθόνες 16:9.
Η πρώτη χρήσιμη αρχή είναι απλή: το πρωτότυπο κάδρο δεν πρέπει να χάνεται ποτέ.
Ακόμη κι αν δημιουργηθεί μια επεκταμένη εκδοχή για σύγχρονη προβολή, η αρχική μορφή χρειάζεται να παραμένει διαθέσιμη, σωστά επισημασμένη και πλήρως διατηρημένη.
Η δεύτερη αρχή είναι η τεκμηρίωση. Κάθε παρέμβαση από AI θα πρέπει να καταγράφεται με το μοντέλο, την έκδοση, τις μάσκες, τα prompts και τις ρυθμίσεις του workflow, ώστε η διαδικασία να είναι αναπαραγώγιμη και να μπορεί να ελεγχθεί στο μέλλον.
Η τρίτη αρχή είναι ο ανθρώπινος έλεγχος. Ένας συντηρητής εικόνας, ένας αρχειονόμος ή ένας μοντέρ οφείλει να εξετάζει τα αποτελέσματα καρέ-καρέ, ειδικά όταν το μοντέλο πλησιάζει πρόσωπα, χέρια, αντικείμενα αναφοράς και λεπτές κινήσεις κάμερας.
Η τέταρτη αρχή αφορά το κοινό. Όταν μια ταινία παρουσιάζεται σε 16:9 μέσω AI, ο θεατής πρέπει να γνωρίζει ότι βλέπει μια επεκταμένη εκδοχή, όχι το αυθεντικό φιλμ. Αυτή η ειλικρίνεια προστατεύει το έργο και ταυτόχρονα προστατεύει και την εμπιστοσύνη του κοινού.
Στην πράξη, η καλύτερη χρήση της τεχνολογίας είναι ίσως η πιο ταπεινή. Να βοηθά στην πειραματική προβολή, στην εναλλακτική παρουσίαση ή στην εκπαιδευτική αξιοποίηση, χωρίς να πλασάρεται ως η «σωστή» μορφή ενός κλασικού έργου που σχεδιάστηκε με άλλο οπτικό λεξιλόγιο.
Πρακτικές κατευθύνσεις για σωστή χρήση
Αν κάποιος θέλει να εφαρμόσει παρόμοια τεχνολογία με υπευθυνότητα, το πρώτο βήμα είναι να δουλεύει σε αντίγραφα και ποτέ στο κύριο αρχείο αποκατάστασης. Έτσι, όποια αστοχία κι αν προκύψει, το αυθεντικό υλικό παραμένει ασφαλές και ανέπαφο.
Το δεύτερο βήμα είναι να γίνεται σύγκριση side-by-side ανάμεσα στην πρωτότυπη και στην επεκταμένη εκδοχή.
Η οπτική σύγκριση αποκαλύπτει γρήγορα πού το μοντέλο κρατά σωστά την προοπτική και πού αρχίζει να εφευρίσκει υπερβολικά.
Το τρίτο βήμα είναι να χρησιμοποιούνται χειροκίνητα φιλτραρισμένες μάσκες. Όσο πιο στοχευμένο είναι το σημείο που επεμβαίνει το μοντέλο, τόσο μικρότερη είναι η πιθανότητα να παραμορφωθούν πρόσωπα, κτίρια ή αντικείμενα με ιστορική σημασία.
- Κράτα το πρωτότυπο 4:3 ως αναφορά και όχι ως πρόβλημα προς διόρθωση.
- Χώρισε το αρχείο εργασίας από το αρχείο τελικής διατήρησης.
- Κατέγραψε prompts, μοντέλα, εκδόσεις και παραμέτρους για πλήρη ιχνηλασιμότητα.
- Έλεγξε πρόσωπα και λεπτομέρειες σε κάθε σκηνή που αλλάζει έντονα σύνθεση.
- Σήμανε καθαρά ότι πρόκειται για AI-επεκταμένη εκδοχή και όχι για αυθεντική αποκατάσταση.
Η τεχνητή νοημοσύνη μπορεί να φτιάξει μια προσεγγιστική εικόνα, αλλά όχι να αντικαταστήσει τη μνήμη της κινηματογραφικής γλώσσας. Όσο πιο κλασικό είναι το έργο, τόσο πιο προσεκτική πρέπει να είναι η επέμβαση.
Τι κρατάμε από το πείραμα
Το πείραμα του Carlos Cardoso δείχνει κάτι απλό αλλά σημαντικό: η τεχνητή νοημοσύνη μπορεί πλέον να αλλάζει το κάδρο παλιών ταινιών με τρόπο εντυπωσιακό, γρήγορο και τεχνικά προσβάσιμο σε πολύ περισσότερους χρήστες από ό,τι πριν.
Ταυτόχρονα, όμως, φανερώνει και το όριο αυτής της δυνατότητας. Όταν η AI καλείται να συμπληρώσει ό,τι δεν υπάρχει, δεν αποκαθιστά απαραίτητα την αλήθεια του έργου· δημιουργεί μια νέα εκδοχή του, με όλες τις αρετές και τις αδυναμίες που αυτό συνεπάγεται.
Γι’ αυτό και η απάντηση στο ερώτημα του τίτλου ίσως δεν είναι ούτε «ιεροσυλία» ούτε «θαύμα». Είναι, μάλλον, μια νέα εργαλειοθήκη που απαιτεί κρίση, διαφάνεια και σεβασμό προς το πρωτότυπο, αν θέλουμε να έχει πραγματική αξία για το μέλλον του σινεμά.
