Πρέπει να είναι άπειρες οι αστυνομικές ταινίες και σειρές που έχουμε δει, όπου ένα θολωμένο πλάνο μιας κάμερας ασφαλείας “καθαρίζεται” ως δια μαγείας αποκαλύπτοντας το πρόσωπο, την πινακίδα ή κάποιο αντικείμενο ενδιαφέροντος.
Στην πραγματικότητα κάτι τέτοιο άνηκε μέχρι πρότινος στη σφαίρα της φαντασίας και του…Hollywood.
Η νέα τεχνητή νοημοσύνη της Google όμως το κατάφερε, προσθέτοντας λεπτομέρειες στην αρχική εικόνα οι οποίες δεν υπήρχαν, πρακτικά μαντεύοντας τι υπάρχει μεταξύ των κενών των pixels. Η τεχνική ονομάζεται φυσική σύνθεση εικόνας και στη συγκεκριμένη περίπτωση υπερ-ανάλυση εικόνας. Η AI ξεκινά με μία μικρή θολή εικόνα 64x64 pixels και καταλήγει σε μία καθαρή εικόνα ανάλυσης 1024x1024.
Πρακτικά η Google χρησιμοποιεί δύο AI εργαλεία. Το πρώτο είναι το SR3, το οποίο προσθέτει θόρυβο σε μία εικόνα και έπειτα αναστρέφει τη διαδικασία για να την καθαρίσει.
Τα diffusion μοντέλα λειτουργούν αλλοιώνοντας τα δεδομένα εκπαίδευσης προσθέτοντας σταδιακά θόρυβο Gaussian, εξαλείφοντας τις λεπτομέρειες στα δεδομένα μέχρι να γίνει όλο θόρυβος και τότε εκπαιδεύεται ένα νευρωνικό δίκτυο για να αναστρέψει τη διαδικασία αλλοίωσης. – Chitwan Saharia, software engineer, Google Research
Το δεύτερο εργαλείο είναι το CDM το οποίο αναβαθμίζει την ποιότητα των εικόνων που προέρχονται από diffusion μοντέλα όπως το SR3. Παίρνει δηλαδή τα βελτιωμένα μοντέλα και δημιουργεί μεγαλύτερης ανάλυσης εικόνες.