How We Teach Computers to Understand Pictures - Fei fei li - Ted talks

Μετάφραση: Christos Christodoulopoulos Επιμέλεια: Mary Keramida Θέλω να σας δείξω κάτι. (Βίντεο) Κορίτσι: ΟΚ, μια γάτα που κάθεται στο κρεβάτι. Το αγόρι χαϊδεύει τον ελέφαντα. Οι άνθρωποι ανεβαίνουν στο αεροπλάνο. Είναι ένα μεγάλο αεροπλάνο. Φέι Φέι Λι: Αυτό είναι ένα τρίχρονο κορίτσι που περιγράφει τι βλέπει σε μια σειρά από φωτογραφίες. Μπορεί να έχει να μάθει πολλά ακόμα για τον κόσμο, αλλά είναι ήδη ειδική σε μια πολύ σημαντική εργασία: να καταλαβαίνει τι βλέπει. Η κοινωνία μας τεχνολογικά είναι πιο προηγμένη από ποτέ. Στέλνουμε ανθρώπους στο φεγγάρι, έχουμε τηλέφωνα που μας μιλάνε ή ρυθμίζουμε ραδιοφωνικούς σταθμούς να παίζουν μόνο τη μουσική που μας αρέσει. Κι όμως, οι πιο προηγμένες μηχανές και υπολογιστές μας δυσκολεύονται ακόμα σε αυτή την εργασία. Έτσι λοιπόν, είμαι εδώ σήμερα για να σας δώσω μια αναφορά προόδου σχετικά με τις πρόσφατες εξελίξεις στον τομέα της μηχανικής όρασης, μια από τις πιο σημαντικές και πιθανότατα επαναστατικές τεχνολογίες της πληροφορικής. Ναι, έχουμε πρωτότυπα αυτοκίνητα που οδηγούν αυτόνομα, αλλά χωρίς «έξυπνη» όραση δεν μπορούν να καταλάβουν τη διαφορά μεταξύ μιας τσαλακωμένης σακούλας στο δρόμο, που μπορούν να «πατήσουν», και μιας πέτρας με το ίδιο μέγεθος, που πρέπει να αποφύγουν. Έχουμε εκπληκτικές κάμερες με ανάλυση μεγαπίξελ, αλλά δεν έχουμε δώσει όραση στους τυφλούς. Τηλεκατευθυνόμενα αεροσκάφη μπορούν να πετάξουν πάνω από τεράστια εδάφη αλλά δεν έχουν αρκετή τεχνολογία όρασης για να μας βοηθήσουν να παρακολουθήσουμε τις αλλαγές στα τροπικά δάση. Κάμερες ασφαλείας είναι παντού, αλλά δεν μας προειδοποιούν όταν ένα παιδί πνίγεται στην πισίνα. Φωτογραφίες και βίντεο γίνονται ολοένα πιο σημαντικό κομμάτι της παγκόσμιας ζωής. Δημιουργούνται με τέτοιο ρυθμό που είναι πέρα απ' ότι ένας άνθρωπος ή μια ομάδα ανθρώπων μπορούν να δουν, και εσείς και εγώ συνεισφέρουμε σε αυτό, εδώ στο TED. Κι όμως, το πιο προηγμένο λογισμικό μας δυσκολεύεται ακόμα να καταλάβει και να διαχειριστεί αυτές τις τεράστιες ποσότητες περιεχομένου. Με άλλα λόγια, συλλογικά σαν κοινωνία, είμαστε βασικά τυφλοί, γιατί οι πιο «έξυπνες» μηχανές μας είναι ακόμα τυφλές. «Γιατί είναι τόσο δύσκολο;» μπορεί να ρωτήσετε. Οι κάμερες μπορούν να τραβήξουν φωτογραφίες όπως αυτή μετατρέποντας το φως σε δισδιάστατους πίνακες αριθμών που λέγονται πίξελ, αλλά αυτοί είναι άψυχοι αριθμοί. Δεν έχουν νόημα από μόνοι τους. Όπως το να αντιλαμβάνεσαι έναν ήχο δεν είναι σαν να τον καταλαβαίνεις, το να βγάζεις φωτογραφίες δεν είναι το ίδιο με το να βλέπεις, και λέγοντας «βλέπω» εννοούμε «καταλαβαίνω». Πράγματι, η Φύση χρειάστηκε 540 εκατομμύρια χρόνια σκληρής δουλειάς για να καταφέρει αυτό το έργο, και η περισσότερη προσπάθεια αφιερώθηκε στην ανάπτυξη του οπτικού μηχανισμού του εγκεφάλου μας και όχι στα ίδια τα μάτια. Η όραση λοιπόν ξεκινάει με τα μάτια, αλλά πραγματικά λαμβάνει χώρα στον εγκέφαλο. Εδώ και 15 χρόνια, από το διδακτορικό μου στο Πανεπιστήμιο της Καλιφόρνια και ύστερα ως επικεφαλής του κέντρου όρασης του Στάνφορντ, δουλεύω με τους μέντορες, συνεργάτες και φοιτητές μου προσπαθώντας να μάθω τους υπολογιστές να βλέπουν. Το ερευνητικό μας πεδίο λέγεται υπολογιστική όραση και μηχανική μάθηση. Είναι κομμάτι του γενικότερου πεδίου της τεχνητής νοημοσύνης. Τελικά, θέλουμε να διδάξουμε τις μηχανές να δουν ακριβώς όπως εμείς: να ονομάζουν αντικείμενα, να αναγνωρίζουν ανθρώπους και αντικείμενα στον χώρο, να καταλαβαίνουν σχέσεις, συναισθήματα, δράσεις και προθέσεις. Εσείς και εγώ συνυφαίνουμε ολόκληρες ιστορίες ανθρώπων, τόπων και πραγμάτων τη στιγμή που τα πρωτοβλέπουμε. Το πρώτο βήμα προς αυτό το στόχο είναι να μάθουμε τον υπολογιστή να δει πράγματα, τα δομικά στοιχεία του οπτικού μας κόσμου. Στην πιο απλή της εκδοχή, φανταστείτε την εκπαιδευτική διαδικασία ως εξής: δείχνουμε στον υπολογιστή μερικές εικόνες εκμάθησης ενός συγκεκριμένου αντικειμένου, ας πούμε γάτες, και σχεδιάζουμε ένα μοντέλο που μαθαίνει από αυτές τις εικόνες. Πόσο δύσκολο μπορεί να είναι; Στο κάτω κάτω, μια γάτα είναι απλά μια συλλογή από σχήματα και χρώματα, και αυτό ακριβώς κάναμε τα πρώτα χρόνια της μοντελοποίησης αντικειμένων. Λέγαμε στον αλγόριθμο του υπολογιστή, σε μαθηματική γλώσσα, ότι η γάτα έχει ένα στρογγυλό πρόσωπο, ένα παχουλό σώμα, δύο μυτερά αυτιά και μια μακριά ουρά, και αυτό έμοιαζε μια χαρά. Αλλά αυτή η γάτα; (Γέλια) Είναι κουλουριασμένη. Τώρα πρέπει να προσθέσουμε άλλο ένα σχήμα και άλλη μια άποψη στο μοντέλο μας. Κι αν η γάτα κρύβεται; Και αυτές οι χαζούλες γάτες; Βλέπετε το πρόβλημα. Ακόμα και κάτι τόσο απλό όσο ένα κατοικίδιο μπορεί να παρουσιάσει έναν άπειρο αριθμό παραλλαγών στο μοντέλο, και αυτό είναι μόνο ένα αντικείμενο. Πριν από οκτώ χρόνια, μια πολύ απλή και βαθιά παρατήρηση άλλαξε τον τρόπο σκέψης μου. Κανένας δεν λέει σε ένα παιδί πώς να δει, κυριώς τα πρώτα χρόνια. Μαθαίνουν μέσα από εμπειρίες και παραδείγματα του πραγματικού κόσμου. Αν σκεφτούμε τα μάτια του παιδιού σαν ένα ζευγάρι από βιολογικές κάμερες, βγάζουν περίπου μία φωτογραφία κάθε 200 χιλιοστά του δευτερολέπτου, που είναι ο μέσος χρόνος που χρειάζεται για μια κίνηση του ματιού. Έτσι, ένα παιδί τριών ετών θα έχει δει εκατοντάδες εκατομμύρια φωτογραφίες του πραγματικού κόσμου. Αυτά είναι πολλά παραδείγματα εκμάθησης. Αντί λοιπόν να εστιάζουμε μόνο σε ολοένα και καλύτερους αλγόριθμους, η ιδέα μου ήταν να δώσω στους αλγόριθμους το είδος των εκπαιδευτικών δεδομένων που ένα παιδί αποκτά μέσω εμπειρίας τόσο σε ποσότητα όσο και σε ποιότητα. Όταν το καταλάβαμε ξέραμε ότι έπρεπε να συλλέξουμε ένα σετ δεδομένων που περιείχε πολύ περισσότερες φωτογραφίες από όσες είχαμε προηγουμένως, ίσως χιλιάδες φορές περισσότερες, και μαζί με τον καθηγητή Κάι Λι στο Πανεπιστήμιο του Πρίνστον ξεκινήσαμε το πρόγραμμα ImageNet το 2007. Ευτυχώς, δε χρειάστηκε να φορέσουμε κάμερες στο κεφάλι μας και να περιμένουμε πολλά χρόνια. Πήγαμε στο Διαδίκτυο, το μεγαλύτερο θησαυροφυλάκιο εικόνων που έχουν ποτέ κατασκευάσει οι άνθρωποι. «Κατεβάσαμε» σχεδόν ένα δισεκατομμύριο εικόνες και χρησιμοποιήσαμε τεχνολογίες «υπηρεσιών πλήθους» όπως η πλατφόρμα της Άμαζον για να μας βοηθήσουν να ονομάσουμε αυτές τις εικόνες. Στην αιχμή του, το ImageNet ήταν ένας από τους μεγαλύτερους εργοδότες της πλατφόρμας της Άμαζον: όλοι μαζί, σχεδόν 50.000 εργαζόμενοι από 167 χώρες από όλο τον κόσμο μας βοήθησαν να καθαρίσουμε, να κατατάξουμε και να ονομάσουμε σχεδόν ένα δισεκατομμύριο υποψήφιες φωτογραφίες. Τόση προσπάθεια χρειάστηκε για να καταγράψουμε ένα ψήγμα των παραστάσεων που προσλαμβάνει το μυαλό ενός παιδιού στα πρώτα χρόνια της ανάπτυξης. Εκ των υστέρων, η ιδέα της χρήσης μαζικών δεδομένων για την εκπαίδευση υπολογιστών μπορεί να μοιάζει προφανής, αλλά το 2007 δεν ήταν τόσο προφανής. Ήμασταν μόνοι μας σε αυτό το ταξίδι για αρκετό καιρό. Μερικοί συνάδελφοι με συμβούλευσαν να κάνω κάτι πιο χρήσιμο για να πάρω μονιμότητα, και είχαμε διαρκώς προβλήματα χρηματοδότησης. Μια φορά, είπα για πλάκα στους μεταπτυχιακούς φοιτητές μου ότι θα άνοιγα ξανά το καθαριστήριό μου για να χρηματοδοτήσω το ImageNet. Στο κάτω κάτω, έτσι χρηματοδότησα τις σπουδές μου. Έτσι λοιπόν συνεχίσαμε. Το 2009, το ΙmageNet παρέδωσε μια βάση δεδομένων με 15 εκατομμύρια φωτογραφίες που ανήκαν σε 22.000 κατηγορίες αντικειμένων και πραγμάτων οργανωμένες με καθημερινές αγγλικές λέξεις. Τόσο σε ποσότητα όσο και σε ποιότητα, ήταν μια ανεπανάληπτη κλίμακα. Για παράδειγμα, όσον αφορά τις γάτες, έχουμε περισσότερες από 62.000 γάτες με διαφορετικές εμφανίσεις και πόζες και όλα τα είδη, κατοικίδιες και άγριες. Ήμασταν πανευτυχείς που ολοκληρώσαμε το ImageNet, και θέλαμε να επωφεληθεί όλος ο ερευνητικός κόσμος, κι έτσι, σύμφωνα με το πνεύμα του TED, διαθέσαμε ολόκληρη τη βάση δεδομένων στην παγκόσμια ερευνητική κοινότητα, δωρεάν. (Χειροκρότημα) Τώρα που έχουμε τα δεδομένα για να καλλιεργήσουμε το υπολογιστικό μας μυαλό, είμαστε έτοιμοι να ξαναγυρίσουμε στους αλγόριθμους. Όπως αποδείχθηκε, ο πλούτος πληροφορίας που παρέχεται από το ImageNet ήταν το τέλειο ταίρι για μια συγκεκριμένη κλάση αλγόριθμων μηχανικής μάθησης που ονομάζονται συνελικτικά νευρωνικά δίκτυα, που αναπτύχθηκε απ' τους Τζεφ Χίντον, Κουνιχίκο Φουκοσίμα και Γιάν ΛεΚούν στις δεκαετίες του '70 και το '80. Όπως ο εγκέφαλος αποτελείται από δισεκατομμύρια διασυνδεδεμένους νευρώνες, η βασική λειτουργική ενότητα σε ένα νευρωνικό δίκτυο είναι ένας κόμβος-νευρώνας. Δέχεται σήματα εισόδου από άλλους κόμβους και στέλνει σήματα εξόδου σε άλλους. Επιπλέον, αυτοί οι εκατοντάδες χιλιάδες ή εκατομμύρια κόμβοι είναι οργανωμένοι σε ιεραρχικά στρώμματα, επίσης παρόμοια με αυτά του εγκεφάλου. Ένα τυπικό νευρωνικό δίκτυο που χρησιμοποιούμε για να εκπαιδεύσουμε το μοντέλο αναγνώρισης αντικειμένων, έχει 24 εκατομμύρια κόμβους, 140 εκατομμύρια παραμέτρους και 15 δισεκατομμύρια συνδέσεις. Είναι ένα τεράστιο μοντέλο. Ωθούμενο από τα μαζικά δεδομένα του ImageNet και από σύγχρονους μικροεπεξεργαστές για την εκμάθηση αυτού του μοντέλου, το συνελικτικό νευρωνικό δίκτυο «άνθισε» με τρόπο που κανείς δεν περίμενε. Έγινε η νικήτρια αρχιτεκτονική που γέννησε συναρπαστικά αποτελέσματα στην αναγνώριση αντικειμένων. Αυτός είναι ένας υπολογιστής που μας λέει ότι αυτή η εικόνα περιέχει μια γάτα και πού βρίσκεται αυτή η γάτα. Υπάρχουν κι άλλα πράγματα εκτός από γάτες, εδώ ο αλγόριθμος μας λέει ότι η εικόνα περιέχει ένα αγόρι και ένα αρκουδάκι, έναν σκύλο, έναν άνθρωπο και έναν μικρό χαρταετό στο βάθος, ή μια εικόνα με πολλά πράγματα όπως ένας άντρας, ένα σκέιτμπορντ, κάγκελα, μια κολώνα και λοιπά. Μερικές φορές, όταν ο υπολογιστής δεν είναι και τόσο σίγουρος για το τι βλέπει, του μάθαμε να είναι αρκετά έξυπνος ώστε να μας δίνει μια ασφαλή απάντηση αντί να δεσμευτεί σε κάτι συγκεκριμένο, όπως ακριβώς θα κάναμε και εμείς, και άλλες φορές ο αλγόριθμος είναι τόσο ικανός στο να μας λέει ακριβώς τι είναι το κάθε αντικείμενο, όπως τη μάρκα, το μοντέλο και τη χρονιά των αυτοκινήτων. Εφαρμόσαμε αυτόν τον αλγόριθμο σε εκατομμύρια εικόνες του Google Street View σε εκατοντάδες πόλεις της Αμερικής, και μάθαμε κάτι πολύ ενδιαφέρον: πρώτον, επιβεβαιώσαμε κάτι που ήταν κοινώς γνωστό ότι οι τιμές αυτοκινήτων συσχετίζονται πολύ καλά με το εισόδημα των νοικοκυριών. Αλλά αναπάντεχα, οι τιμές των αυτοκινήτων επίσης συσχετίζονται καλά με την εγκληματικότητα στις πόλεις, ή με την κατανομή ψήφων ανά ταχυδρομικό κώδικα. Μισό λεπτό. Αυτό είναι; Ο υπολογιστής έφτασε ή ξεπέρασε τις ανθρώπινες δυνατότητες; Όχι τόσο γρήγορα. Μέχρι τώρα, έχουμε μάθει στον υπολογιστή μόνο να βλέπει αντικείμενα. Είναι σαν ένα μικρό παιδί που μαθαίνει να προφέρει μερικά ουσιαστικά. Είναι ένα απίστευτο επίτευγμα, αλλά είναι μόνο το πρώτο βήμα. Σύντομα, θα έρθουμε σε ένα άλλο ορόσημο της ανάπτυξης, και τα παιδιά αρχίζουν να επικοινωνούν με προτάσεις. Αντί να πει ότι στην εικόνα είναι μια γάτα ακούσατε ήδη το κοριτσάκι να μας λέει ότι η γάτα είναι ξαπλωμένη στο κρεβάτι. Για να μάθουμε τον υπολογιστή να βλέπει μια εικόνα και να παράγει προτάσεις, ο «γάμος» των μαζικών δεδομένων και των αλγόριθμων μηχανικής μάθησης πρέπει να κάνει ένα ακόμα βήμα. Τώρα, ο υπολογιστής πρέπει να μάθει από εικόνες αλλά και από προτάσεις φυσικού λόγου που έχουν παράγει άνθρωποι. Ακριβώς όπως ο εγκέφαλος ενσωματώνει όραση και γλώσσα, αναπτύξαμε ένα μοντέλο που συνδέει μέρη οπτικών αντικειμένων, σαν οπτικά αποσπάσματα, με λέξεις και φράσεις προτάσεων. Πριν από περίπου τέσσερις μήνες, συνθέσαμε όλα αυτά τα κομμάτια και δημιουργήσαμε ένα από τα πρώτα μοντέλα υπολογιστικής όρασης ικανό να παράγει φυσικές προτάσεις την πρώτη φορά που βλέπει μια εικόνα. Τώρα, είμαι έτοιμη να σας δείξω τι λέει ο υπολογιστής όταν βλέπει την εικόνα που είδε το κορίτσι στην αρχή της ομιλίας. (Βίντεο) Υπολογιστής: Ένας άντρας στέκεται δίπλα σε έναν ελέφαντα. Ένα μεγάλο αεροπλάνο βρίσκεται πάνω σε έναν αεροδιάδρομο. Φέι-Φέι Λι: Φυσικά, δουλεύουμε σκληρά για να βελτιώσουμε τον αλγόριθμό μας, και έχει να μάθει ακόμα πολλά. (Χειροκρότημα) Και ο υπολογιστής ακόμα κάνει λάθη. (Βίντεο) Υπολογιστής: Μια γάτα είναι ξαπλωμένη στο κρεβάτι με μια κουβέρτα. Φέι-Φέι Λι: Φυσικά, αφού έχει δει τόσες πολλές γάτες, νομίζει ότι τα πάντα μοιάζουν με γάτες. (Βίντεο) Υπολογιστής: Ένα αγόρι κρατάει ένα ρόπαλο του μπέιζμπολ. (Γέλια) ΦΦΛ: Ή αν δεν έχει δει οδοντόβουρτσες τις μπερδεύει με ρόπαλα του μπέιζμπολ. (Βίντεο) Υπολογιστής: Ένας άντρας ιππεύει ένα άλογο στο δρόμο δίπλα σε ένα κτίριο. (Γέλια) Φέι-Φέι Λι: Δεν έχουμε μάθει στους υπολογιστές τα βασικά για τις τέχνες. (Βίντεο) Υπολογιστής: Μια ζέβρα στέκεται σε ένα λιβάδι. Φέι-Φέι Λι: Δεν έχει μάθει να εκτιμά την εκπληκτική ομορφιά της φύσης όπως εσείς και εγώ. Ήταν ένα μεγάλο ταξίδι. Το να πάμε από τις ηλικίες 0 μέχρι 3 ήταν δύσκολο. Η πραγματική πρόκληση είναι να πάμε από τα 3 στα 13 και παραπέρα. Θέλω να σας υπενθυμήσω με αυτή την εικόνα του παιδιού και της τούρτας. Μέχρι τώρα, έχουμε διδάξει τον υπολογιστή να βλέπει αντικείμενα και ακόμα να μπορεί να μας πει μια ιστορία όταν βλέπει μια εικόνα. (Βίντεο) Υπολογιστής: Κάποιος κάθεται σε ένα τραπέζι με ένα κέικ. ΦΦΛ: Άλλα υπάρχουν κι άλλα πράγματα σε αυτή την εικόνα εκτός από τον άνθρωπο και το κέικ. Αυτό που δεν βλέπει ο υπολογιστής είναι ότι αυτό είναι ένα ειδικό ιταλικό κέικ που σερβίρεται μόνο κατά την περίοδο του Πάσχα. Το αγόρι φοράει την αγαπημένη του μπλούζα που του την έφερε ο πατέρας του από ένα ταξίδι στο Σίδνεϊ, και εμείς μπορούμε να δούμε πόσο χαρούμενο είναι και τι ακριβώς σκέφτεται αυτή τη στιγμή. Αυτός είναι ο γιος μου, ο Λέο. Στην αναζήτησή μου για οπτική νοημοσύνη σκέφτομαι τον Λέο συνέχεια και τον μελλοντικό κόσμο στον οποίο θα ζήσει. Όταν οι μηχανές θα μπορούν να δουν, οι γιατροί και νοσοκόμοι θα έχουν ένα ζευγάρι ακούραστα μάτια να τους βοηθάνε να διαγνώσουν και να φροντίσουν τους ασθενείς τους. Τα αυτοκίνητα θα οδηγούν πιο έξυπνα και πιο ασφαλή στο δρόμο. Ρομπότ, όχι μόνο άνθρωποι, θα μας βοηθάνε σε ζώνες καταστροφής να σώσουμε εγκλωβισμένους και τραυματίες. Θα ανακαλύψουμε καινούργια είδη, καλύτερα υλικά, και θα εξερευνήσουμε αόρατα σύνορα με τη βοήθεια των μηχανών. Σιγά-σιγά δίνουμε όραση στις μηχανές. Πρώτα, θα τους μάθουμε να βλέπουν. Μετά, θα μας βοηθήσουν να δούμε καλύτερα. Για πρώτη φορά, τα ανθρώπινα μάτια δεν θα είναι τα μόνα που μελετούν και εξερευνούν τον κόσμο. Δεν θα χρησιμοποιούμε τις μηχανές μόνο για τη νοημοσύνη τους, θα συνεργαζόμαστε με τρόπους που δεν μπορούμε να φανταστούμε. Αυτός είναι ο στόχος μου: να δώσω στους υπολογιστές οπτική νοημοσύνη και να φτιάξω ένα καλύτερο μέλλον για τον Λέο και για τον κόσμο. Σας ευχαριστώ. (Χειροκρότημα)