Computational Linguistics, by Lucas Freitas

>> LUCAS FREITAS: Γεια σου. Καλώς ήρθατε όλοι. Το όνομά μου είναι Lucas Freitas. Είμαι μια junior στο [δεν ακούγεται] μελετώντας επιστήμη των υπολογιστών, με έμφαση στην υπολογιστική γλωσσολογία. Έτσι δευτεροβάθμια μου είναι στη γλώσσα και γλωσσολογική θεωρία. Είμαι πραγματικά ενθουσιασμένος για να διδάξουν τα παιδιά σας λίγο για το πεδίο. Είναι μια πολύ συναρπαστική περιοχή για να μελετήσει. Επίσης, με πολλές δυνατότητες για το μέλλον. Έτσι, είμαι πραγματικά ενθουσιασμένος ότι εσείς εξετάζουν τα σχέδια σε υπολογιστική γλωσσολογία. Και θα είμαι περισσότερο από ευτυχής να συμβουλεύσει κάποια από σας αν αποφασίσετε να επιδιώκουν έναν από αυτούς. >> Έτσι, πρώτα απ 'όλα τι είναι υπολογιστικά γλωσσολογία; Έτσι, υπολογιστική γλωσσολογία είναι η τομής μεταξύ γλωσσολογία και επιστήμη των υπολογιστών. Έτσι, ποια είναι η γλωσσολογία; Τι είναι η επιστήμη των υπολογιστών; Λοιπόν, από τη γλωσσολογία, τι παίρνουμε είναι οι γλώσσες. Έτσι, γλωσσολογία είναι στην πραγματικότητα η μελέτη της φυσικής γλώσσας σε γενικές γραμμές. Έτσι, η φυσική γλώσσα - μιλάμε για γλώσσα που πράγματι χρησιμοποιήσει για επικοινωνούν μεταξύ τους. Έτσι, δεν είμαστε ακριβώς μιλάμε για το C ή Java. Μιλάμε περισσότερο για τα αγγλικά και Κινέζικα και άλλες γλώσσες που θα χρησιμοποιούν για να επικοινωνούν μεταξύ τους. >> Το δύσκολο πράγμα για αυτό είναι ότι αυτή τη στιγμή έχουμε περίπου 7.000 γλώσσες στον κόσμο. Έτσι, υπάρχει μια αρκετά μεγάλη ποικιλία γλωσσών που μπορούμε να μελετήσουμε. Και τότε πιστεύω ότι είναι μάλλον πολύ δύσκολο να γίνει, για παράδειγμα, μετάφραση από τη μία γλώσσα στην άλλη, θεωρώντας ότι έχετε σχεδόν 7.000 από αυτούς. Έτσι, εάν σκέφτεστε να κάνει τη μετάφραση από τη μία γλώσσα στην άλλη σας έχουν σχεδόν πάνω από ένα εκατομμύριο διαφορετικούς συνδυασμούς που μπορείτε να έχουν από γλώσσα σε γλώσσα. Έτσι, είναι πραγματικά δύσκολο να κάνει κάποια είδος του συστήματος μετάφρασης για παράδειγμα κάθε γλώσσα. >> Έτσι, η γλωσσολογία αντιμετωπίζει με τη σύνταξη, σημασιολογία, πραγματολογία. Εσείς δεν χρειάζεται ακριβώς να γνωρίζουν τι είναι. Αλλά το πολύ ενδιαφέρον πράγμα είναι ότι ως μητρική του γλώσσα, πότε θέλετε να μάθετε γλώσσα ως παιδί, μπορείτε πραγματικά να μάθουν όλα αυτά τα πράγματα - σημασιολογία σύνταξη και την πραγματολογία - από τον εαυτό σας. Και κανείς δεν έχει να διδάξει σύνταξη σας για μπορείτε να καταλάβετε πώς είναι ποινές δομημένο. Έτσι, είναι πραγματικά ενδιαφέρον, διότι Είναι κάτι που έρχεται πολύ διαισθητικά. >> Και τι παίρνεις από η επιστήμη των υπολογιστών; Λοιπόν, το πιο σημαντικό πράγμα που μπορούμε έχουν στην επιστήμη των υπολογιστών είναι η πρώτη από όλα, την τεχνητή νοημοσύνη και μηχανική μάθηση. Έτσι, αυτό που προσπαθούμε να κάνουμε υπολογιστική γλωσσολογία είναι διδάσκουν υπολογιστή σας πώς να κάνει κάτι με τη γλώσσα. >> Έτσι, για παράδειγμα, στο μηχάνημα μετάφραση. Προσπαθώ να διδάξει πώς ο υπολογιστής μου να γνωρίζουν πώς να τη μετάβαση από το ένα γλώσσα στην άλλη. Έτσι, βασικά αρέσει διδασκαλία ένας υπολογιστής δύο γλώσσες. Αν κάνω επεξεργασία φυσικής γλώσσας, η οποία είναι η περίπτωση για παράδειγμα της Γράφημα του Facebook Search, σας διδάξει υπολογιστή σας πώς να κατανοήσουν ερωτήματα καλά. >> Έτσι, αν πείτε "τις φωτογραφίες του μου φίλοι. "Facebook δεν αντιμετωπίζει ότι ως σύνολο εγχόρδων που έχει απλά ένα μάτσο λέξεις. Είναι πράγματι κατανοεί τη σχέση μεταξύ "φωτογραφίες" και "φίλοι μου" και κατανοεί ότι είναι "φωτογραφίες" ιδιοκτησία "τους φίλους μου." >> Έτσι, αυτό είναι μέρος της, για παράδειγμα, επεξεργασία φυσικής γλώσσας. Προσπαθεί να καταλάβει τι είναι η σχέση μεταξύ οι λέξεις σε μια πρόταση. Και το μεγάλο ερώτημα είναι, μπορεί να σας διδάξει έναν υπολογιστή πώς να μιλούν μια γλώσσα σε γενικές γραμμές; Ποια είναι μια πολύ ενδιαφέρουσα ερώτηση σκεφτεί, όπως και αν ίσως στο μέλλον, θα πάμε να είναι σε θέση να μιλήστε στο κινητό σας τηλέφωνο. Κάπως σαν αυτό που κάνουμε με το Siri, αλλά κάτι που μοιάζει περισσότερο, μπορείτε πραγματικά να πείτε ό, τι θέλετε και το τηλέφωνο πρόκειται να καταλάβει τα πάντα. Και μπορεί να έχει συνέχεια ερωτήσεις και να μιλάτε. Αυτό είναι κάτι πραγματικά συναρπαστικό, κατά τη γνώμη μου. >> Έτσι, κάτι για φυσικές γλώσσες. Κάτι πολύ ενδιαφέρον για φυσικές γλώσσες είναι ότι, και αυτό είναι πίστωσης τον γλωσσολόγο καθηγητή μου, Μαρία Polinsky. Δίνει ένα παράδειγμα και νομίζω είναι πραγματικά ενδιαφέρον. Επειδή μαθαίνουμε τη γλώσσα από τη στιγμή που γεννιόμαστε και, στη συνέχεια, τη μητρική μας γλώσσας είδος φύεται σε εμάς. >> Και βασικά θα μάθουν τη γλώσσα από την ελάχιστη συμβολή, σωστά; Μπορείτε απλά να πάρει στοιχεία από το Οι γονείς του αυτό που ακούγεται γλώσσα σας αρέσει και απλά να το μάθει. Έτσι, είναι ενδιαφέρον γιατί αν κοιτάξετε σε αυτές τις προτάσεις, για παράδειγμα. Φαίνεσαι, "Μαρία βάζει σε ένα παλτό κάθε φορά που φεύγει από το σπίτι. " >> Στην περίπτωση αυτή, είναι δυνατό να έχουν την λέξη «αυτή» αναφέρεται σε Mary, σωστά; Μπορείτε να πείτε "Μαρία βάζει σε ένα παλτό κάθε φορά που η Μαρία αφήνει την σπίτι ». έτσι ώστε να είναι μια χαρά. Στη συνέχεια, όμως, αν κοιτάξει κανείς την φράση «Βάζει σε ένα παλτό κάθε φορά Mary αφήνει το σπίτι. "ξέρετε ότι είναι αδύνατο να πει ότι "αυτή" είναι αναφερόμενος στην Παναγία. >> Δεν υπάρχει κανένας τρόπος για να πούμε ότι "η Μαρία βάζει σε ένα παλτό κάθε φορά που η Μαρία αφήνει το σπίτι. "Γι 'αυτό είναι ενδιαφέρον, διότι αυτό είναι το είδος της διαίσθησης ότι κάθε φυσικός ομιλητής έχει. Και κανείς δεν είχε διδάξει ότι αυτός είναι ο τρόπος που λειτουργεί η σύνταξη. Και ότι μπορείτε να έχετε μόνο αυτό το "αυτή" αναφερόμενος στην Παναγία σε αυτήν την πρώτη περίπτωση, και μάλιστα σε αυτό το άλλο πάρα πολύ, αλλά όχι σε αυτό. Αλλά ο καθένας παίρνει το είδος της με την ίδια απάντηση. Όλοι συμφωνούν σε αυτό. Έτσι, είναι πραγματικά ενδιαφέρον το πώς παρόλο δεν ξέρεις όλους τους κανόνες στη γλώσσα σας, το είδος της κατανοούν πώς λειτουργεί η γλώσσα. >> Έτσι, το ενδιαφέρον πράγμα για το φυσικό γλώσσας είναι ότι δεν χρειάζεται να γνωρίζω καμία σύνταξη να ξέρω αν μια πρόταση είναι γραμματικά ή γραμματική για περισσότερες περιπτώσεις. Ποια σε κάνει να σκέφτεσαι ότι ίσως αυτό που συμβαίνει είναι ότι μέσα από τη ζωή σας, απλά να κρατήσει όλο και περισσότερο ποινές είπαν για εσάς. Και τότε θα κρατήσει απομνημόνευση όλες τις προτάσεις. Και στη συνέχεια, όταν κάποιος σας λέει κάτι, θα ακούσετε τη φράση αυτή και Αν κοιτάξει κανείς το λεξιλόγιό σας των ποινών και να δούμε αν η φράση αυτή δεν υπάρχει. Και αν είναι εκεί λένε ότι είναι γραμματικά. Αν δεν είναι λέγατε ότι είναι σόλοικος. >> Έτσι, στην περίπτωση αυτή, θα σας πω, OH, έτσι ώστε να έχουν μια τεράστια λίστα με όλα πιθανές ποινές. Και στη συνέχεια, όταν ακούς μια πρόταση, ξέρετε αν είναι γραμματικά ή δεν βασίζονται σε αυτό. Το θέμα είναι ότι αν κοιτάξετε μια πρόταση, για παράδειγμα, «Η πέντε επικεφαλής CS50 TFs μαγειρεμένα τον τυφλό χταπόδι χρησιμοποιώντας μια κούπα DAPA. «Είναι σίγουρα δεν είναι μια πρόταση ότι έχετε ακούσει πριν. Αλλά την ίδια στιγμή ξέρεις ότι είναι λίγο πολύ γραμματική, έτσι δεν είναι; Δεν υπάρχουν γραμματικά λάθη και μπορείτε να πείτε ότι είναι μια πιθανή ποινή. >> Γι 'αυτό μας κάνει να πιστεύουμε ότι στην πραγματικότητα η τρόπο που μαθαίνουμε τη γλώσσα δεν είναι μόνο έχοντας μια τεράστια βάση δεδομένων των πιθανών λέξεις ή φράσεις, αλλά περισσότερο από κατανόηση της σχέσης μεταξύ λόγια σε αυτές τις προτάσεις. Μήπως αυτό έχει νόημα; Έτσι, λοιπόν, το ερώτημα είναι, μπορεί να υπολογιστές μάθουν ξένες γλώσσες; Μπορούμε να διδάξουν τη γλώσσα με τους υπολογιστές; >> Έτσι, ας σκεφτούμε τη διαφορά ανάμεσα σε ένα φυσικό ομιλητή της γλώσσας και ένας υπολογιστής. Έτσι, τι συμβαίνει με τον ομιλητή; Λοιπόν, ο φυσικός ομιλητής μαθαίνει γλώσσα από την έκθεση σε αυτό. Συνήθως τα πρώτα χρόνια της παιδικής ηλικίας της. Έτσι, βασικά, απλά έχει ένα μωρό, και να μιλάτε σε αυτό, και μόλις μαθαίνει πώς να μιλήσει η γλώσσα, έτσι δεν είναι; Έτσι, είστε ουσιαστικά δίνει εισόδου για το μωρό. Έτσι, τότε θα μπορεί να υποστηρίξει ότι ένας υπολογιστής μπορεί να κάνει το ίδιο πράγμα, έτσι δεν είναι; Μπορείτε να δώσετε μόνο τη γλώσσα ως συμβολή στον υπολογιστή. >> Όπως επί παραδείγματι μια δέσμη των αρχείων που έχουν τα βιβλία στα αγγλικά. Ίσως αυτός να είναι ένας τρόπος ότι μπορείτε θα μπορούσε ενδεχομένως να διδάξει υπολογιστή αγγλικά, έτσι δεν είναι; Και στην πραγματικότητα, αν το καλοσκεφτείτε, σας παίρνει ίσως ένα ζευγάρι ημέρες για να διαβάσετε ένα βιβλίο. Για έναν υπολογιστή που χρειάζεται ένα δευτερόλεπτο για να εξετάσουμε όλες τις λέξεις σε ένα βιβλίο. Έτσι, μπορείτε να σκεφτείτε ότι μπορεί να είναι ακριβώς αυτό επιχείρημα των εισροών από γύρω σας, αυτό δεν είναι αρκετό να πούμε ότι αυτό είναι κάτι που μόνο οι άνθρωποι μπορούν να κάνουν. Μπορείτε να σκεφτείτε υπολογιστές Επίσης, μπορείτε να πάρετε είσοδο. >> Το δεύτερο πράγμα είναι ότι η μητρική τους γλώσσα έχουν επίσης έναν εγκέφαλο που έχει την ικανότητα εκμάθησης ξένων γλωσσών. Αλλά αν το σκεφτείτε, ένας εγκέφαλος είναι ένα στερεό πράγμα. Όταν γεννιούνται, είναι ήδη οριστεί - Αυτό είναι το μυαλό σας. Και όπως σας μεγαλώνουν, μπορείτε απλά να πάρετε περισσότερα εισόδου της γλώσσας και ίσως θρεπτικά συστατικά και άλλα πράγματα. Αλλά λίγο πολύ το μυαλό σας είναι ένα στερεό πράγμα. >> Έτσι, μπορείτε να πείτε, καλά, ίσως μπορείτε να οικοδομήσει έναν υπολογιστή που έχει μια δέσμη των λειτουργίες και τις μεθόδους που απλά μιμούνται την ικανότητα εκμάθησης ξένων γλωσσών. Έτσι, με αυτή την έννοια, θα μπορούσαμε να πούμε, λοιπόν, μπορεί να έχει έναν υπολογιστή που έχει όλα τα πράγματα που πρέπει να μάθουν τη γλώσσα. Και το τελευταίο πράγμα είναι ότι ένας ντόπιος ομιλητής μαθαίνει από τη δοκιμή και το λάθος. Έτσι, βασικά ένα άλλο σημαντικό πράγμα στην εκμάθηση γλωσσών είναι ότι το είδος του μάθουν πράγματα, κάνοντας γενικεύσεις για το τι ακούτε. >> Έτσι, όπως σας μεγαλώνουν θα μάθουν ότι ορισμένες λέξεις είναι περισσότερο σαν ουσιαστικά, κάποια άλλα από αυτά είναι επίθετα. Και δεν χρειάζεται να έχει οποιαδήποτε γνώση της γλωσσολογίας να το κατανοήσουμε αυτό. Αλλά ξέρετε ακριβώς υπάρχει κάποια λόγια τοποθετούνται σε κάποιο μέρος της πρόταση και κάποιοι άλλοι σε άλλες τμήματα της ποινής. >> Και ότι όταν κάνεις κάτι που είναι όπως μια πρόταση που δεν είναι σωστό - ίσως λόγω της γενίκευσης πάνω για παράδειγμα. Ίσως όταν μεγαλώνεις, θα παρατηρήσετε ότι ο πληθυντικός είναι συνήθως σχηματίζεται τοποθετώντας ένα S στο το τέλος της λέξης. Και τότε θα προσπαθήσουμε να κάνουμε τον πληθυντικό "Ελαφιών", όπως "ελάφια" ή "δόντι", όπως "Tooths." Έτσι, τότε οι γονείς σας ή κάποιον που διορθώνει και λέει, όχι, η πληθυντικός του "ελαφιών" είναι "ελάφια", και ο πληθυντικός του "δόντι" είναι "δόντια". Και στη συνέχεια μπορείτε να μάθετε αυτά τα πράγματα. Έτσι, μπορείτε να μάθετε από την δοκιμή και το λάθος. >> Αλλά μπορείτε επίσης να το κάνετε αυτό με έναν υπολογιστή. Μπορείτε να έχετε κάτι που ονομάζεται ενισχυτική μάθηση. Ποια είναι βασικά σαν να δίνουμε ένα υπολογιστή μια ανταμοιβή κάθε φορά που το κάνει κάτι σωστά. Και δίνει το αντίθετο από μια ανταμοιβή και όταν κάνει κάτι λάθος. Μπορείτε πραγματικά να δείτε ότι αν πάτε στο Google Translate και να προσπαθήσετε να μεταφράσετε μια πρόταση, το σας ρωτά για την ανατροφοδότηση. Έτσι, αν σας πω, OH, υπάρχει μια καλύτερη μετάφραση για αυτή την πρόταση. Μπορείτε να πληκτρολογήσετε και στη συνέχεια αν πολλά οι άνθρωποι συνεχίζουν να λένε ότι είναι η καλύτερη μετάφραση, μαθαίνει μόνο ότι θα πρέπει να χρησιμοποιεί το εν λόγω μετάφραση αντί του το ένα που έδινε. >> Έτσι, αυτό είναι ένα πολύ φιλοσοφικό ερώτημα για να δούμε αν οι υπολογιστές θα είναι είναι σε θέση να μιλήσει ή όχι στο μέλλον. Αλλά έχω μεγάλες ελπίδες ότι μπορούν να μόνο με βάση τα επιχειρήματα αυτά. Αλλά είναι ακριβώς πάνω από μια φιλοσοφική ερώτηση. >> Έτσι, ενώ οι υπολογιστές δεν μπορούν ακόμα να μιλήσει, ποια είναι τα πράγματα που μπορούμε να κάνουμε; Μερικά πραγματικά δροσερά πράγματα είναι ταξινόμησης των δεδομένων. Έτσι, για παράδειγμα, εσείς ξέρετε ότι οι υπηρεσίες ηλεκτρονικού ταχυδρομείου κάνουμε, για παράδειγμα, το φιλτράρισμα ανεπιθύμητων μηνυμάτων. Έτσι, κάθε φορά που λαμβάνετε spam, προσπαθεί να φιλτράρετε σε άλλο πλαίσιο. Έτσι, πώς να το κάνουμε αυτό; Δεν είναι όπως ο υπολογιστής ξέρει ακριβώς Οι διευθύνσεις ηλεκτρονικού ταχυδρομείου ό, τι για την αποστολή spam. Έτσι είναι περισσότερο με βάση το περιεχόμενο των το μήνυμα, ή ίσως ο τίτλος, ή ίσως κάποιο μοντέλο που έχετε. >> Έτσι, βασικά, τι μπορείτε να κάνετε είναι να πάρετε μια πολλά στοιχεία των μηνυμάτων ηλεκτρονικού ταχυδρομείου που είναι spam, μηνύματα που δεν είναι spam, και να μάθετε τι είδος των προτύπων που έχετε στο αυτά που είναι spam. Και αυτό είναι μέρος της υπολογιστικής γλωσσολογία. Λέγεται ταξινόμησης των δεδομένων. Και είμαστε πραγματικά πρόκειται να δούμε μια παράδειγμα ότι στις επόμενες διαφάνειες. >> Το δεύτερο πράγμα είναι η φυσική γλώσσα επεξεργασίας, το οποίο είναι το πράγμα που το Γράφημα Αναζήτηση κάνει να αφήσει μπορείτε να γράψετε μια πρόταση. Και εμπιστεύεται να καταλάβετε τι είναι η έννοια και δίνει Είσαι ένα καλύτερο αποτέλεσμα. Στην πραγματικότητα, αν πάτε στο Google ή το Bing και ψάχνετε κάτι σαν Lady Ύψος της Gaga, είστε πράγματι πρόκειται να πάρει 5 '1 "αντί για τα στοιχεία από αυτήν επειδή καταλαβαίνει πραγματικά τι πράγμα μιλάς. Έτσι, αυτό είναι μέρος της φυσικής επεξεργασία της γλώσσας. >> Ή, επίσης, όταν χρησιμοποιείτε Siri, το πρώτο έχετε έναν αλγόριθμο που προσπαθεί να μεταφράσει τι λέτε σε λέξεις, σε κείμενο. Και τότε προσπαθεί να μεταφράσει ότι σε νόημα. Έτσι ώστε να είναι όλα μέρος της φυσικής επεξεργασία της γλώσσας. >> Στη συνέχεια, έχετε αυτόματη μετάφραση - η οποία είναι στην πραγματικότητα ένα από τα αγαπημένα μου - η οποία είναι ακριβώς μετάφραση από μια γλώσσα στην άλλη. Έτσι, μπορείτε να σκεφτείτε ότι όταν κάνεις αυτόματη μετάφραση, έχετε άπειρες δυνατότητες των ποινών. Έτσι, δεν υπάρχει τρόπος να αποθηκεύουμε μόνο κάθε μετάφραση. Έτσι, θα πρέπει να καταλήξει σε ενδιαφέροντα αλγόριθμους για να είναι σε θέση να μεταφράσει κάθε πρόταση με κάποιο τρόπο. >> Εσείς έχετε οποιεσδήποτε ερωτήσεις μέχρι τώρα; Όχι; OK. >> Λοιπόν, τι θα δούμε σήμερα; Πρώτα απ 'όλα, είμαι πρόκειται να μιλήσω για το πρόβλημα ταξινόμησης. Έτσι, αυτό που ήμουν λέγοντας για το spam. Τι Πάω να κάνουμε είναι, δεδομένου στίχους ένα τραγούδι, μπορείτε να προσπαθήσετε να καταλάβω με μεγάλη πιθανότητα ποιος είναι ο τραγουδιστής; Ας πούμε ότι έχω τραγούδια από Lady Gaga και η Katy Perry, αν μπορώ να σας δώσω μια νέο τραγούδι, μπορώ να σας καταλάβω αν Είναι Katy Perry και η Lady Gaga; >> Το δεύτερο, είμαι απλώς πρόκειται να μιλήσω σχετικά με το πρόβλημα του κατακερματισμού. Οπότε δεν ξέρω αν εσείς γνωρίζετε, αλλά Κινέζικα, Ιαπωνικά, εκτός της Ανατολικής Ασίας γλώσσες, και σε άλλες γλώσσες σε γενικές γραμμές, δεν έχουν διαστήματα μεταξύ των λέξεων. Και στη συνέχεια, αν σκεφτούμε τον τρόπο που το είδος του υπολογιστή σας προσπαθεί να κατανοήσουν την επεξεργασία φυσικής γλώσσας, φαίνεται από τα λόγια και προσπαθεί να κατανοήσει τις σχέσεις μεταξύ τους, σωστά; Στη συνέχεια, όμως, αν έχετε Κινέζικα, και έχουν μηδενικό χώρους, είναι πραγματικά δύσκολο να μάθετε ποια είναι η σχέση μεταξύ Δηλαδή, επειδή δεν έχουν καμία λέξεις από την πρώτη. Έτσι, έχετε να κάνετε κάτι που ονομάζεται κατάτμηση η οποία σημαίνει απλά βάζοντας κενά ανάμεσα σε αυτό που λέμε λόγια σε αυτές τις γλώσσες. Νόημα; >> Και μετά θα πάμε να μιλάμε για σύνταξη. Έτσι λίγο για το φυσικό επεξεργασία της γλώσσας. Είναι πρόκειται να είναι απλά μια επισκόπηση. Έτσι, σήμερα, βασικά αυτό που θέλω να κάνω είναι να σας δώσει τα παιδιά λίγο ένα μέσα από ποιες είναι οι δυνατότητες που μπορείτε να κάνετε με την υπολογιστική γλωσσολογία. Και τότε μπορείτε να δείτε ό, τι νομίζετε είναι δροσερό μεταξύ αυτά τα πράγματα. Και ίσως μπορείτε να σκεφτείτε ένα σχέδιο και να έρθει να μου μιλήσει. Και μπορώ να σας δώσω συμβουλές σχετικά με το πώς να την εφαρμόσουν. >> Έτσι, η σύνταξη θα είναι λίγο Γράφημα για την αναζήτηση και την μηχανή μετάφραση. Είμαι ακριβώς πρόκειται να δώσει ένα παράδειγμα για το πώς θα μπορούσε, για παράδειγμα, να μεταφράσει κάτι από τα πορτογαλικά στα αγγλικά. Ακούγεται καλό; >> Έτσι, η πρώτη, το πρόβλημα ταξινόμησης. Θα πω ότι αυτό το μέρος του σεμιναρίου πρόκειται να είναι το πιο δύσκολο μόνο και μόνο επειδή υπάρχει μετάβαση να είναι κάποια κωδικοποίηση. Αλλά πρόκειται να είναι Python. Ξέρω ότι εσείς δεν ξέρετε Python, έτσι Είμαι ακριβώς πρόκειται να εξηγήσει την υψηλή επίπεδο αυτό που κάνω. Και δεν χρειάζεται να ενδιαφέρονται πραγματικά πάρα πολύ πολύ για τη σύνταξη γιατί αυτό είναι κάτι που τα παιδιά μπορούν να μάθουν. Εντάξει; Ακούγεται καλό. >> Ποιο είναι λοιπόν το πρόβλημα ταξινόμησης; Έτσι, σας δίνεται κάποια στίχους για ένα τραγούδι και θέλετε να μαντέψετε ποιος το τραγουδάει. Και αυτό μπορεί να είναι για οποιοδήποτε είδος άλλα προβλήματα. Έτσι μπορεί να, για παράδειγμα, έχετε ένα προεδρική εκστρατεία και έχετε ένα την ομιλία, και θέλετε να βρείτε αν ήταν, για παράδειγμα, Ομπάμα ή Mitt Romney. Ή μπορείτε να έχετε μια δέσμη των emails και θέλετε να καταλάβω αν είναι spam ή όχι. Έτσι είναι μόνο μερικά ταξινόμηση δεδομένων με βάση τις λέξεις ότι έχετε εκεί. >> Έτσι για να το κάνουμε αυτό, θα πρέπει να κάνουμε κάποιες υποθέσεις. Έτσι, πολλά για την υπολογιστική γλωσσολογία κάνει υποθέσεις, Συνήθως είναι έξυπνο υποθέσεις, έτσι ώστε να μπορείτε να πάρετε καλά αποτελέσματα. Προσπαθώντας να δημιουργήσει ένα μοντέλο για αυτό. Και στη συνέχεια να το δοκιμάσετε και να δούμε αν αυτό δουλεύει, αν σας δίνει καλή ακρίβεια. Και αν το κάνει, τότε θα προσπαθούμε να τη βελτιώσουμε. Αν δεν το κάνει, είστε όπως, εντάξει, ίσως να θα πρέπει να κάνουν μια διαφορετική υπόθεση. >> Έτσι, η υπόθεση ότι θα πάμε να κάνω είναι ότι ένας καλλιτέχνης συνήθως τραγουδά σχετικά με ένα θέμα πολλές φορές, και ίσως χρησιμοποιεί λέξεις φορές πολλαπλάσιο, μόλις επειδή συνηθίσει σε αυτό. Μπορείτε να σκεφτείτε ακριβώς του φίλου σας. Είμαι βέβαιος ότι εσείς όλοι έχετε φίλους που λένε φράση υπογραφή τους, κυριολεκτικά για κάθε φράση - όπως κάποια συγκεκριμένη λέξη ή κάποια συγκεκριμένη φράση που λένε για κάθε πρόταση. >> Και αυτό που μπορούμε να πούμε είναι ότι αν δείτε μια φράση που έχει μια υπογραφή φράση, μπορείτε να υποθέσετε ότι πιθανώς ο φίλος σας είναι η κανείς δεν το λέει, σωστά; Έτσι θα κάνουμε αυτή την υπόθεση και στη συνέχεια αυτό είναι το πώς μπορείτε να δημιουργήσετε ένα μοντέλο. >> Το παράδειγμα που είμαι πρόκειται να δώσει είναι πώς Lady Gaga, για παράδειγμα, οι άνθρωποι λένε ότι χρησιμοποιεί «μωρό» για όλα νούμερο ένα τα τραγούδια της. Και στην πραγματικότητα αυτό είναι ένα βίντεο που δείχνει της, λέγοντας τη λέξη "baby" για διαφορετικά τραγούδια. >> [VIDEO PLAYBACK] >> - (ΤΡΑΓΟΥΔΙ) Baby. Baby. Baby. Baby. Baby. Babe. Baby. Baby. Baby. Baby. >> [ΤΕΛΟΣ VIDEO ΑΝΑΠΑΡΑΓΩΓΗ- >> LUCAS FREITAS: Έτσι υπάρχουν, νομίζω, 40 τραγούδια εδώ, στην οποία λέει το λέξη "baby". Έτσι, μπορείτε βασικά να μαντέψετε ότι αν δείτε ένα τραγούδι που έχει η λέξη "baby", εκεί είναι κάποια υψηλή πιθανότητα ότι η Lady Gaga. Αλλά ας προσπαθήσουμε να αναπτύξουμε αυτό ακόμη περισσότερο τυπικά. >> Έτσι, αυτά είναι στίχους για τραγούδια Lady Gaga και η Katy Perry. Έτσι θα δούμε Lady Gaga, θα βλέπουν έχουν πολλά περιστατικά "baby", μια πολλά περιστατικά του «τρόπο». Και στη συνέχεια Katy Perry έχει πολλά περιστατικά της "Η," πολλά περιστατικά «φωτιά». >> Έτσι, βασικά αυτό που θέλουμε να κάνουμε είναι, μπορείτε να πάρετε μια λυρική. Ας πούμε ότι έχετε ένα λυρικό ποίημα για ένα τραγούδι που είναι «το μωρό," μόνο "το μωρό." Αν μπορείτε να πάρετε μόνο τη λέξη "baby", και αυτό είναι όλα τα δεδομένα που έχετε από Lady Gaga και η Katy Perry, ο οποίος θα να μαντέψετε είναι το πρόσωπο που τραγουδά το τραγούδι; Lady Gaga ή η Katy Perry; Lady Gaga, σωστά; Επειδή αυτή είναι η μόνη που λέει "Baby". Αυτό ακούγεται ανόητο, έτσι δεν είναι; Εντάξει, αυτό είναι πραγματικά εύκολο. Είμαι απλά κοιτάζοντας τα δύο τραγούδια και Φυσικά, αυτή είναι η μόνη που έχει "Baby". >> Αλλά τι εάν έχετε μια δέσμη των λέξεων; Εάν έχετε μια πραγματική λυρική, κάτι όπως, "μωρό μου, απλά πήγε να δει ένα [; CFT?] διάλεξη, "ή κάτι τέτοιο, και τότε πρέπει πραγματικά να καταλάβουμε - με βάση όλες αυτές τις λέξεις - ποιος είναι ο καλλιτέχνης που πιθανώς τραγούδησε αυτό το τραγούδι; Οπότε ας προσπαθήσουμε να αναπτύξουμε αυτό το λίγο περισσότερο. >> ΕΝΤΑΞΕΙ, έτσι βασίζεται μόνο στα δεδομένα που έχουμε πήρε, φαίνεται ότι η Gaga είναι πιθανόν να η τραγουδίστρια. Αλλά πώς μπορούμε να γράφουμε αυτό πιο επίσημα; Και εκεί πρόκειται να είναι λίγο bit των στατιστικών στοιχείων. Έτσι, αν χαθείτε, προσπαθήστε απλά να κατανοήσουν την έννοια. Δεν έχει σημασία αν έχετε κατανοήσει οι εξισώσεις πολύ καλά. Αυτό είναι όλο πρόκειται να είναι σε απευθείας σύνδεση. >> Έτσι, βασικά αυτό που είμαι υπολογισμού είναι η πιθανότητα ότι αυτό το τραγούδι είναι από Lady Gaga, δεδομένου ότι - έτσι ώστε αυτή η γραμμή σημαίνει, δεδομένου ότι - Είδα τη λέξη "baby". Μήπως αυτό έχει νόημα; Έτσι προσπαθώ να υπολογίσει ότι η πιθανότητα. >> Υπάρχει, λοιπόν, αυτό το θεώρημα που ονομάζεται Bayes θεώρημα που λέει ότι η πιθανότητα μια δεδομένη Β, είναι η πιθανότητα B δοθεί Α, φορές το πιθανότητα Α, πάνω στην πιθανότητα του Β. Αυτό είναι μια μεγάλη εξίσωση. Αλλά αυτό που πρέπει να καταλάβετε από δηλαδή ότι αυτό είναι αυτό που θέλω να υπολογίσει, έτσι δεν είναι; Έτσι, η πιθανότητα ότι αυτό το τραγούδι είναι από Lady Gaga, δεδομένου ότι είδα τη λέξη "Baby". >> Και τώρα αυτό που παίρνω είναι το πιθανότητα η λέξη "baby" που δίνεται ότι έχω Lady Gaga. Και αυτό είναι που ουσιαστικά; Τι σημαίνει αυτό είναι, ποια είναι η πιθανότητα του να δει τη λέξη "baby" σε στίχους Gaga; Αν θέλω να υπολογίζουν ότι σε ένα πολύ απλό τρόπο, είναι ακριβώς ο αριθμός των φορές βλέπω "baby" επί του συνολικού αριθμού των λέξεων σε στίχους Gaga, σωστά; Ποια είναι η συχνότητα που βλέπω αυτή η λέξη στο έργο της Gaga; Νόημα; >> Ο δεύτερος όρος είναι η πιθανότητα Gaga. Τι σημαίνει αυτό; Αυτό ουσιαστικά σημαίνει, ποια είναι η πιθανότητα ταξινόμησης μερικοί στίχοι, όπως Gaga; Και αυτό είναι κάπως περίεργο, αλλά Ας σκεφτούμε ένα παράδειγμα. Ας πούμε ότι η πιθανότητα έχοντας «μωρό» σε ένα τραγούδι είναι το ίδιο για την Gaga και την Britney Spears. Αλλά η Britney Spears έχει δύο φορές περισσότερα τραγούδια από Lady Gaga. Έτσι, αν κάποιος σας δίνει μόνο τυχαία στίχους του "baby", το πρώτο πράγμα που εξετάσουμε είναι, ποια είναι η πιθανότητα της έχοντας «μωρό» σε ένα τραγούδι Gaga, "baby" σε ένα τραγούδι Britney; Και είναι το ίδιο πράγμα. >> Έτσι, το δεύτερο πράγμα που θα δείτε είναι, καλά, ποια είναι η πιθανότητα της αυτό το λυρικό ποίημα από μόνη της είναι ένα λυρικό Gaga, και ποια είναι η πιθανότητα του είναι ένα λυρικό Britney; Έτσι, δεδομένου ότι η Britney έχει τόσα πολλά περισσότερα στίχους από Gaga, τότε σίγουρα ας πούμε, καλά, αυτό είναι πιθανώς λυρικός Britney. Έτσι, γι 'αυτό έχουμε αυτό το θητεία εδώ. Πιθανότητα Gaga. Έχει νόημα; Μήπως αυτό; OK. >> Και το τελευταίο είναι μόνο η πιθανότητα "baby", το οποίο δεν πραγματικά έχει τόσο μεγάλη σημασία. Αλλά είναι η πιθανότητα βλέποντας «μωρό» στα αγγλικά. Εμείς συνήθως δεν με νοιάζει ότι πολύ για αυτόν τον όρο. Μήπως αυτό έχει νόημα; Έτσι, η πιθανότητα Gaga είναι ονομάζεται η εκ των προτέρων πιθανότητα της κατηγορίας Gaga. Διότι αυτό σημαίνει απλώς ότι, ποια είναι η πιθανότητα να έχουν αυτή την κατηγορία - που είναι Gaga - μόνο σε γενικές γραμμές, ακριβώς χωρίς άλλες προϋποθέσεις. >> Και στη συνέχεια, όταν έχω πιθανότητα Gaga δοθεί «μωρό», λέμε συν Δακρυσμένα μια πιθανότητα επειδή είναι η πιθανότητα να έχουν Gaga δώσει ορισμένες ενδείξεις. Γι 'αυτό σου δίνω τα στοιχεία ότι είδα τη λέξη μωρό και το τραγούδι έχει νόημα; OK. >> Έτσι, Αν υπολογιστεί ότι για κάθε από τα τραγούδια της Lady Gaga, τι θα είναι - προφανώς, δεν μπορώ να το μετακινήσω. Η πιθανότητα της Gaga θα είναι κάτι σαν, 2 άνω των 24 ετών, 1/2 πάνω από 2 άνω των 53. Δεν έχει σημασία αν γνωρίζετε τι οι αριθμοί αυτοί προέρχονται από. Αλλά είναι απλά ένας αριθμός που πρόκειται να είναι περισσότερο από 0, σωστά; >> Και στη συνέχεια, όταν κάνω Katy Perry, ο πιθανότητα "baby" που δίνεται Katy είναι ήδη 0, σωστά; Επειδή δεν υπάρχει "baby" στην Katy Perry. Έτσι, τότε αυτό γίνεται 0, και Gaga νίκες, πράγμα που σημαίνει ότι η Gaga είναι ίσως η τραγουδίστρια. Μήπως αυτό έχει νόημα; OK. >> Έτσι, εάν θέλετε να κάνετε αυτό το πιο επίσημο, Μπορώ να κάνω πραγματικότητα ένα μοντέλο πολλές λέξεις. Ας πούμε ότι έχω κάτι όπως, "baby, είμαι φωτιά », ή κάτι τέτοιο. Γι 'αυτό έχει πολλές λέξεις. Και σε αυτή την περίπτωση, μπορείτε να δείτε ότι «μωρό» είναι στην Gaga, αλλά δεν είναι σε Katy. Και "φωτιά" είναι στην Katy, αλλά δεν είναι σε Gaga, σωστά; Γι 'αυτό είναι να πάρει πιο περίπλοκη, έτσι δεν είναι; Επειδή φαίνεται ότι σχεδόν έχει μια σχέση μεταξύ των δύο. >> Έτσι, αυτό που έχετε να κάνετε είναι να υποθέσουμε ανεξαρτησία μεταξύ των λέξεων. Έτσι, βασικά, τι σημαίνει αυτό είναι ότι Είμαι απλά υπολογισμό ποια είναι η πιθανότητα να δει «μωρό», τι είναι η πιθανότητα του να δει "Εγώ", και "Είμαι", και "για" και "φωτιά" όλα ξεχωριστά. Τότε είμαι πολλαπλασιάζοντας όλα αυτά. Και βλέπω ποια είναι η πιθανότητα να δει το σύνολο της ποινής. Νόημα; >> Έτσι, βασικά, αν έχω μόνο μια λέξη, αυτό που θέλετε να βρείτε είναι το arg max, πράγμα που σημαίνει, ποια είναι η τάξη που είναι που μου έδωσε τη μεγαλύτερη πιθανότητα; Έτσι ποια είναι η τάξη που δίνει με την υψηλότερη πιθανότητα για πιθανότητα της τάξης δεδομένη λέξη. Έτσι, στην περίπτωση αυτή, δίνονται Gaga "baby". Ή Katy δοθεί «μωρό». Νόημα; >> Και μόνο από Bayes, ότι εξίσωση που μου έδειξε, έχουμε δημιουργήσει αυτό το κλάσμα. Το μόνο πράγμα είναι ότι μπορείτε να δείτε ότι η πιθανότητα της λέξης, δεδομένης της ταξικές αλλαγές ανάλογα με την κατηγορία, έτσι δεν είναι; Ο αριθμός των "baby" s που έχω στην Gaga είναι διαφορετική από Katy. Η πιθανότητα της τάξης και αλλαγές, επειδή είναι ακριβώς ο αριθμός τραγούδια το καθένα από αυτά έχει. >> Αλλά η πιθανότητα της ίδιας της λέξης πρόκειται να είναι η ίδια για όλα τα καλλιτέχνες, έτσι δεν είναι; Έτσι, η πιθανότητα της λέξης είναι ακριβώς, ποια είναι η πιθανότητα της βλέποντας αυτή τη λέξη στο Αγγλική γλώσσα; Έτσι είναι το ίδιο για όλα αυτά. Έτσι, δεδομένου ότι αυτή είναι σταθερή, μπορούμε απλά drop αυτό και δεν με νοιάζει γι 'αυτό. Έτσι, αυτό θα είναι στην πραγματικότητα η εξίσωση που ψάχνουμε. >> Και αν έχω πολλές λέξεις, είμαι ακόμα πρόκειται να έχουν εκ των προτέρων πιθανότητα εδώ. Το μόνο πράγμα είναι ότι είμαι πολλαπλασιασμό η πιθανότητα όλες οι άλλες λέξεις. Έτσι είμαι πολλαπλασιάζοντας όλα αυτά. Νόημα; Φαίνεται παράξενο, αλλά ουσιαστικά σημαίνει, υπολογίσει την προηγούμενη της κατηγορίας, και Στη συνέχεια πολλαπλασιάστε με την πιθανότητα της κάθε από τις λέξεις που είναι σε αυτή την κατηγορία. >> Και ξέρετε ότι η πιθανότητα μιας λέξη δοθεί τάξη θα πρέπει να είναι η πόσες φορές θα δείτε ότι η λέξη ότι η τάξη, διαιρούμενο με τον αριθμό των λέξεις που έχετε σε αυτό τάξης γενικά. Νόημα; Είναι ακριβώς πώς «μωρό» ήταν 2 πάνω ο αριθμός των λέξεων που Είχα στους στίχους. Έτσι, μόλις η συχνότητα. >> Αλλά υπάρχει ένα πράγμα. Θυμηθείτε πώς ήταν που δείχνουν ότι το πιθανότητα "baby" είναι οι στίχοι από την Katy Perry ήταν 0 μόνο και μόνο επειδή Katy Perry δεν είχε «μωρό» σε όλα; Αλλά ακούγεται λίγο σκληρή για λίγο απλά να πω ότι οι στίχοι δεν μπορεί να είναι από ένας καλλιτέχνης μόνο και μόνο επειδή δεν έχουν η λέξη ειδικότερα οποιαδήποτε στιγμή. >> Έτσι θα μπορούσε απλώς να πω, καλά, αν δεν έχουν αυτή τη λέξη, Πάω να σας δώσει μια μικρότερη πιθανότητα, αλλά είμαι απλά δεν πρόκειται να να σας δώσω 0 αμέσως. Επειδή ίσως ήταν κάτι σαν, "Φωτιά, φωτιά, φωτιά, φωτιά," η οποία είναι εντελώς Katy Perry. Και στη συνέχεια "baby", και πηγαίνει μόνο για να 0 αμέσως, διότι υπήρχε ένα "Baby". >> Έτσι, ουσιαστικά αυτό που κάνουν είναι κάτι Laplace ονομάζεται εξομάλυνση. Και αυτό σημαίνει απλά ότι δίνω κάποια πιθανότητα ακόμα και τις λέξεις ότι δεν υπάρχουν. Έτσι, αυτό που κάνω είναι ότι, όταν είμαι υπολογισμό αυτό, πάντα να προσθέσετε 1 ο αριθμητής. Έτσι, ακόμη και αν η λέξη αυτή δεν υπάρχει, σε Στην περίπτωση αυτή, αν αυτό είναι 0, είμαι ακόμα υπολογισμό αυτό ως 1 πάνω από το συνολικό αριθμό των λέξεων. Διαφορετικά, παίρνω πόσες λέξεις Δεν έχω και μπορώ να προσθέσω 1. Έτσι Μετράω για τις δύο περιπτώσεις. Νόημα; >> Έτσι τώρα ας κάνουμε κάποια κωδικοποίηση. Πάω να πρέπει να το κάνουμε πολύ γρήγορα, αλλά είναι ακριβώς σημαντικό να παιδιά να κατανοήσουν τις έννοιες. Έτσι, αυτό που προσπαθούμε να κάνουμε Είναι ακριβώς αυτή η εφαρμογή πράγμα που μόλις είπα - Θέλω να δώσω στους στίχους από Lady Gaga και η Katy Perry. Και το πρόγραμμα πρόκειται να είναι σε θέση να πει εάν αυτά τα νέα λυρικά ποιήματα είναι από Gaga ή Katy Perry. Νόημα; OK. >> Έτσι, δεν έχω αυτό το πρόγραμμα Πάω να καλέσει classify.py. Έτσι, αυτή είναι η Python. Είναι μια νέα γλώσσα προγραμματισμού. Είναι πολύ παρόμοια σε ορισμένα τρόπους για την C και PHP. Είναι παρόμοιο γιατί αν θέλετε να να μάθουν Python μετά γνωρίζοντας C, είναι πραγματικά δεν είναι ότι μεγάλη πρόκληση μόνο και μόνο επειδή Python είναι πολύ πιο εύκολο από C, πρώτα απ 'όλα. Και πολλά πράγματα είναι ήδη εφαρμοστεί για εσάς. Τόσο ακριβώς πώς όπως η PHP διαθέτει λειτουργίες που ταξινομήσετε μια λίστα, ή να προσθέσετε κάτι σε μια σειρά, ή μπλα, μπλα, μπλα. Η Python έχει όλα αυτά, καθώς και. >> Έτσι, είμαι απλώς πρόκειται να εξηγήσω γρήγορα πώς μπορούμε να κάνουμε την ταξινόμηση πρόβλημα εδώ. Έτσι, ας πούμε ότι σε αυτή την περίπτωση, έχω στίχους από Gaga και Katy Perry. Ο τρόπος που έχω αυτούς τους στίχους είναι ότι η πρώτη λέξη των στίχων είναι το όνομα του καλλιτέχνη, και το υπόλοιπο είναι οι στίχοι. Ας πούμε ότι έχω τον κατάλογο αυτό στην οποία το πρώτο είναι σε στίχους του Gaga. Έτσι, εδώ είμαι στο σωστό δρόμο. Και το επόμενο είναι Katy, και Έχει επίσης τους στίχους. >> Έτσι, αυτό είναι το πώς θα δηλώσουν μια μεταβλητή στην Python. Δεν χρειάζεται να δώσει τον τύπο δεδομένων. Απλά γράψτε "στίχους" το είδος του αρέσει στην PHP. Νόημα; >> Ποια είναι λοιπόν τα πράγματα που έχω να υπολογίζουν να είναι σε θέση να υπολογίσει το πιθανότητες; Θα πρέπει να υπολογίσετε τις "ηγουμένων" εκάστου των διαφόρων τάξεις που έχω. Θα πρέπει να υπολογίσετε τις "posteriors" ή λίγο πολύ οι πιθανότητες κάθε μία από τις διαφορετικές λέξεις που Μπορώ να έχω για κάθε καλλιτέχνη. Έτσι, μέσα Gaga, για παράδειγμα, Πάω να έχουν μια λίστα για το πώς πολλές φορές βλέπω κάθε μία από τις λέξεις. Νόημα; >> Και τέλος, είμαι απλώς πρόκειται να έχουν κατάλογο που ονομάζεται «λέξεις» που είναι ακριβώς πρόκειται να έχει πόσες λέξεις μπορώ έχει για κάθε καλλιτέχνη. Έτσι, για Gaga, για παράδειγμα, όταν κοιτάζω με τους στίχους, είχα, νομίζω, 24 λέξεις συνολικά. Έτσι, ο κατάλογος αυτός είναι ακριβώς πρόκειται να έχουν 24 Gaga και Katy άλλο αριθμό. Νόημα; OK. >> Έτσι, τώρα, στην πραγματικότητα, ας πηγαίνετε στην κωδικοποίηση. Έτσι, Python, μπορείτε πραγματικά να επιστρέψει μια δέσμη των διαφορετικών τα πράγματα από μια συνάρτηση. Έτσι, Πάω να δημιουργήσει αυτή τη λειτουργία που ονομάζεται "υπό όρους", το οποίο πρόκειται να επιστρέψει όλα αυτά τα πράγματα, η "Ηγουμένων», οι «πιθανότητες», και η «Λέξεις». Έτσι, «υπό όρους», και είναι πρόκειται να τεθούν υπό "στίχους." >> Έτσι τώρα θέλω πραγματικά να γράψω αυτή τη λειτουργία. Έτσι, ο τρόπος που μπορώ να γράψω αυτό λειτουργία Απλά ορίζεται αυτό λειτουργούν με "def." Έτσι έκανα "def υπό όρους, "και αυτό είναι που λαμβάνουν "Στίχους." Και τι είναι αυτό πρόκειται να κάνει Είναι, πρώτα απ 'όλα, έχω priors μου ότι θέλετε να υπολογίσετε. >> Έτσι, ο τρόπος που μπορώ να το κάνετε αυτό είναι να δημιουργήσετε λεξικό σε Python, που είναι λίγο πολύ το ίδιο πράγμα με ένα hash πίνακα, ή σαν μια επαναληπτική array στην PHP. Αυτό είναι το πώς θα κηρύξει ένα λεξικό. Και βασικά αυτό σημαίνει ότι ηγούμενοι της Gaga είναι 0,5, για παράδειγμα, αν 50% των στίχων είναι από Gaga, το 50% είναι από την Katy. Νόημα; Γι 'αυτό και πρέπει να καταλάβω πώς για τον υπολογισμό των ηγουμένων. >> Οι επόμενες αυτά που έχω να κάνω, επίσης, είναι οι πιθανότητες και οι λέξεις. Έτσι, οι πιθανότητες της Gaga είναι η λίστα από όλες τις πιθανότητες που έχω πρέπει για κάθε μία από τις λέξεις Gaga. Έτσι, αν πάω σε πιθανότητες Gaga "Baby", για παράδειγμα, αυτό θα μου δώσει κάτι σαν 2 πάνω από 24 στην εν λόγω υπόθεση. Νόημα; Γι 'αυτό πηγαίνετε στο "πιθανότητες", μεταβείτε στην "Gaga" κουβά που έχει μια λίστα με όλα οι λέξεις Gaga, τότε πηγαίνετε στο "μωρό" και βλέπω την πιθανότητα. >> Και τέλος, έχω αυτό "Λέξεις" λεξικό. Έτσι, εδώ, "πιθανότητες." Και στη συνέχεια «Λέξεις». Έτσι, αν το κάνω "λέξεις", "Gaga" τι πρόκειται να συμβεί είναι ότι είναι πρόκειται να μου δώσει 24, λέγοντας ότι έχουν 24 λέξεις μέσα από τους στίχους Gaga. Έχει νόημα; Έτσι, εδώ, «λέξεις» ισούται Ντα-ντα-ντα. Καλά >> Λοιπόν, τι Πάω να κάνουμε είναι να πάω να επαναλάβει σε καθένα από τους στίχους, έτσι κάθε μία από τις χορδές που Έχω στη λίστα. Και Πάω να υπολογίσει αυτά τα πράγματα για κάθε ένα από τους υποψηφίους. Έχει νόημα; Γι 'αυτό πρέπει να κάνουμε ένα βρόχο. >> Έτσι, Python, τι μπορώ να κάνω είναι "για τη γραμμή στους στίχους. "Το ίδιο πράγμα με ένα "Για κάθε" δήλωση στην PHP. Θυμηθείτε πως αν ήταν PHP θα μπορούσα λένε «για κάθε στίχους γραμμή. "Έχει νόημα; Έτσι παίρνω κάθε μία από τις γραμμές, σε αυτό το την περίπτωση, αυτή η συμβολοσειρά και το επόμενο κορδόνι για καθεμία από τις γραμμές αυτό που είμαι πρόκειται να κάνουμε είναι η πρώτη, Πάω να χωρίσει αυτή τη γραμμή σε μια λίστα λέξεις χωρισμένες με κενά. >> Έτσι, το δροσερό πράγμα για την Python είναι ότι θα μπορούσατε απλά Google, όπως «πώς μπορώ να χωρίσει ένα string σε λέξεις; "Και είναι πρόκειται να σας πω πώς να το κάνουμε. Και ο τρόπος για να το κάνουμε, είναι ακριβώς "γραμμή = Line.split () "και είναι ουσιαστικά πρόκειται να σας δώσει μια λίστα με καθεμία από τις λέξεις εδώ. Έχει νόημα; Έτσι, τώρα που έκανα ότι θέλω να ξέρω ποιος είναι ο τραγουδιστής του τραγουδιού. Και για να το κάνουμε αυτό έχω μόνο να πάρει το το πρώτο στοιχείο του πίνακα, έτσι δεν είναι; Έτσι μπορώ να πω ότι έχω "τραγουδιστής = Γραμμή (0) "Έχει νόημα; >> Και τότε τι πρέπει να κάνω είναι, πρώτα απ ' όλα, Πάω να ενημερώσει πόσοι τα λόγια που έχω στο "Gaga". έτσι είμαι απλά πρόκειται να υπολογίσει πόσες λέξεις I έχουν σε αυτή τη λίστα, έτσι δεν είναι; Επειδή αυτό είναι πόσες λέξεις έχω στους στίχους και είμαι απλώς πρόκειται να προσθέσετε στη "Gaga" συστοιχία. Μήπως αυτό έχει νόημα; Μην εστιάζετε υπερβολικά στη σύνταξη. Σκεφτείτε περισσότερα σχετικά με τις έννοιες. Αυτό είναι το πιο σημαντικό μέρος. OK. >> Έτσι, αυτό που μπορώ να κάνω είναι αν «Gaga» είναι ήδη στον εν λόγω κατάλογο, έτσι ώστε «αν τραγουδιστής λέξεις "που σημαίνει ότι έχω ήδη έχουν λέξεις Gaga. Θέλω απλά να προσθέσετε το πρόσθετο λέξεις σε αυτό. Έτσι, αυτό που κάνω είναι "λέξεις (τραγουδιστής) + = Len (γραμμή) - 1 ". Και τότε μπορώ να κάνω ακριβώς το μήκος της γραμμής. Πώς, λοιπόν, πολλά στοιχεία που έχουν στη συστοιχία. Και έχω να κάνω μείον 1 μόνο και μόνο επειδή το πρώτο στοιχείο του πίνακα είναι μόνο τραγουδιστής και εκείνων που δεν είναι στίχοι. Έχει νόημα; OK. >> "Διαφορετικά", αυτό σημαίνει ότι θέλω πραγματικά να εισάγετε Gaga στη λίστα. Γι 'αυτό ακριβώς κάνει "λέξεις (τραγουδιστής) = Len (γραμμή) - 1, "συγγνώμη. Έτσι, η μόνη διαφορά μεταξύ των δύο γραμμές είναι ότι αυτό το ένα, δεν το κάνει υπάρχει ακόμα, οπότε είμαι απλά αρχικοποίησή. Αυτός είμαι πραγματικά προσθήκη. OK. Έτσι, αυτό ήταν η προσθήκη στα λόγια. >> Τώρα θέλω να προσθέσω στα priors. Λοιπόν, πώς μπορώ να υπολογίσω τις priors; Μπορούν να υπολογίζονται και οι ηγούμενοι από το πόσες φορές. Έτσι, πόσες φορές θα δείτε ότι τραγουδιστής μεταξύ όλων των τραγουδιστών που έχουν, έτσι δεν είναι; Έτσι, για την Gaga και η Katy Perry, σε αυτή την περίπτωση, βλέπω Gaga φορά, Katy Perry φορά. >> Έτσι, ουσιαστικά οι ηγούμενοι για Gaga και για την Katy Perry θα απλά να είναι ένα, έτσι δεν είναι; Απλά πόσες φορές Βλέπω τον καλλιτέχνη. Έτσι, αυτό είναι πολύ εύκολο να υπολογιστεί. Μπορώ ακριβώς κάτι παρόμοιο σαν «εάν τραγουδιστής σε priors, "Είμαι ακριβώς πρόκειται να προσθέσετε 1 έως ηγούμενοι κουτί τους. Έτσι, «οι ηγούμενοι (τραγουδούν)" + = 1 "και στη συνέχεια" αλλιώς " Πάω να κάνω "priors (τραγουδιστής) = 1. "Έχει νόημα; >> Έτσι, αν δεν υπάρχει έβαλα ακριβώς το 1, αλλιώς απλά προσθέστε 1. ΕΝΤΑΞΕΙ, έτσι τώρα το μόνο που μου έχει μείνει να κάνω είναι επίσης να προσθέσετε κάθε μία από τις λέξεις για να το πιθανοτήτων. Γι 'αυτό πρέπει να μετρήσει πόσες φορές Βλέπω κάθε μία από τις λέξεις. Γι 'αυτό ακριβώς πρέπει να κάνουμε άλλο βρόχος for στην γραμμή. >> Έτσι το πρώτο πράγμα που Πάω να κάνουμε είναι να ελέγξτε αν ο τραγουδιστής έχει ήδη πιθανότητες πίνακα. Έτσι Φεύγω αν ο τραγουδιστής δεν έχουν μια σειρά πιθανοτήτων, είμαι απλά πρόκειται να προετοιμαστεί για αυτούς. Δεν είναι καν μια σειρά, συγγνώμη, Είναι ένα λεξικό. Έτσι, οι πιθανότητες του τραγουδιστή πρόκειται να είναι μια ανοιχτή λεξικό, έτσι είμαι ακριβώς την προετοιμασία μιας λεξικό για αυτό. Εντάξει; >> Και τώρα μπορώ να κάνω πραγματικότητα ένα βρόχο για τον υπολογισμό κάθε ένα από τις λέξεις " πιθανοτήτων. OK. Έτσι, αυτό που μπορώ να κάνω είναι ένα βρόχο. Έτσι, είμαι απλώς πρόκειται να μετακινηθείτε πάνω από τη συστοιχία. Έτσι, ο τρόπος που μπορώ να το κάνω αυτό στην Python είναι "για το i in range." Από 1 γιατί θέλω να ξεκινήσει το δεύτερο στοιχείο, επειδή το πρώτο είναι η όνομα τραγουδιστή. Έτσι, από το ένα μέχρι το μήκος της γραμμής. Και όταν κάνω κυμαίνονται πραγματικά να πάει από όπως εδώ, από την 1η έως τζαμάκι της γραμμή μείον 1. Έτσι, το κάνει ήδη αυτό το πράγμα να γίνει n μείον 1 για συστοιχίες που είναι πολύ βολικό. Έχει νόημα; >> Έτσι, για κάθε ένα από αυτά, τι Πάω να κάνουμε είναι, ακριβώς όπως και στην άλλη, Πάω να ελέγξετε αν η λέξη αυτή θέση στην γραμμή είναι ήδη πιθανοτήτων. Και τότε, όπως είπα και εδώ, οι πιθανότητες λέξεις, όπως το έβαλα "Πιθανοτήτων (τραγουδιστής)". Έτσι, το όνομα του τραγουδιστή. Έτσι, αν είναι ήδη σε "Probabilit (τραγουδιστής)", αυτό σημαίνει ότι θέλετε να προσθέσετε 1 σε αυτό, έτσι είμαι πρόκειται να κάνει "πιθανοτήτων (τραγουδιστής)», και η λέξη ονομάζεται "γραμμή (θ)". Πάω να προσθέσετε 1 και "αλλιώς" Είμαι απλά πρόκειται να γίνει η προετοιμασία για την 1. "Line (i)". Έχει νόημα; >> Έτσι, υπολογίζεται το σύνολο των συστοιχιών. Έτσι, τώρα το μόνο που έχω να κάνω για αυτό είναι ακριβώς "επιστροφή priors, πιθανότητες και τις λέξεις. "Ας δείτε αν υπάρχουν, OK. Φαίνεται ότι τα πάντα λειτουργεί μέχρι σήμερα. Έτσι, αυτό έχει νόημα; Κατά κάποιο τρόπο; OK. Έτσι, τώρα έχω όλες τις πιθανότητες. Έτσι τώρα το μόνο πράγμα που μου έχει απομείνει είναι απλά για να έχουν αυτό το πράγμα που υπολογίζει το γινόμενο όλων των πιθανοτήτων όταν παίρνω τους στίχους. >> Ας πούμε ότι θέλω να καλέσω τώρα Αυτή η λειτουργία "ταξινομούν ()" και το πράγμα που παίρνει τη λειτουργία είναι απλά ένα επιχείρημα. Ας πούμε "Baby, είμαι φωτιά" και είναι πρόκειται να καταλάβω ποια είναι η πιθανότητα ότι αυτό είναι Gaga; Ποια είναι η πιθανότητα ότι αυτή είναι η Katie; Ακούγεται καλό; Έτσι, είμαι απλώς πρόκειται να πρέπει να δημιουργήσετε ένα νέα λειτουργία που ονομάζεται "ταξινομούν ()" και πρόκειται να πάρει κάποιο στίχους, καθώς και. Και εκτός από τους στίχους επίσης πρέπει να στείλετε τα priors, η πιθανότητες και οι λέξεις. Έτσι, Πάω να στείλει στίχους, priors, πιθανοτήτων, λόγια. >> Έτσι, αυτό παίρνει στίχους, priors, πιθανοτήτων, λόγια. Έτσι, τι κάνει; Είναι βασικά πρόκειται να περάσουν από όλα οι πιθανοί υποψήφιοι που θα έχουν ως τραγουδιστής. Και πού είναι οι υποψήφιοι; Είναι Στις priors, σωστά; Έτσι έχω όλα αυτά εκεί. Έτσι, Πάω να έχουμε ένα λεξικό όλων των πιθανών υποψηφίων. Και στη συνέχεια, για κάθε υποψήφιο στην ηγουμένων, οπότε αυτό σημαίνει ότι πρόκειται να να Gaga, Katie αν είχα περισσότερο θα ήταν περισσότερο. Πάω να αρχίσουν να υπολογίζουν αυτή η πιθανότητα. Η πιθανότητα όπως είδαμε στην PowerPoint είναι οι προηγούμενες φορές το προϊόν καθενός από τα άλλες πιθανότητες. >> Έτσι, μπορώ να κάνω το ίδιο και εδώ. Δεν μπορώ ακριβώς να κάνω πιθανότητα είναι αρχικά μόνο η προηγούμενη. Έτσι, ηγούμενοι του υποψηφίου. Σωστά; Και τώρα έχω να επαναλάβετε σε όλους η λέξεις που έχω τους στίχους να είναι μπορείτε να προσθέσετε την πιθανότητα για καθένα από αυτά, εντάξει; Έτσι, "για τη λέξη σε στίχους" τι Πάω να κάνουμε είναι, εάν η λέξη είναι σε "Πιθανοτήτων (υποψήφιος)", η οποία σημαίνει ότι είναι μια λέξη που ο υποψήφιος έχει στους στίχους τους - για παράδειγμα, "baby" για Gaga - τι Πάω να κάνουμε είναι ότι η πιθανότητα πρόκειται να πολλαπλασιαστεί από 1 συν οι πιθανότητες ο υποψήφιος για αυτή τη λέξη. Και αυτό λέγεται "λέξη". Αυτό διαιρούμενο με τον αριθμό των λέξεων που έχω για τον εν λόγω υποψήφιο. Ο συνολικός αριθμός των λέξεων που έχω για τον τραγουδιστή που κοιτάω. >> «Αλλιώς». αυτό σημαίνει ότι είναι μια νέα λέξη έτσι θα ήθελα να είναι όπως, για παράδειγμα, "Φωτιά" για την Lady Gaga. Γι 'αυτό ακριβώς θέλουν να κάνουν πάνω από 1 "Λέξη (υποψήφιος)". Γι 'αυτό και δεν θέλει να βάλει ο όρος αυτός εδώ. >> Γι 'αυτό πρόκειται να είναι ουσιαστικά αντιγραφή και επικόλληση αυτό. Αλλά Πάω να διαγράψετε αυτό το μέρος. Γι 'αυτό ακριβώς πρόκειται να είναι πάνω από 1 αυτό. Ακούγεται καλό; Και τώρα στο τέλος, είμαι απλώς πρόκειται να εκτυπώσετε το όνομα του υποψηφίου και η πιθανότητα που έχετε της έχοντας το S για τους στίχους τους. Έχει νόημα; Και εγώ πραγματικά δεν χρειάζεται καν Πρέπει αυτό το λεξικό. Έχει νόημα; >> Έτσι, ας δούμε αν αυτό λειτουργεί πραγματικά. Έτσι, αν το τρέχω, δεν λειτούργησε. Περιμένετε ένα δευτερόλεπτο. "Λόγια (υποψήφιος)", "λέξεις (υποψήφιος)", αυτό είναι το όνομα της συστοιχίας. Εντάξει λοιπόν, λέει ότι υπάρχει κάποιο bug για τις υποψήφιες σε priors. Επιτρέψτε μου να χαλαρώσω λίγο. OK. Ας προσπαθήσουμε. OK. >> Γι 'αυτό δίνει Katy Perry έχει αυτό πιθανότητα αυτού φορές 10 έως το μείον 7, και αυτό έχει Gaga 10 φορές με το μείον 6. Βλέπετε λοιπόν δείχνει ότι Gaga έχει μια μεγαλύτερη πιθανότητα. Έτσι, "Μωρό μου, είμαι on Fire" είναι ίσως ένα τραγούδι Gaga. Έχει νόημα; Έτσι, αυτό είναι ό, τι κάναμε. >> Αυτός ο κωδικός θα πρέπει να δημοσιεύονται στο διαδίκτυο, έτσι εσείς μπορείτε να ελέγξετε έξω. Ίσως χρησιμοποιήσετε κάποια από αυτό, αν θέλετε να κάνει ένα έργο ή κάτι παρόμοιο. OK. Αυτό ήταν ακριβώς να δείξει τι υπολογιστική Κωδικός γλωσσολογία μοιάζει. Αλλά τώρα ας πάμε σε πιο πράγματα υψηλού επιπέδου. OK. >> Έτσι, τα άλλα προβλήματα που μιλούσε για - το πρόβλημα του κατακερματισμού είναι το πρώτο από αυτά. Έτσι έχετε εδώ ιαπωνική γλώσσα. Και τότε θα δείτε ότι δεν υπάρχουν κενά διαστήματα. Έτσι, αυτό είναι βασικά σημαίνει ότι είναι η κορυφή της καρέκλας, έτσι δεν είναι; Θα μιλούν ιαπωνικά; Είναι η κορυφή της καρέκλας, έτσι δεν είναι; >> ΦΟΙΤΗΤΗΣ: Δεν ξέρω τι το kanji εκεί είναι. >> LUCAS FREITAS: Είναι [ΟΜΙΛΙΑ ΙΑΠΩΝΙΚΗ] OK. Έτσι, αυτό σημαίνει βασικά πρόεδρος της κορυφής. Έτσι, αν έπρεπε να βάλει ένα χώρο θα ήταν εδώ. Και τότε θα πρέπει [? Ueda-san. ?] Το οποίο ουσιαστικά σημαίνει ότι ο κ. Ueda. Και βλέπετε ότι «Ueda» και έχετε ένα χώρο και στη συνέχεια "san." Έτσι, θα δείτε ότι εδώ "Ue" είναι σαν από μόνη της. Και εδώ έχει χαρακτήρα δίπλα σε αυτό. >> Έτσι, δεν είναι όπως σε αυτές τις γλώσσες χαρακτήρες που σημαίνει μια λέξη που, έτσι ώστε να απλά βάλτε πολλά κενά. Χαρακτήρες σχετίζονται μεταξύ τους. Και μπορεί να είναι μαζί σαν δύο, τρεις, ένα. Έτσι, μπορείτε πραγματικά να δημιουργήσει κάποιο είδος του τρόπου βάζοντας αυτούς τους χώρους. >> Και αυτό το πράγμα είναι ότι κάθε φορά που θα πάρετε δεδομένα από τις ασιατικές γλώσσες, ό, τι έρχεται συνοστέωσης. Επειδή κανείς που γράφει Ιαπωνικά ή κινέζικα γράφει με κενά. Κάθε φορά που γράφεις κινέζικα, Ιαπωνικά μπορείτε απλά να γράψετε τα πάντα χωρίς κενά. Δεν έχει καν νόημα να θέσει χώρους. Έτσι, στη συνέχεια, όταν μπορείτε να πάρετε τα στοιχεία από, μερικά Γλώσσα της Ανατολικής Ασίας, αν θέλετε να πραγματικά να κάνουμε κάτι με αυτό έχετε στο τμήμα του πρώτου. >> Σκεφτείτε να κάνει το παράδειγμα της οι στίχοι χωρίς κενά. Έτσι, το μόνο στίχους που έχετε θα ποινές, έτσι δεν είναι; Που χωρίζονται από τελείες. Αλλά στη συνέχεια, έχοντας μόνο την ποινή θα δεν πραγματικά να βοηθήσει για την παροχή πληροφοριών του ποιοι είναι αυτοί οι στίχοι είναι του. Σωστά; Έτσι, θα πρέπει να βάζει πρώτα τους χώρους. Λοιπόν, πώς μπορείτε να το κάνετε αυτό; >> Έτσι, τότε έρχεται η ιδέα μιας γλώσσας μοντέλο το οποίο είναι κάτι πραγματικά σημαντική για την υπολογιστική γλωσσολογία. Έτσι, ένα μοντέλο γλώσσας είναι ουσιαστικά ένα πίνακα των πιθανοτήτων που δείχνει πρώτα απ 'όλα ποια είναι η πιθανότητα έχουν τη λέξη σε μια γλώσσα; Έτσι, δείχνει πόσο συχνά μια λέξη είναι. Και στη συνέχεια, δείχνει επίσης τη σχέση μεταξύ των λέξεων σε μια πρόταση. >> Έτσι, η βασική ιδέα είναι, αν ήρθε ένας ξένος σε σας και είπε μια πρόταση για σας, ποια είναι η πιθανότητα ότι, για παράδειγμα, "αυτή είναι η αδελφή μου [GTF;"?] ήταν η φράση ότι το πρόσωπο που είπε; Έτσι, προφανώς, ορισμένες φράσεις είναι πιο κοινή από ό, τι άλλες. Για παράδειγμα, "καλημέρα" ή "καλή νύχτα ", ή" Hey εκεί, "είναι πολύ πιο κοινή από ό, τι οι περισσότεροι ποινές ότι έχουμε μια αγγλική. Γιατί, λοιπόν, είναι αυτές ποινές και πιο συχνά; >> Πρώτα απ 'όλα, είναι επειδή έχετε λέξεις που είναι πιο συχνές. Έτσι, για παράδειγμα, αν σας πω, ο σκύλος είναι μεγάλη, και το σκυλί είναι γιγαντιαία, σας συνήθως ακούσετε πιθανώς ο σκύλος είναι μεγάλος πιο συχνά, επειδή "μεγάλο" είναι πιο συχνή στα αγγλικά από το «γιγάντιο». Έτσι, μία από τις τα πράγματα είναι η συχνότητα λέξη. >> Το δεύτερο πράγμα που είναι πραγματικά σημαντικό είναι μόνο η σειρά των λέξεων. Έτσι, είναι κοινό να πούμε «η γάτα είναι μέσα στο κουτί. ", αλλά δεν το κάνετε συνήθως δείτε στο "The κουτί μέσα είναι η γάτα." έτσι θα δείτε ότι υπάρχει κάποια σημασία με τη σειρά των λέξεων. Δεν μπορούμε απλά να πούμε ότι αυτά τα δύο φράσεις έχουν την ίδια πιθανότητα μόνο και μόνο επειδή έχουν τις ίδιες λέξεις. Μπορείτε πραγματικά πρέπει να φροντίσουν σχετικά με την παραγγελία, καθώς και. Νόημα; >> Οπότε τι κάνουμε; Έτσι, αυτό που θα μπορούσε να προσπαθήσει να σας πάρει; Προσπαθώ να σας πάρει ό, τι καλέσει τα μοντέλα n-gram. Έτσι, τα μοντέλα n-gram ουσιαστικά αναλάβει ότι, για κάθε λέξη που έχετε σε μια πρόταση. Είναι η πιθανότητα ότι έχει λέξη εξαρτάται υπάρχει όχι μόνο στην συχνότητα αυτής της λέξης στη γλώσσα, αλλά και για τις λέξεις που Οι γύρω από αυτό. >> Έτσι, για παράδειγμα, συνήθως όταν βλέπεις κάτι σαν ή είστε σε κατά πάσα πιθανότητα θα δούμε μια όνομα μετά από αυτό, έτσι δεν είναι; Επειδή όταν έχετε μια πρόθεση συνήθως παίρνει ένα ουσιαστικό μετά από αυτό. Ή εάν έχετε ένα ρήμα που είναι μεταβατικό συνήθως πρόκειται να έχουν μια ονοματική φράση. Έτσι πρόκειται να έχουν ένα ουσιαστικό κάπου γύρω από αυτό. >> Έτσι, βασικά, αυτό που κάνει είναι ότι θεωρεί ότι η πιθανότητα να έχουν λόγια ένα δίπλα στο άλλο, όταν είστε υπολογισμό της πιθανότητα μιας πρότασης. Και αυτό είναι μια γλώσσα μοντέλο είναι βασικά. Απλά λέγοντας ποια είναι η πιθανότητα της ύπαρξης ενός ειδικού φράση σε μια γλώσσα; Γιατί λοιπόν είναι τόσο χρήσιμη, βασικά; Και πρώτα απ 'όλα τι είναι ένα μοντέλο n-gram, στη συνέχεια; >> Έτσι, ένα μοντέλο n-gram σημαίνει ότι κάθε λέξη εξαρτάται από το επόμενη N μείον 1 λέξεις. Έτσι, βασικά, αυτό σημαίνει ότι αν κοιτάξω, για παράδειγμα, κατά τον TF CS50 όταν Είμαι υπολογισμό της πιθανότητας η ποινή, θα είναι σαν «το πιθανότητα να έχουν τη λέξη "η" φορές η πιθανότητα να έχουν «η CS50 "φορές η πιθανότητα να έχουν "Το TF CS50." Έτσι, βασικά, μετρώ όλες οι δυνατότητες για το τέντωμα. >> Και τότε συνήθως όταν κάνεις αυτό, όπως σε ένα έργο, βάζετε Ν να μια χαμηλή τιμή. Έτσι, έχουν συνήθως διγράμμων ή τρίγραμμα. Έτσι ώστε να μετράνε μόνο δύο λέξεις, μια ομάδα δύο λέξεις ή τρεις λέξεις, μόνο για θέματα επιδόσεων. Και, επίσης, γιατί ίσως αν έχετε κάτι σαν το "The TF CS50." Όταν έχουν «TF», είναι πολύ σημαντικό το γεγονός ότι "CS50" είναι δίπλα σε αυτό, έτσι δεν είναι; Αυτά τα δύο πράγματα είναι συνήθως δίπλα στο άλλο. >> Αν νομίζετε ότι του "TF", είναι πιθανώς πρόκειται να έχουν ό, τι κατηγορία είναι για TF'ing. Επίσης, "η" είναι πραγματικά σημαντικό για CS50 TF. Αλλά εάν έχετε κάτι σαν το "The CS50 TF πήγε στην τάξη και έδωσε τους φοιτητές κάποια καραμέλα. "" Candy "και" η " δεν έχουν καμία σχέση με πραγματικά, έτσι δεν είναι; Είναι τόσο μακριά από τον άλλον ότι δεν έχει τόση σημασία τι λέξεις που έχετε. >> Έτσι, κάνοντας μια bigram ή τρίγραμμα, το απλά σημαίνει ότι είστε περιορίζοντας τον εαυτό σας με κάποια λόγια που είναι γύρω. Νόημα; Έτσι, όταν θέλετε να κάνετε κατάτμηση, Βασικά, αυτό που θέλετε να κάνετε είναι να δείτε τι είναι όλα οι πιθανοί τρόποι που μπορείτε να τμήμα της ποινής. >> Τέτοια ότι θα δείτε τι είναι το πιθανότητα κάθε μία από τις ποινές υφιστάμενες στη γλώσσα; Έτσι, αυτό που κάνετε είναι σαν, καλά, ας προσπαθήσω να το βάλω ένα χώρο εδώ. Έτσι βάζετε ένα χώρο εκεί και θα δείτε ποια είναι η πιθανότητα αυτής της πρότασης; Στη συνέχεια, είστε όπως, εντάξει, ίσως ότι δεν ήταν και τόσο καλή. Έτσι έβαλα ένα χώρο υπάρχει και ένα χώρο εκεί, και να υπολογίσετε το πιθανότητα τώρα, και θα δείτε ότι είναι μια μεγαλύτερη πιθανότητα. >> Έτσι, αυτό είναι ένας αλγόριθμος που ονομάζεται TANGO αλγορίθμου κατάτμησης, η οποία είναι πραγματικά κάτι που θα ήταν πραγματικά δροσερό για ένα έργο, το οποίο βασικά παίρνει συνοστέωσης κείμενο που μπορεί να είναι ιαπωνικό ή κινεζικό ή ίσως Αγγλικά χωρίς κενά και προσπαθεί να βάλει διαστήματα μεταξύ των λέξεων και το κάνει ότι χρησιμοποιώντας ένα μοντέλο γλώσσας και προσπαθούμε να δούμε τι είναι το υψηλότερο πιθανότητα που μπορείτε να πάρετε. OK. Έτσι, αυτό είναι ο κατακερματισμός. >> Τώρα σύνταξη. Έτσι, η σύνταξη που χρησιμοποιείται για τόσα πολλά πράγματα αυτή τη στιγμή. Έτσι, για Graph Αναζήτηση για Siri για σχεδόν κάθε είδος των φυσικών επεξεργασία της γλώσσας που έχετε. Έτσι, αυτό είναι το σημαντικό πράγματα σχετικά με τη σύνταξη; Έτσι, οι προτάσεις έχουν εν γένει αυτό που λέμε συστατικά. Ποιες είναι κάτι σαν ομάδες λέξεων που έχουν μια λειτουργία στην πρόταση. Και δεν μπορούν πραγματικά να εκτός από το άλλο. >> Έτσι, αν μπορώ να πω, για παράδειγμα, "Lauren αγαπά Milo. "Ξέρω ότι" Lauren "είναι ένα συστατικό και στη συνέχεια "αγάπες Milo "είναι επίσης ένα άλλο. Επειδή δεν μπορούμε να πούμε σαν "Lauren Milo αγαπά »να έχουν την ίδια έννοια. Δεν πρόκειται να έχουν την ίδια έννοια. Ή δεν μπορώ να πω σαν "Milo Lauren αγαπά. "Δεν είναι ό, τι έχει το ίδιο σημαίνει αυτό. >> Έτσι, τα δύο πιο σημαντικά πράγματα για σύνταξη είναι οι λεξιλογικές είδη που είναι ουσιαστικά η λειτουργία που σας έχουν για τα λόγια από μόνα τους. Έτσι, θα πρέπει να ξέρετε ότι "Lauren" και "Μήλο" είναι ουσιαστικά. «Αγάπη» είναι ένα ρήμα. Και το δεύτερο σημαντικό πράγμα είναι ότι είναι φραστικές τύπους. Έτσι, ξέρετε ότι «αγαπά Milo" είναι στην πραγματικότητα μια λεκτική έκφραση. Έτσι, όταν λέω "Lauren," Ξέρω ότι Lauren κάνει κάτι. Τι κάνει; Της αγάπης Milo. Έτσι, αυτό είναι ένα όλο θέμα. Αλλά συστατικά του έχουν ένα ουσιαστικό και ένα ρήμα. Αλλά μαζί, κάνουν μια φράση ρήμα. >> Λοιπόν, τι μπορούμε να κάνουμε στην πραγματικότητα με υπολογιστική γλωσσολογία; Έτσι, αν έχω κάτι, για παράδειγμα «Οι φίλοι της Allison." Να δω αν έχω μόνο έκανε μια συντακτική δέντρο θα ήθελα να ξέρω ότι "Φίλοι" είναι μια ονοματική φράση είναι μια ουσιαστικό και στη συνέχεια "από Allison" είναι ένα εμπρόθετη φράση με την οποία "από" είναι μια πρόταση και "Allison" είναι ένα ουσιαστικό. Τι θα μπορούσα να κάνω είναι να διδάξει τον υπολογιστή μου ότι όταν έχω μια ονοματική φράση και ένα τότε μια εμπρόθετη φράση. Έτσι, σε αυτή την περίπτωση, "φίλους" και στη συνέχεια "του Milo "Ξέρω ότι αυτό σημαίνει ότι NP2, η δεύτερη, κατέχει NP1. >> Γι 'αυτό και μπορεί να δημιουργήσει κάποιο είδος σχέσης, κάποιο είδος λειτουργίας για αυτό. Έτσι, κάθε φορά που βλέπω αυτή τη δομή, η οποία ταιριάζει ακριβώς με "τους φίλους του Allison, "Ξέρω ότι Allison κατέχει τους φίλους. Έτσι, οι φίλοι είναι κάτι ότι η Allison έχει. Έχει νόημα; Έτσι, αυτό είναι βασικά αυτό που Γράφημα αναζήτησης κάνει. Δημιουργεί απλά κανόνες για πολλά πράγματα. Έτσι, οι "φίλοι του Allison," "οι φίλοι μου που ζουν σε Cambridge, "" οι φίλοι μου που πηγαίνουν στο Χάρβαρντ. «Δημιουργεί κανόνες για όλα αυτά τα πράγματα. >> Τώρα μηχανικής μετάφρασης. Έτσι, η αυτόματη μετάφραση είναι επίσης κάτι στατιστικών. Και πράγματι, αν εμπλακούν σε υπολογιστική γλωσσολογία, πολλά πράγματά σας πρόκειται να είναι στατιστικά. Έτσι, όπως έκανα με το παράδειγμα πολλές πιθανότητες ότι ήμουν τον υπολογισμό, και στη συνέχεια μπορείτε να πάρετε σε αυτό πολύ μικρός αριθμός που είναι ο τελικός πιθανότητα, και αυτό είναι ό, τι σας δίνει την απάντηση. Η μηχανική μετάφραση χρησιμοποιεί επίσης ένα στατιστικό μοντέλο. Και αν θέλετε να σκεφτείτε μηχανής μετάφραση στην απλούστερη δυνατή Έτσι, ό, τι μπορείτε να σκεφτείτε είναι απλά μεταφράσει κατά λέξη, έτσι δεν είναι; >> Όταν είστε εκμάθηση μιας γλώσσας για την πρώτη φορά, ότι είναι ό, τι συνήθως κάνεις, έτσι δεν είναι; Αν θέλετε να μεταφράσετε μια πρόταση στη γλώσσα σας με τη γλώσσα μαθαίνετε, συνήθως πρώτα, θα μεταφράσει κάθε μία από τις λέξεις ξεχωριστά, και στη συνέχεια προσπαθήστε να βάλει τις λέξεις στη θέση του. >> Έτσι αν θέλετε να το μεταφράσετε, [ΟΜΙΛΙΑ ΤΗΣ ΠΟΡΤΟΓΑΛΙΑΣ] που σημαίνει "η λευκή γάτα έτρεξε μακριά." Αν ήθελα να το μεταφράσει από Πορτογαλικά σε Αγγλικά, τι θα μπορούσε να κάνει είναι, κατ 'αρχάς, θα ήθελα απλώς μεταφράζουν λέξη προς λέξη. Έτσι το "o" είναι "το", "gato", "γάτα" "Branco", "λευκό" και στη συνέχεια "Fugio" είναι «Έσκασε». >> Έτσι, τότε έχω όλες τις λέξεις εδώ, αλλά δεν είναι σε τάξη. Είναι σαν "η άσπρη γάτα το έσκασε" η οποία είναι γραμματική. Έτσι, στη συνέχεια, μπορώ να έχω ένα δεύτερο στάδιο, το οποίο πρόκειται να βρεθεί το ιδανικό θέση για κάθε μία από τις λέξεις. Έτσι ξέρω ότι πραγματικά θέλουν να έχουν "Άσπρη γάτα" αντί για "λευκή γάτα." Έτσι τι μπορώ να κάνω είναι, η πιο αφελής μέθοδος θα ήταν να δημιουργήσει όλα τα πιθανών μεταθέσεων λόγια, των θέσεων. Και στη συνέχεια να δούμε ποια έχει το υψηλότερη πιθανότητα σύμφωνα με σε μοντέλο μου γλώσσα. Και στη συνέχεια, όταν θα βρείτε αυτό που έχει η υψηλότερη πιθανότητα αυτό, το οποίο είναι μάλλον "η λευκή γάτα έτρεξε μακριά," αυτό είναι δική μου μετάφραση. >> Και αυτό είναι ένας απλός τρόπος για να εξηγήσουμε πώς πολλά από μηχανική μετάφραση αλγόριθμοι λειτουργούν. Μήπως αυτό έχει νόημα; Αυτό είναι επίσης κάτι πραγματικά συναρπαστικό ότι εσείς μπορεί ίσως να διερευνήσει για μια τελικό σχέδιο, ναι; >> ΦΟΙΤΗΤΗΣ: Λοιπόν, είπες ότι ήταν ο αφελής τρόπο, έτσι ώστε ό, τι είναι η μη αφελής τρόπος; >> LUCAS FREITAS: Η μη αφελής τρόπος; OK. Έτσι, το πρώτο πράγμα που είναι κακό για η μέθοδος αυτή είναι ότι μόλις μεταφραστεί λόγια, λέξη προς λέξη. Αλλά μερικές φορές έχετε τις λέξεις που μπορεί να έχει πολλαπλές μεταφράσεις. Πάω να προσπαθήσουμε να σκεφτούμε κάτι. Για παράδειγμα, «manga» στα πορτογαλικά δοχείο είτε να είναι "μάγγανο" ή "μανίκι". Έτσι όταν προσπαθείτε να μεταφράσετε λέξη από τη λέξη, αυτό μπορεί να σας δίνει κάτι που δεν έχει κανένα νόημα. >> Έτσι θέλετε πραγματικά να σας δούμε όλους οι πιθανές μεταφράσεις της λέξεις και να δούμε, πρώτα απ 'όλα, ποια είναι η σειρά. Μιλούσαμε για permutating τα πράγματα; Για να δείτε όλες τις πιθανές εντολές και επιλέξετε το ένα με την υψηλότερη πιθανότητα; Μπορείτε επίσης να επιλέξετε όλες τις πιθανές μεταφράσεις για κάθε λέξη και στη συνέχεια να δούμε - σε συνδυασμό με τις μεταθέσεις - η οποία έχει κανείς την υψηλότερη πιθανότητα. >> Πλέον, μπορείτε επίσης να εξετάσουμε όχι μόνο λόγια, αλλά φράσεις. έτσι ώστε να μπορούν να αναλύσουν τις σχέσεις μεταξύ οι λέξεις και στη συνέχεια να πάρετε μια καλύτερη μετάφραση. Επίσης κάτι άλλο, έτσι ώστε αυτό το εξάμηνο Είμαι πραγματικά να κάνει έρευνα στο Κινεζικά-Αγγλικά αυτόματη μετάφραση, έτσι μετάφραση από Κινεζικά στα αγγλικά. >> Και κάτι που κάνουμε είναι, εκτός από τη χρήση ένα στατιστικό μοντέλο, το οποίο είναι ακριβώς βλέποντας τις πιθανότητες του να δει κάποια θέση σε μια πρόταση, είμαι πραγματικά προσθέτοντας επίσης κάποια σύνταξη, για να μου μοντέλο, λέγοντας, αχ, αν βλέπω αυτό το είδος της κατασκευής, αυτό είναι αυτό που θέλω για να αλλάξετε όταν μεταφράζω. Έτσι, μπορείτε επίσης να προσθέσετε κάποιο είδος στοιχείο της σύνταξη για να κάνει το μετάφραση πιο αποτελεσματική και πιο ακριβή. OK. >> Τόσο πώς μπορείτε να ξεκινήσετε, αν θέλετε να κάνει κάτι στην υπολογιστική γλωσσολογία; >> Κατ 'αρχάς, μπορείτε να επιλέξετε ένα έργο που περιλαμβάνει τις γλώσσες. Έτσι, υπάρχουν τόσοι πολλοί εκεί έξω. Υπάρχουν τόσα πολλά πράγματα που μπορείτε να κάνετε. Και τότε μπορούμε να σκεφτούμε ένα μοντέλο που μπορείτε να χρησιμοποιήσετε. Συνήθως αυτό σημαίνει ότι σκέφτεται υποθέσεις, όπως, όπως, OH, όταν ήμουν σαν σκέψη των στίχων. Ήμουν όπως, επίσης, αν θέλω να καταλάβω έξω ποιος έγραψε αυτό, πιθανόν να θέλετε για να δείτε τις λέξεις το πρόσωπο που χρησιμοποιείται και δείτε ποιος χρησιμοποιεί αυτή τη λέξη πολύ συχνά. Έτσι, προσπαθούν να κάνουν υποθέσεις και προσπαθήστε να σκεφτείτε μοντέλων. Και τότε μπορείτε επίσης να αναζητήσετε online για το είδος του προβλήματος που έχετε, και πρόκειται να προτείνει να σας τα μοντέλα που ίσως το πρότυπο αυτό το πράγμα καλά. >> Και, επίσης, μπορείτε να στείλετε email μου πάντα. me@lfreitas.com. Και μπορώ να απαντήσω στις ερωτήσεις σας απλά. Μπορούμε ακόμη και ότι θα συναντηθούμε ώστε να μπορώ να δώσει προτάσεις σχετικά με τους τρόπους υλοποίηση του προγράμματος. Και εννοώ, αν εμπλακούν με υπολογιστική γλωσσολογία, πρόκειται να είναι μεγάλη. Θα πάμε να δούμε εκεί είναι τόσο μεγάλες δυνατότητες. Και η βιομηχανία επιθυμεί να προσλάβει είσαι τόσο κακός εξαιτίας αυτού. Ελπίζω, λοιπόν, τα παιδιά απολαμβάνουν αυτό. Εάν εσείς έχετε οποιεσδήποτε ερωτήσεις, μπορείτε να με ρωτήσετε μετά από αυτό. Αλλά σας ευχαριστώ.