Η μεθοδολογία αναπτύσσει τεχνικές παιχνιδιών για να βοηθήσει τα ελεύθερα οχήματα να διερευνήσουν αυτήν την τρέχουσα πραγματικότητα, όπου οι πινακίδες μπορεί να είναι ατελείς.

ο Παιχνίδι για υπολογιστή Το Pong χρησιμοποιήθηκε για τη δοκιμή του συστήματος Λεζάντα: Μια σημαντική εκτίμηση μάθησης που έγινε από ερευνητές του MIT αναμένεται να βοηθήσει τις μηχανές να διερευνήσουν την πραγματικότητα. Σε δοκιμές με το παιχνίδι Pong για υπολογιστή, οι ερευνητές εισήγαγαν έναν «εχθρό» που τράβηξε την μπάλα σε κάποιο βαθμό πιο κάτω από ό,τι ήταν. Σε έναν τέλειο κόσμο, αυτό που βλέπεις είναι αυτό που παίρνεις. Αναμένοντας ότι αυτό συνέβαινε, ο έλεγχος των ανθρωπογενών δομών σκέψης θα γινόταν αναζωογονητικά κατανοητός.

Χρησιμοποιήστε συστήματα αποφυγής ταλάντωσης σε αυτόνομα οχήματα. Στην περίπτωση που η οπτική δέσμευση για τις τοπικές διαθέσιμες κάμερες θα μπορούσε να γίνει πιστευτή, σε γενικές γραμμές, ένα σύστημα τεχνητής νοημοσύνης θα μπορούσε άμεσα να το κανονίσει αυτό προσθέτει σε μια νόμιμη ενέργεια – steer δεξιά, steer αριστερό ή συνεχίστε με ευθεία – για να μην να χτυπήσει ένα άτομο περπατώντας που βρίσκουν οι κάμερές του στο δρόμο.

Ανεξάρτητα από αυτό, οραματιστείτε μια κατάσταση στην οποία υπάρχει ένα λάθος στις κάμερες που σχεδόν δεν μετακινεί μια εικόνα κατά δύο ή τρία pixel. Αναμένοντας το απρόσεκτα αξιόπιστο όχημα υποθέτοντας «μη καλά τακτοποιημένα πηγάδια δεδομένων», μπορεί να χρειαστεί μια ασήμαντη και ίσως επικίνδυνη ενέργεια. Ένας ακόμη σημαντικός υπολογισμός μάθησης που έγινε από ερευνητές του MIT σχεδιάζεται να βοηθήσει τις μηχανές να διερευνήσουν τον αυθεντικό, ελαττωματικό κόσμο, δημιουργώντας μια καλή «δυσπιστία» για τις αξιολογήσεις και τις πηγές δεδομένων που λαμβάνουν.

Η συγκέντρωση βοήθησε στην εκμάθηση της εκτίμησης μαζί με μια σημαντική νευρωνική συσχέτιση, που και οι δύο συμμετείχαν αυτόνομα για να ετοιμάσουν υπολογιστές για να παίξουν παιχνίδια υπολογιστή όπως go και chess, για να αναπτύξουν μια φιλοσοφία που ονομάζουν CARRL, για Certified Adversarial Robustness for Deep Reinforcement Learning. Οι ειδικοί επιχείρησαν την προσέγγιση σε μερικές περιπτώσεις, συμπεριλαμβανομένης μιας επαναλαμβανόμενης δοκιμής αποφυγής ατυχήματος και του παιχνιδιού Pong για υπολογιστή, και είδαν ότι η CARRL είχε καλύτερη απόδοση – αποφεύγοντας τις επιπτώσεις και επικυρώνοντας περισσότερους αγώνες Pong– σε σχέση με τυπικές στρατηγικές τεχνητής νοημοσύνης, σε κάθε περίπτωση, ανεξάρτητα από το αμφισβητήσιμο , όχι καλά οργανωμένες πηγές πληροφοριών.

Ο Everett είναι ο κύριος παραγωγός μιας έρευνας που διαδίδει τη νέα φιλοσοφία, η οποία εμφανίζεται στο Transactions on Neural Networks and Learning Systems της IEEE. Ο έλεγχος ξεκίνησε από το MIT Ph.D. Η πρόταση του κυβερνήτη του μαθητή Björn Lütjens προκλήθηκε από τον ήρωα του MIT Astro, καθηγητή Jonathan How.

Πιθανώς γνήσια στοιχεία

Για να κάνουν τα συστήματα τεχνητής νοημοσύνης γενναιόδωρα έναντι πηγών δεδομένων με κακή διάταξη, οι ερευνητές έχουν κάνει ένα πέρασμα στην εκτέλεση ασπίδων για επίβλεψη μάθησης. Γενικά, ένας νευρωνικός συσχετισμός είναι έτοιμος να διασυνδέσει σφραγίδες ή ασκήσεις express με δεδομένες πηγές δεδομένων. Για παράδειγμα, ένας νευρωνικός συσχετισμός που αντιμετωπίζεται με πάρα πολλές εικόνες που ξεχωρίζουν ως γάτες, κοντά σε εικόνες που ονομάζονται σπίτια και φράγκοι, θα πρέπει να ονομάσει ακριβώς μια ακόμη εικόνα ως γάτα.

Σε συντριπτικές δομές τεχνητής νοημοσύνης, θα μπορούσαν να επιχειρηθούν στρατηγικές μάθησης συγκριτικής επίβλεψης με πολλούς ανεπαίσθητα αλλαγμένους τύπους εικόνων. Η αποδοχή της συσχέτισης προσγειώνεται σε ένα συγκριτικό αποτύπωμα – γάτα – για κάθε εικόνα, υπάρχει μια αξιοσημείωτη πιθανότητα ότι, αλλαγμένη ή όχι, η εικόνα δεν είναι αν, και, ή αλλά, μιας γάτας, και η συσχέτιση είναι καλή για κάθε κακώς οργανωμένο αποτέλεσμα.

Παρόλα αυτά, η διεξαγωγή κάθε πιθανής προσαρμογής εικόνας είναι υπολογιστικά εξαντλητική και δύσκολο να εφαρμοστεί επαρκώς σε εργασίες ευαίσθητες στο χρόνο, όπως η αποστροφή ατυχημάτων. Επιπλέον, οι υπάρχουσες τεχνικές δεν αντιλαμβάνονται επίσης τι αποτύπωμα να χρησιμοποιήσουν, χωρίς αμφιβολία κίνηση να κάνουν, αναμένοντας ότι ο συσχετισμός είναι λιγότερο ισχυρός και ονομάζει μερικές αλλαγμένες εικόνες γάτας ως σπίτι ή χοτ ντογκ.

«Για να συμπεριλάβουμε νευρωνικές συσχετίσεις σε βασικές περιστάσεις ασφάλειας, περιμέναμε να βρούμε πώς να λαμβάνουμε συνεχείς αποφάσεις που βασίζονται στις περισσότερες κυνικές υποθέσεις κατάστασης σε αυτά τα πιθανά γνήσια στοιχεία», λέει ο Lütjens.

Το καλύτερο κόστος

Η συγκέντρωση μάλλον θα ήθελε να αναπτύξει υποστηρικτική μάθηση, ένα άλλο είδος τεχνητής νοημοσύνης που δεν απαιτεί διασύνδεση επώνυμων εισροών με αποδόσεις, ωστόσο μάλλον αναμένει να αναπτύξει σαφείς ασκήσεις λόγω ρητών πηγών πληροφοριών, δεδομένου του επακόλουθου βραβείου. Αυτή η στρατηγική χρησιμοποιείται συνήθως για τον προγραμματισμό κομματιών για να παίξουν και να ρυθμίσουν αγώνες όπως το σκάκι και το Go.

Η υποστήριξη της μάθησης έχει γενικά εφαρμοστεί σε συνθήκες όπου οι πηγές πληροφοριών πιστεύεται ότι είναι σημαντικές. Ο Έβερετ και οι συνεργοί του λένε ότι βιάζονται να φέρουν «επιβεβαιωμένη δύναμη» σε προβληματικές, κακώς οργανωμένες δεσμεύσεις για να βοηθήσουν στη μάθηση. Η προσέγγισή τους, η CARRL, χρησιμοποιεί μια τρέχουσα εκτίμηση εκμάθησης σημαντικής βοήθειας για να δημιουργήσει μια σημαντική συσχέτιση Q ή DQN – μια νευρωνική συσχέτιση με διάφορα επίπεδα που στο τέλος διασυνδέει μια δέσμευση με αξία Q ή επίπεδο αποζημίωσης.

Το σύστημα λαμβάνει δεδομένα, παρόμοια με μια εικόνα με ένα μόνο άγγιγμα, και σκέφτεται ένα κακώς διατεταγμένο εφέ ή μια περιοχή γύρω από το σημείο όπου πολύ καλά μπορεί να λαμβάνει τα πάντα υπόψη. Κάθε πιθανό σημείο εντός αυτής της τοποθεσίας αντιμετωπίζεται μέσω ενός DQN για να παρατηρηθεί μια συνδεδεμένη κίνηση που θα επιτύχει την καλύτερη ανταμοιβή της πιο αρνητικής κατάστασης, δεδομένου ενός συστήματος που δημιουργήθηκε από τον συνεχή μεταπτυχιακό φοιτητή του MIT Tsui-Wei “Lily” Weng Ph.D. ’20.

Ένας αντίπαλος κόσμος

Σε δοκιμές με το παιχνίδι PC Pong με δωρεάν πίνακα χρυσού αριθμού(ตารางเบอร์เงิน), στο οποίο δύο παίκτες δουλεύουν κουπιά σε κάθε πλευρά μιας οθόνης για να περάσουν μια μπάλα προς τα εμπρός και προς τα πίσω, οι ερευνητές εισήγαγαν έναν «αντίπαλο» που τράβηξε την μπάλα σε κάποιο βαθμό πιο κάτω από ό,τι ήταν. Είδαν ότι η CARRL κυβερνούσε περισσότερους αγώνες από τις τυπικές τεχνικές, όπως δημιουργούσε το αποτέλεσμα του αντιπάλου.

«Αναμένουμε ότι καταλαβαίνουμε ότι μια αξιολόγηση δεν πρέπει να βασίζεται οριστικά και η μπάλα θα μπορούσε να βρίσκεται οπουδήποτε μέσα σε μια συγκεκριμένη περιοχή, τότε, η φιλοσοφία μας λέει στον υπολογιστή ότι πρέπει να βάλει το κουπί σε αυτήν την περιοχή, για να εγγυηθεί ότι θα χτυπήσουμε την μπάλα ακόμη και στην πιο κυνική απόκλιση κατάστασης», λέει ο Έβερετ.