Εντοπισμός της βίας σε πολυπληθείς δημόσιους χώρους με τεχνητή νοημοσύνη

27 Μαρτίου 2019

378

Οι ερευνητές από το πανεπιστήμιο China University of Petroleum (CUP), στο Πεκίνο, έχουν αναπτύξει πρόσφατα μια νέα μέθοδο ανίχνευσης της βίας σε δημόσιους χώρους που βασίζεται στα βαθιά νευρωνικά δίκτυα (αγγλικά: 3-D convolutional neural networks ή εν συντομία CNN), για όσους δεν γνωρίζουν είναι μία υποκατηγορία της τεχνητής νοημοσύνης.

Τα τελευταία χρόνια, η πρόοδος στον τομέα της πληροφορικής και της τεχνητής νοημοσύνης (AI) οδήγησε στην ανάπτυξη περίπλοκων συστημάτων παρακολούθησης βίντεο, τα οποία μπορούν να βοηθήσουν τις τοπικές αρχές να αποτρέψουν το έγκλημα και να παρακολουθήσουν αποτελεσματικότερα τους δημόσιους χώρους.

Παρά τις εξελίξεις αυτές, τα περισσότερα σημερινά συστήματα παρακολούθησης δημόσιων χώρων σε πραγματικό χρόνο βασίζονται στη χειρωνακτική εργασία που διεξάγουν συνήθως εξειδικευμένοι άνθρωποι επάνω σε ετούτο το αντικείμενο, ωστόσο αυτή η διαδικασία είναι χρονοβόρα και μερικές φορές ενδέχεται να οδηγήσει σε αδυναμία ανίχνευσης όλων των παράνομων δραστηριοτήτων.

Έτσι εδώ και καιρό, αρκετοί επιστήμονες ανά την υφήλιο προσπαθούσαν με πολύ κόπο να αναπτύξουν ευφυή συστήματα που θα επιτρέπουν στις δημόσιες αρχές να εντοπίζουν ταχύτερα και αποτελεσματικότερα την οποιαδήποτε ασυνήθιστη συμπεριφορά. Η προσθήκη μονάδων έξυπνης ανάλυσης βίντεο σε ένα σύστημα παρακολούθησης θα του επέτρεπε τελικά να αναλύσουν αυτόνομα τις πληροφορίες και να εντοπίσουν ασυνήθιστες καταστάσεις.

Μία από τις βασικές προτεραιότητες στον τομέα της ασφάλειας και της επιτήρησης είναι η αναγνώριση της βίαιης συμπεριφοράς σε δημόσιους χώρους, προκειμένου να παρέμβει άμεσα η αστυνομία, και κατ’ επέκταση να προστατεύσει παράλληλα όλους τους ανθρώπους της περιοχής από ενδεχόμενες βίαιες πράξεις των κακοποιών.

Με αυτό το σκεπτικό, η ομάδα ερευνητών του CUP αποφάσισε να αναπτύξει μια μέθοδο βασισμένη στη μηχανική μάθηση (αγγλικά: Machine learning) που μπορεί να ανιχνεύει γρήγορα τη βίαιη συμπεριφορά, αναλύοντας απλά τα βίντεο. Η μέθοδος που προτείνουν οι ερευνητές χρησιμοποιεί ένα 3-D CNN, το οποίο εκπαιδεύεται να αναλύει βίντεο και να ανιχνεύει βίαιες πράξεις που εκτελούνται ταυτόχρονα από πολλούς ανθρώπους, και όχι απλά από ένα μόνο άτομο.

Οι ερευνητές ανέφεραν στην εργασία τους: «Η ανίχνευση της βίας σε χώρους που βρίσκονται ταυτόχρονα εκατοντάδες άνθρωποι (όπως εμπορικά κέντρα, τράπεζες και γήπεδα) είναι ιδιαίτερα σημαντική, για πολλούς και διάφορους λόγους, αλλά ελάχιστες έρευνες έχουν γίνει σε αυτόν τον τομέα. Βάσει αυτής της κατάστασης, ο μόνος αποδοτικός τρόπος και η σημαντικότερη λύση ήταν να χρησιμοποιηθεί μια μέθοδο ανίχνευσης βίας που θα έχει ως βάση ένα βαθύ τρισδιάστατο νευρωνικό δίκτυο (3-D CNN) που θα εξάγει άμεσα και σε πραγματικό χρόνο τις πληροφορίες, και έπειτα να τα παρέχει στην αστυνομία για να επιμεληθεί της κατάστασης».

Επί του παρόντος, υπάρχουν δύο τύποι μεθόδων για την ανίχνευση της βίας μέσω παρακολούθησης βίντεο. Ο πρώτος τύπος συνεπάγεται με τη χρήση της παραδοσιακής εξαγωγής πληροφοριών και ενός ταξινομητή που θα αξιολογεί την κατάσταση, ενώ το δεύτερο χρησιμοποιεί τεχνικές βαθιάς μάθησης. Η νέα μέθοδος που καταρτίστηκε από τους ερευνητές εμπίπτει στην τελευταία κατηγορία, καθώς προηγούμενες μελέτες υποδεικνύουν ό,τι τα μοντέλα βαθιάς μάθησης για ανίχνευση βίας είναι πιο βολικά και αποτελεσματικά από τις παραδοσιακές προσεγγίσεις.

Για να εκπαιδεύσουν το προηγμένο σύστημα και να αξιολογήσουν τη μέθοδο τους, οι ερευνητές χρησιμοποίησαν 500 βίντεο βίας σε πολυπληθείς χώρους όπου οι παραβάτες ήταν πολλά άτομα ταυτόχρονα, και 500 βίντεο που δεν περιείχαν καθόλου βία, ωστόσο υπήρχαν εκατοντάδες άτομα στο χώρο, με αναλύσεις μέχρι 1920 * 1080. Το μοντέλο CNN για την ανίχνευση της παράνομης δραστηριότητας ουσιαστικά είναι εμπνευσμένο από ένα παρόμοιο δίκτυο που αναπτύχθηκε από το Facebook AI Lab, το 2014.

Για να αξιολογήσουν τη μέθοδο τους, οι ερευνητές πραγματοποίησαν μια σειρά πειραμάτων στο Nvidia Tesla K80. Η μέθοδος τους τελικά διαπιστώθηκε πως είναι εξαιρετικά ακριβής, ξεπερνώντας τις τρεις υφιστάμενες παραδοσιακές προσεγγίσεις ανίχνευσης βίας που λειτουργούν με χειρωνακτική διαδικασία εξαγωγής των πληροφοριών. Στο μέλλον, το 3-D CNN θα μπορούσε να αναπτυχθεί περαιτέρω, επιτρέποντας στους χειριστές του συστήματος να προσδιορίσουν επίσης τη θέση των βίαιων συγκρούσεων που συμβαίνουν στα βίντεο.

Διαβάστε επίσης: Ηλεκτρικές θερμαινόμενες κουβέρτες, προφυλάξεις και οδηγίες