Το Cloudflare αντεπιτίθεται στα web crawlers τεχνητής νοημοσύνης

5 Ιουλίου 2024

0

Η Cloudflare θέλει να βοηθήσει στην ανάκτηση του ελέγχου του διαδικτύου από τα web crawlers τεχνητής νοημοσύνης.

Η Cloudflare ανακοίνωσε ένα νέο εργαλείο που θα βοηθήσει τους ιδιοκτήτες ιστότοπων και ιστολογίων να αποκλείσουν τα web scraper και crawlers τεχνητής νοημοσύνης, καθώς οι εταιρείες πλημμυρίζουν το δίκτυο με bots για να συλλέξουν περιεχόμενο για την εκπαίδευση των μοντέλων τους.

Η λειτουργία, που περιγράφεται ως “εύκολο κουμπί” (αγγλικά: easy button), θα επιτρέψει στους web masters να αποκλείσουν bots τεχνητής νοημοσύνης και web crawlers με ένα μόνο κλικ και είναι διαθέσιμη σε όλους τους πελάτες της Cloudflare, συμπεριλαμβανομένων εκείνων που βρίσκονται στο δωρεάν πακέτο της.

Σε μια ανάρτηση ιστολογίου για την κυκλοφορία της λειτουργίας, η Cloudflare δήλωσε ότι η δημοτικότητα της τεχνητής νοημοσύνης που παράγει κείμενο έχει οδηγήσει σε απότομη αύξηση της ζήτησης για περιεχόμενο για την εκπαίδευση μοντέλων, και θέλει να “βοηθήσει στη διατήρηση ενός ασφαλούς διαδικτύου για τους δημιουργούς περιεχομένου”.

Πέρυσι, η Cloudflare ανακοίνωσε ότι οι χρήστες θα έχουν τη δυνατότητα να διαχειρίζονται AI crawlers που “συμπεριφέρονται σωστά”. Επί της ουσίας πρόκειται για bots που ακολουθούν το αρχείο robots.txt, δεν χρησιμοποιούν μη αδειοδοτημένο περιεχόμενο για την εκπαίδευση των μοντέλων τους ή δεν εκτελούν συμπερασματική ανάκτηση για συστήματα RAG (Retrieval Augmented Generation) χρησιμοποιώντας δεδομένα από το web.

Η Cloudflare διαπίστωσε ότι η συντριπτική πλειοψηφία (85%) των πελατών της προτιμούσε να αποκλείει τα AI crawlers στο web, και τώρα πρόσθεσαν έναν τρόπο για τους χρήστες να το πράξουν αυτό.

Για να ενεργοποιήσετε τη λειτουργία, μεταβείτε στην ενότητα ασφάλεια > bots του πίνακα ελέγχου της Cloudflare και κάντε κλικ στον διακόπτη με την ένδειξη “AI scrapers και crawlers”.

Η Cloudflare δήλωσε ότι θα ενημερώνει το εργαλείο με την πάροδο του χρόνου καθώς εντοπίζει νέα αποτυπώματα κακόβουλων bots που κάνουν scraping το διαδίκτυο για την εκπαίδευση μοντέλων.

Για να διασφαλίσει ότι παραμένει στην κορυφή της δραστηριότητας των AI crawler στο διαδίκτυο, η Cloudflare εξέτασε την επισκεψιμότητα σε ολόκληρο το δίκτυο της για να μετρήσει ποια bots είναι οι χειρότεροι παραβάτες.

Η Cloudflare διαπίστωσε ότι τα κορυφαία τέσσερα AI crawlers ανά δραστηριότητα ήταν το Bytespider της ByteDance, το Amazonbot, το Claudebot της Anthropic και το GPTBot της OpenAI, σημειώνοντας ότι το Bytespider προηγείται όχι μόνο στον αριθμό των αιτημάτων αλλά και στο εύρος της ανίχνευσης του και στη συχνότητα με την οποία αποκλείεται.

Τα bots τεχνητής νοημοσύνης αποκτούσαν πρόσβαση στα δύο πέμπτα των κορυφαίων ενός εκατομμυρίου ιστοσελίδων στο διαδίκτυο.

Στην ανάρτηση ιστολογίου, η Cloudflare σημείωσε πρόσφατα νέα για ορισμένους από τους μεγαλύτερους υπερκλιμακωτές που προσπαθούν να αποκτήσουν πρόσβαση σε όσο το δυνατόν περισσότερα δεδομένα διαδικτύου για να αποκτήσουν ανταγωνιστικό πλεονέκτημα σε μια ακμάζουσα αγορά.

Για παράδειγμα, η Google υπέγραψε μια συμφωνία αδειοδότησης περιεχομένου για την τεχνητή νοημοσύνη της με το Reddit για να αποκτήσει πρόσβαση σε περιεχόμενο που δημιουργείται από χρήστες, η οποία φέρεται να αξίζει περίπου 60 εκατομμύρια δολάρια ετησίως.

Η OpenAI βρέθηκε σε δύσκολη θέση αφού κατηγορήθηκε ότι χρησιμοποίησε τη φωνή της Scarlett Johansson στο νέο της πολυτροπικό μοντέλο GPT-4o.

Καθώς οι εταιρείες δυσκολεύονται να συλλέξουν όλο και περισσότερα δεδομένα, το διαδίκτυο πιθανότατα θα συνεχίσει να βλέπει πλημμύρα AI bots στο μέλλον.

Τον Ιούνιο, τα AI bots απέκτησαν πρόσβαση σε περίπου το 39% των κορυφαίων ενός εκατομμυρίου ιστοσελίδων στο διαδίκτυο που χρησιμοποιούν το Cloudflare, αλλά αξιοσημείωτο είναι ότι μόνο το 2,98% αυτών των domain name έλαβε μέτρα για να αποκλείσει ή να αμφισβητήσει αυτά τα αιτήματα.

Η Cloudflare δήλωσε ότι έχει παρατηρήσει τους διαχειριστές ιστοσελίδων να αποκλείουν πλήρως την πρόσβαση σε AI crawlers χρησιμοποιώντας robots.txt, αλλά τα μπλοκαρίσματα βασίζονται στην προθυμία του bot να τηρήσει το Πρωτόκολλο Εξαίρεσης Ρομπότ, το οποίο συχνά δεν τηρούν.

Δυστυχώς, η εταιρεία σημείωσε ότι έχει παρατηρήσει πως οι διαχειριστές bot προσπαθούν να εμφανιστούν σαν να είναι ένα πραγματικό πρόγραμμα περιήγησης χρησιμοποιώντας πλαστογραφημένα user agents, αλλά δήλωσε ότι το μοντέλο μηχανικής μάθησης της έχει καταφέρει να εντοπίσει αυτήν τη δραστηριότητα έως τώρα.

Στα bots θα εκχωρηθεί μια βαθμολογία που αντικατοπτρίζει ότι έχει εντοπιστεί σωστά”, την οποία η Cloudflare δήλωσε ότι θα ενημερώνει συνεχώς αξιοποιώντας τα συστήματα της.

Οι πελάτες Enterprise Bot Management μπορούν να επισημάνουν τυχόν ύποπτη δραστηριότητα υποβάλλοντας μια αναφορά False Negative Feedback Loop. Η Cloudflare επίσης έχει δημιουργήσει ένα εργαλείο αναφοράς όπου οποιοσδήποτε πελάτης μπορεί να αναφέρει ένα AI bot που συλλέγει δεδομένα από την ιστοσελίδα του, χωρίς άδεια.

Προηγούμενο άρθρο

Η ΕΕ Επιταχύνει την πρόοδο στους Ημιαγωγούς: Νέοι διαγωνισμοί 325 εκατομμυρίων ευρώ

Επόμενο άρθρο

Ιταλικό τελωνείο εντόπισε καμουφλαρισμένα στρατιωτικά Drones από την Κίνα για τη Λιβύη

Το Cloudflare αντεπιτίθεται στα web crawlers τεχνητής νοημοσύνης

Πρόσφατα άρθρα

Tηλέφωνα έκτακτης ανάγκης

Σχετικά με εμάς

Εργαλεία

Αντιγραφή περιεχομένου

Kοινωνικά δίκτυα

Σύνδεσμοι