Wikimedia sotto pressione: boom del traffico del 50% per colpa dei bot AI
L’ascesa dei bot per il data scraping


Nel cuore dell’universo digitale della conoscenza libera, Wikimedia si trova oggi ad affrontare una delle sfide più complesse della sua storia recente: l’ondata crescente di bot automatici AI che saccheggiano sistematicamente i suoi contenuti.
In particolare, negli ultimi mesi si è verificato un aumento del 50% del traffico generato dai cosiddetti crawler AI, che sta mettendo a dura prova sia la capacità tecnica sia la sostenibilità economica della piattaforma.
Cresce l’impatto dell’intelligenza artificiale (AI) sulle infrastrutture digitali: il caso Wikimedia
A partire da gennaio 2024, è stata registrata una crescita vertiginosa nel volume di dati scaricati da piattaforme come Wikipedia e gli altri progetti Wikimedia.
Questo incremento non è attribuibile a una maggiore partecipazione degli utenti umani, bensì a un uso sistematico e spesso poco regolamentato di bot automatici impiegati da aziende che sviluppano modelli di intelligenza artificiale.
Questi strumenti, progettati per raccogliere e analizzare grandi quantità di testo, immagini e altri contenuti, utilizzano Wikimedia come una fonte primaria di dati per l’addestramento dei loro algoritmi.
Un’operazione che, se da un lato testimonia la centralità della piattaforma nell’ecosistema della conoscenza digitale, dall’altro esercita una pressione insostenibile sulle sue infrastrutture informatiche.
Il problema non risiede soltanto nella quantità di dati trasferiti. Il vero nodo critico è rappresentato dal modo con cui questi bot accedono ai contenuti.
Nella maggior parte dei casi, infatti, le richieste sono indirizzate a pagine rare o poco visitate, ovvero quelle che non rientrano nei sistemi di caching. Ovvero meccanismi che permettono di conservare temporaneamente copie delle pagine più consultate per velocizzarne il caricamento.
Quando ciò accade, le richieste devono essere gestite direttamente dai server centrali, determinando un aumento significativo del carico di lavoro e, soprattutto, dei costi.
Questo scenario si fa particolarmente critico in concomitanza con eventi a forte rilevanza mediatica, durante i quali il traffico “umano” raggiunge già livelli elevati.
Bot fuori controllo: ignorano le regole, eludono i blocchi
Un’altra dimensione allarmante del fenomeno è rappresentata dal comportamento sempre più sofisticato e, talvolta, scorretto dei crawler. Molti di questi bot, infatti, ignorano le convenzioni stabilite, eludono i sistemi di blocco automatico e si camuffano per sembrare utenti legittimi.
Questo tipo di condotta non solo viola le norme di buon uso della rete, ma costringe i team tecnici di Wikimedia a un monitoraggio continuo e a un impiego costante di risorse per proteggere l’infrastruttura.
Risorse che potrebbero essere invece destinate a potenziare la piattaforma o ad arricchire i suoi contenuti.
In risposta a questa situazione, la Fondazione Wikimedia sta cercando di non limitarsi a una reazione tecnica o difensiva. La soluzione proposta va oltre il semplice contenimento del problema e punta a una gestione collaborativa e sostenibile del sapere libero.
Nasce così WE5, una nuova iniziativa strategica che ha l’obiettivo di promuovere approcci più equi e responsabili nell’acquisizione e nell’utilizzo dei dati ospitati dalla piattaforma.
Il progetto si presenta come un invito alle aziende tech e agli sviluppatori di intelligenza artificiale.
Nello specifico un invito a rispettare le regole, contribuire ai costi di gestione della rete e garantire la sopravvivenza dell’infrastruttura su cui si basa una delle principali fonti di informazione libera del mondo.
L’intera vicenda solleva una questione cruciale per il futuro dell’accesso libero alla conoscenza: in un’epoca in cui i dati sono diventati la linfa vitale dell’intelligenza artificiale, chi paga per la conservazione e la distribuzione di quei dati?
Wikimedia, da sempre animata dal principio della gratuità e della condivisione, si trova ora al crocevia tra apertura e sostenibilità.
Senza un cambiamento di rotta da parte delle big tech e degli attori che utilizzano massivamente i contenuti della fondazione, il progetto potrebbe essere costretto a ridurre l’accessibilità o a introdurre limiti più stringenti per salvaguardare la propria infrastruttura.
Un appello al rispetto del bene pubblico digitale
Il messaggio che Wikimedia lancia al mondo è chiaro. Ovvero che la conoscenza libera è un bene comune e, come tale, deve essere trattata con rispetto e responsabilità.
L’utilizzo a fini commerciali dell’enorme patrimonio informativo messo a disposizione dalla fondazione deve avvenire in forma trasparente, conforme alle regole e. Inoltre, se necessario, accompagnata da forme di contributo equo.
In un panorama digitale sempre più dominato da algoritmi e automazione, è fondamentale garantire che l’accesso al sapere non venga compromesso dagli interessi economici di pochi.
Solo attraverso un dialogo aperto tra comunità, istituzioni e aziende sarà possibile mantenere vivo il sogno di un’enciclopedia globale libera, accessibile e sostenibile.