L’affare in chiaroscuro di “rastrellare” il web
L a polemica sui presunti numeri di Meloni e Mattarella in vendita online ha tolto il velo su un mercato sconosciuto ai più, dove il lecito e l’illecito si confondono: il business del “web scraping”. Letteralmente, è il “rastrellamento” del web fatto in automatico, con software, per ottenere masse di dati. Utilizzabili per vari motivi, […] L'articolo L’affare in chiaroscuro di “rastrellare” il web proviene da Iusletter.

L a polemica sui presunti numeri di Meloni e Mattarella in vendita online ha tolto il velo su un mercato sconosciuto ai più, dove il lecito e l’illecito si confondono: il business del “web scraping”. Letteralmente, è il “rastrellamento” del web fatto in automatico, con software, per ottenere masse di dati. Utilizzabili per vari motivi, dal telemarketing alle analisi finanziarie, o commerciali. Un mercato miliardario, abitato anche da aziende normali e persino giganti come Amazon e grandi banche. Vale 1,01 miliardi di dollari, nel mondo (nel 2024, secondo il report State of web scraping di Scrapeops, di gennaio scorso). E cresce al ritmo del 10-20 per cento all’anno. Questa è, certo, la parte illuminata – legale, in linea di massima – del web scraping. C’è anche una parte oscura, fatta da chi vende dati di terza mano, di dubbia origine, forse frutto di hacking, nella migliore delle ipotesi, rastrellati violando la privacy o la proprietà intellettuali degli interessati.
Sull’ultimo caso italiano non ci sono ancora certezze, bisognerà vedere l’esito delle indagini delle autorità, tra cui il Garante Privacy. Com’è noto, alcune società americane hanno messo in vendita presunti contatti di cariche dello Stato italiano e altri soggetti istituzionali. Si è appreso poi che alcuni erano numeri pubblici sul web, per esempio nei curriculum o nei social di alcuni funzionari pubblici. E quindi la vendita è un illecito privacy per le regole europee, ma non per quelle Usa. Altri sono invece numeri fasulli: quelli attribuiti alla premier Giorgia Meloni e del presidente Sergio Mattarella sembrano appartenere in realtà a loro ex portavoce, confermano vari esperti di intelligence (come Antonio Teti, autore di molti libri sul tema, e Alessio Pennasilico, del Clusit, l’associazione della cybersecurity italiana). In fondo, anche questo episodio conferma quanto questo business viva di chiaro- oscuri. Anche la sua stessa filiera “legale” è complessa e strisciante.Immaginiamo un’azienda interessata a ottenere dati strategici dal web. Può essere un e-commerce che vuole fare analisi sui prezzi o una società finanziaria che vuole catturare sentiment di mercato. L’azienda si affida a una piattaforma specializzata come Zyte o Apify, che offrono soluzioni “chiavi in mano” per automatizzare la raccolta dei dati. Programmano softwareche simulano la navigazione umana: visitano i siti, individuano le informazioni rilevanti e le salvano in formati strutturati pronti per essere analizzati.
Ma non basta. Ad esempio: lo scopo di un’azienda è raccogliere i dati sui prezzi dei voli per individuare il momento migliore quando comprare i biglietti, da rivendere al cliente finale. Il problema: i siti delle compagnie aeree applicano misure anti- scraping, con diversi strumenti tecnici. Per aggirarli, la piattaforma di scraping si appoggia a un altro attore fondamentale della filiera: il fornitore di proxy. Aziende come Bright Data, Oxylabs o Smartproxy mettono a disposizione una rete globale di indirizzi ip residenziali e mobili, che permettono al sistema di scraping di inviare richieste “mascherate” come se provenissero da utenti reali, distribuiti in vari paesi. In questo modo, si evita che i siti web blocchino il traffico o lo considerino sospetto.A questo punto, i dati raccolti possono essere semplicemente consegnati al cliente, oppure — in una fase successiva — arricchiti con ulteriori dati da altre fonti tramite soggetti aggregatori come Explorium o SafeGraph. Questi vendono dati raccolti da terzi, tramite api (interfacce verso i sistemi dei clienti) o dashboard (cruscotti) personalizzati.
Come si vede, lo scraping è ben altra cosa rispetto alla vendita di dati trafugati tramite attacchi informatici. Il chiaroscuro resta, soprattutto in Europa: «Non si può fare web scraping lecito all’insaputa e senza autorizzazione del titolare del sito da cui si estraggono i dati. Le regole privacy tutelano i dati personali e quelle sulla proprietà intellettuale tutelano anche molti dati non personali», spiega l’avvocato Eugenio Prosperetti. «La recente Direttiva Copyright prevede solo pochissimi casi in cui è lecito anche senza autorizzazione, ossia quelli per ricavare dati ad uso didattico e di ricerca, con divieto assoluto di uso commerciale dei risultati», aggiunge. Il problema: «Per combattere lo scraping sul piano legale bisogna dimostrare che un dato è stato estratto dal proprio sito», continua. Complicato poi perseguire società extra-europee; quasi impossibile bloccare la rivendita del dato nel dark web. Così, in questo chiaroscuro confortevole, il mercato va avanti. E persino prospera, per la crescente fame di dati raffinati che c’è ormai propria di ogni business.
L'articolo L’affare in chiaroscuro di “rastrellare” il web proviene da Iusletter.