Motori di ricerca innovativi: si accende una luce negli abissi del deep web?

di Roberto Pelliccia

Il deep web. Un’oscura, intricata matassa di dati, caratterizzati, nella loro totalità, da una sola, essenziale caratteristica: risultare, attraverso l’uso dei convenzionali motori di ricerca, completamente inaccessibili.

Quando si parla di questo tipo di dati spesso il concetto viene equiparato, in un linguaggio piùtecnico, ad una mancata indicizzazione degli stessi.
L’indicizzazione è però solo parte di un processo più elaborato svolto dai motori di ricerca che tutti noi, quotidianamente, utilizziamo.
Seppur in breve, vale la pena inquadrare il funzionamento di questi sistemi.

Google, Baidu e Yandex, per citare i motori di ricerca più impiegati dall’utenza online [1], hanno modalità analoghe per strutturare la propria attività, che in questa sede possiamo condensare, per praticità, in quattro fasi:

la scansione (Crawling) della rete porta il motore di ricerca a rintracciare siti web caratterizzati da una riscontrata autorevolezza ed affidabilità;
l’analisi (Parsing) viene svolta con riguardo al codice della risorsa precedentemente scansionata, ed è diretta a valutare se inserire o meno la stessa all’interno dell’indice del motore di ricerca;
l’indicizzazione (Indexing), a seguito di una valutazione positiva al termine dell’analisi, consiste nell’associazione di alcune specifiche parole chiave alla pagina web di interesse, e all’inserimento della stessa in quello che è definito “indice” del motore di ricerca. La pagina web può essere conservata in modo permanente o temporaneo, nell’indice, così come può essere memorizzata in indici specializzati, che contengono solo determinate tipologie di file.
Google Libri, per citare un caso, attinge ad un bacino di dati inerenti solo a testi e volumi;
la fase di ricerca (Searching), ovvero quella affidata all’utente: per selezionare i risultati, le parole inserite da quest’ultimo saranno confrontate con le parole chiave assegnate alle diverse pagine web durante l’indicizzazione.

Le pagine indicate, tra quelle aventi analoghe parole chiave, verranno raccolte in un indice noto come Latent Semantic Index (LSI), al fine di rendere piùveloce il ritrovamento delle stesse a seguito di ricerche successive.

Con queste premesse, il concetto di mancata indicizzazione di una pagina web assume contorni più definiti.

I motivi di questa circostanza sono vari e disparati. Non vengono quasi mai indicizzate le pagine che richiedono un accesso tramite nome utente e password, così come sono spesso assenti quelle facenti parte di reti private, o, ancora, quelle generate dinamicamente a fronte di una query specifica [2].

Inoltre, bisogna considerare che i dati più facilmente indicizzati sono file di testo, mentre video e immagini contengono informazioni che non vengono estratte con la stessa immediatezza. Senza contare, poi, quelle pagine web che sono, per stessa richiesta dei gestori, o per decisione degli amministratori dei motori di ricerca, escluse volontariamente dagli indici.

Potrebbe nascere, a questo punto, un interrogativo: se le pagine web indicizzate sono solo una parte del totale, quanti dei dati presenti in rete non risultano disponibili, attraverso l’impiego dei piùdiffusi motori di ricerca?

Una risposta netta non è possibile. Al più, una stima. Secondo l’autorevole parere di Eric Schmidt, ex CEO di Google, sono all’incirca 5 milioni di terabytes di dati, quelli che affollano la rete. Di questi, Google indicizza, con buona approssimazione, circa 200 terabytes: l’equivalente del 0.004% del totale [3].

Il termine di paragone tra il deep web e un iceberg, di cui solo una minima parte è visibile, mentre la maggior parte della massa resta inabissata e celata allo sguardo dei più, è tanto efficace quanto inflazionata.
Chi scrive preferisce una comparazione forse meno evocativa, ma che può dar seguito a riflessioni. Immaginiamo una biblioteca, una vasta biblioteca, che custodisca 100.000 libri al suo interno.
Ora, entriamo in questo ordine di idee. Dei 100.000 libri presenti, solo 4 risultano disponibili per gli avventori. Quindi, cosa succede al 99.996% dei dati presenti in rete? Consultare quelli costituenti il cosiddetto deep web è senza dubbio complesso, e viene spontaneo riflettere sul quantitativo di attività illegali che possano voler approfittare dell’anonimato garantito dall’operare in questi sconfinati spazi digitali.

Ancora più difficile è poi accedere a quella parte di deep web denominata dark web – da non confondere con le cosiddette darknet, network privati creati per svolgere in segretezza le più diverse attività illegali. Questa zona del cyberspazio è costituita unicamente da siti criptati, mancanti cioè di DNS e indirizzo IP, gli elementi che rendono ogni sito internet identificabile.
Per accedere a queste risorse, l’utente deve necessariamente usare dei software di cifratura per celare il proprio indirizzo IP, la cui conoscenza da parte di terzi renderebbe possibile risalire alla sua identità.

E’ bene sottolinearlo, definire che nel deep web le attività siano solamente di carattere illegale e/o amorale sarebbe una drammatizzazione poco veritiera.

Ciononostante, uno strumento che consenta di sondare gli abissi del Web attualmente inesplorati, da parte dei più diffusi motori di ricerca, non sarebbe per questo meno utile.

Molti progetti si sono susseguiti, nel corso degli ultimi anni, con l’obiettivo di costituire un mezzo di questa portata.
Tra i diversi è possibile citare, in un elenco che non ha pretese di esaustività, Not Evil, Torch, Candle e Haystak.
Accessibili solo attraverso TOR, ognuno con le sue peculiarità, rappresentano il primo livello di ricerca nel deep web, quello maggiormente a portata dell’utente medio. Tuttavia, i risultati non sempre rispettano quel grado di accuratezza cui si è abituati, quando si impiegano i più diffusi motori di ricerca nel surface web.

Connaturato da una precisione ed un’ampiezza dello spettro di ricerca ben piùelevati, il progetto Memex, anche grazie all’autorevolezza dei soggetti che lo gestiscono, spicca tra i vari studi di settore.

Il Memex (l’origine del termine proviene dalla contrazione di “memory expansion”) riprende il suo nome da quello di un sistema, teorizzato da Vannevar Bush nel 1932, nel quale un individuo avrebbe potuto inserire e registrare testi e proprie comunicazioni personali, per poi consultarle con praticitàin un secondo momento.
Una sorta di estensione della sua memoria personale, che è oggi riconducibile all’idea di un elementare modello di personal computer.

Nella prospettiva dei suoi curatori – la NASA e il Defense Advanced Research Projects Agency (DARPA) – il Memex è orientato verso ben altri obiettivi: la creazione di un software che promuova le capacitàdi ricerca online ben oltre l’attuale stato dell’arte, al fine di interagire e condividere le informazioni ad un livello qualitativo e quantitativo attualmente non configurabile.

Gli intenti sono molteplici e inevitabilmente legati alla tipologia di dati verso i quali sarà indirizzata la ricerca.

Nel caso di pagine web dai contenuti illegali, l’obiettivo saràquello di fornire un utile strumento agli investigatori, le cui indagini nel cyberspazio sono spesso osteggiate dall’intrinseca dinamicitàe dall’anonimato che caratterizzano questa dimensione digitale.

Per fare degli esempi, alcuni possibili applicativi del progetto Memex [4] riguardano:

-GeoInformatics in Human Trafficking

Collezionare dati e informazioni riguardanti le vittime del traffico di esseri umani, grazie alle evolute potenzialitàdi elaborazione dati, e ottimizzare la loro localizzazione impiegando il potente sistema di ricerca;

-Facial Recognition

Attraverso il confronto con immagini note di criminali latitanti, rintracciare nel deep web ogni contenuto legato ad essi e, in questo modo, fare un passo ulteriore verso la loro cattura. Un’opportunità estremamente rilevante, se si pensa al caso dei terroristi appartenenti allo Stato Islamico -e non solo- che, ad oggi, sfruttano la rete per pubblicare prodotti multimediali che li mostrano in azione, nel compimento degli atti terroristici;

-Court Citations

Eseguire una scansione del Web per rintracciare i documenti archiviati in diversi tribunali, a livello globale, per migliorare la circolazione di informazioni e conseguentemente favorire il rintracciamento, l’identificazione e il perseguimento giudiziario dei criminali che operano su un’ampia scala territoriale;

-Material Research

Raccogliere dati da riviste specializzate nei più vari settori scientifici e di ricerca, per consentirne una maggiore diffusione.

A proposito di quest’ultimo punto, vale la pena sottolineare come le riviste scientifiche specializzate in ambiti accademici come medicina, psicologia e via discorrendo siano spesso molto costose, e ciò inevitabilmente condizioni, limitando, la fruibilità delle conoscenze ivi contenute. A questo proposito esistono siti, nel deep web, che si prefiggono lo scopo di diffondere gratuitamente questi testi.

E, nota fondamentale, queste produzioni, oltre ad essere gratuite, sono anche consultabili legalmente, dal momento che tutti i documenti presenti nell’archivio sono presentati dai loro stessi autori, con l’apprezzabile intento di divulgare il piùpossibile i risultati delle loro ricerche [5].

Rispetto alle potenzialità nell’ambito delle indagini criminali, invece, torniamo al caso dei sopracitati trafficanti di esseri umani, caratterizzati dall’essere, spesso, tra i criminali con il profilo più basso e anonimo, quindi più difficilmente rintracciabili [6].

Un motore di ricerca come quello del progetto Memex ha un bacino di indicizzazione di gran lunga superiore a quello tipico dei motori di ricerca “standard”.

Se un trafficante di esseri umani – come, d’altronde, qualunque altro criminale – decidesse di pubblicare annunci nel deep web, l’investigatore, attraverso Memex, avrebbe modo di ritrovarli prima che vengano eliminati dall’autore, cosìcome sarebbe possibile stabilire connessioni, tra i risultati ottenuti, numericamente ben piùconsistenti di quelle evidenziate dall’uso dei motori di ricerca piùutilizzati.

Dopo la ricerca iniziale, infatti, Memex saràin grado di mostrare un cosiddetto “data wake” che indicheràall’utente tutte le altre pagine correlate ai link oggetto dell’indagine.

E non solo. I web crawler [7] di Memex sarebbero anche in grado di tracciare i movimenti dei trafficanti di esseri umani, partendo da un’analisi di dove siano stati pubblicati in precedenza gli annunci, per poi indicare graficamente i movimenti del criminale su una mappa: un aiuto inestimabile alle indagini, soprattutto se svolte su scala internazionale.

Le prospettive future del programma vogliono muoversi nella direzione di acuire il sistema di riconoscimento immagini e confronto con i tratti somatici dell’individuo, fino a cogliere il volto di un trafficante o di un terrorista dal riflesso su uno schermo, sullo sfondo di una qualunque immagine, anche sfocata, che venga uploadata in rete [8].

Ovviamente, queste funzionalità richiedono un elaboratore in grado di gestire l’input e l’output dei milioni di file presenti in rete.

A questo proposito, la US National Science Foundation ha investito 11,2 milioni di dollari in un supercomputer, il Wrangler, ora situato nel Texas Advanced Computing Center (TACC).

Il Wrangler consente un trasferimento dei file efficiente a tal punto da superare i colli di bottiglia [9] che rallenterebbero anche i computer piùveloci. Non secondariamente, è stato costruito per funzionare in tandem con altri elaboratori, come ad esempio il supercomputer Stampede, che nel 2013 è stato il sesto computer più veloce al mondo [10].

Memex si serve di un web crawler (per la definizione, si veda la nota 12) open source chiamato Apache Nutch, per indicizzare le risorse presenti neldeep web.

Wrangler, dal canto suo, è in grado di evitare l’overload dei dati grazie ai suoi 600 terabyte di memoria flash, e con il supporto di un web crawler di alto livello come Apache Nutch riesce a sostenere Memex nei suoi ambiziosi obiettivi di ricerca.

Secondo alcuni report, incluso quello pubblicato dai ricercatori della Carnegie Mellon University [11], molti dipartimenti di polizia e agenzie di sicurezza hanno giàavuto accesso alle prime release del sistema Memex, impiegandolo con successo in casi trasnazionali di notevole complessitàinvestigativa.

Il progetto Memex appare, per potenzialità e risultati, tra i più promettenti nuovi software di ricerca online. Non èperòl’unico che, a fronte di una prova pratica, abbia dimostrato di poter ridefinire il concetto stesso di motore di ricerca.

La start-up francese Aleph Networks ha costituito Aleph, un motore di ricerca in grado di indicizzare pagine in 70 lingue diverse che, in cinque anni, ha creato un archivio di oltre 450 milioni di file su 140.000 diversi siti.

I risultati? Uno degli esempi portati da Celine Haeri, co-fondatrice di Aleph, è piuttosto suggestivo: una semplice ricerca con la keyword “Cesio 137”- isotopo radioattivo alla base della costruzione delle bombe “sporche”, così definite per la caratteristica di diffondere materiale radioattivo intorno al luogo dell’esplosione – ha permesso di evidenziare 87 annunci di vendita nel dark web.

Al momento questa tecnologia è impiegata dal Ministero della Difesa francese in ambiti legali e militari.

A ben rifletterci, uno strumento in grado di garantire un così elevato livello di controllo può potenzialmente lanciare una sfida, di natura etica, molto più impegnativa di quella rappresentata dalle delicate indagini forensi cui si è fatto accenno, a più riprese, nel corso dell’articolo.

Si pensi al caso di dissidenti politici in un regime autoritario, che impieghino le potenzialità della rete “nascosta” al fine di tutelare i diritti fondamentali, propri e dei consociati. Cosa succederebbe, se mezzi come quelli descritti fossero utilizzati dallo stesso regime contro la popolazione?

E’ quasi intuitivo capire come un giudizio aprioristico, che non faccia distinzioni fra le diverse realtà presenti nel deep web, possa non essere la chiave di lettura ideale per approcciare questa sconfinata dimensione digitale.
E come uno strumento con le potenzialità del Memex, o di Aleph, debba essere gestito con estrema cautela, con un approccio che non pare scindibile da un giudizio moralmente orientato.
Una scelta difficile ma inevitabile, un dilemma dalle vaste implicazioni. Una questione che, in un futuro forse anche piùprossimo di quanto sia lecito aspettarsi, qualcuno si troveràad affrontare. E che presto a tardi, nel bene e nel male, potrebbe avere ripercussioni sulla vita di ognuno di noi.

Le statistiche indicano Google come il motore di ricerca più utilizzato a livello globale, mentre Baidu e Yandex appaiono come i piùimpiegati, rispettivamente, in Cina e Russia. I dati, riportati e aggiornati quotidianamente, sono rinvenibili su https://netmarketshare.com.
In informatica il termine query viene usato per descrivere l’interrogazione da parte di un utente di un database, strutturato secondo il modello relazionale, al fine di compiere determinate operazioni sui dati – quali selezione, inserimento, cancellazione, aggiornamento e via discorrendo. Da http://www.treccani.it/enciclopedia/sql/.
Per completezza di informazione si noti che altre fonti individuano le risorse web indicizzate in un valore percentuale che va da dal 2% al 10% delle pagine web complessivamente presenti in rete. Stime che, a causa della vastitàdi Internet, sono difficilmente verificabili in modo accurato.
Qui di seguito, il link che rimanda al sito ufficiale del Memex, sul quale sono recuperabili gli obiettivi e gli aggiornamenti inerenti al progetto https://memex.jpl.nasa.gov.
L’American Journal of Freestanding Research Psychologyèun esempio di archivio online non indicizzato, raggiungibile esclusivamente attraverso un link di Onion – cioènon raggiungibile da un browser standard, ma solo da uno che utilizzi una cosiddetta Onion routing- come il noto browser Tor, grazie al quale il traffico dati viene fatto “rimbalzare”attraverso una serie di nodi anonimi, rendendo impossibile localizzarne la posizione.
Al link che segue, il global report dello United Nations Office On Drugs and Crime tenutosi a Viennanel 2014. https://www.unodc.org/documents/human-trafficking/2014/GLOTIP_2014_full_report.pdf.
Il web crawlerspider(a volte abbreviato semplicemente in “spider”oppure in “web crawler”) èun bot internet che periodicamente scandaglia il World Wide Web allo scopo di crearne un indice o, meglio ancora, una mappa. I motori di ricerca –e alcuni altri servizi Internet –utilizzano software di questo genere per aggiornare il loro contenuto o per aggiornare gli indici web presenti nei loro database.
Nell’articolo cui si accede a questo link, https://www.scientificamerican.com/article/human-traffickers-caught-on-hidden-internet/?page=2, alcune informazioni aggiuntive in merito all’utilizzo, da parte del New York County District Attorney’s Office, del progetto Memex. Le indagini si concentrarono sull’individuazione ed il perseguimento giudiziario di trafficanti di esseri umani.
Il collo di bottiglia, in ambito informatico, indica una o piùcomponenti che rallentano il sistema, anche a fronte dell’utilizzo di un nuovo hardware. E’la componente piùlenta (fra tante componenti veloci), che puòquindi influenzare negativamente le prestazioni complessive.
Al link che segue, il sito ufficiale del TACC con alcuni dettagli sul supercomputer Stampede https://www.tacc.utexas.edu/systems/stampede.
Al link che segue, i riferimenti e i risultati dello studio condotto dalla Carnegie Mellon University https://www.cmu.edu/news/stories/archives/2015/january/detecting-sex-traffickers.html.

Autore

Roberto Pelliccia

Motori di ricerca innovativi: si accende una luce negli abissi del deep web?