In quest’epoca abbiamo poche certezze: la nostra esistenza, il giorno e la notte, le quattro stagioni e il fatto che se cerchi qualcosa su Google, trovi tutto quello che puoi trovare su quell’argomento.
E se ti dicessi che non è così?
Non fraintendere, i primi tre esempi sono corretti, l’ultimo no. Sai quanti documenti (intesi come pagine web e ogni genere di file indicizzabile) Google ha catalogato? Due miliardi. Sai quanti documenti, si stima, siano su Internet? 550 miliardi. Sì, in pratica Google indicizza meno dello 0,5% del materiale disponibile online. E gli altri motori di ricerca non fanno di meglio.
Puoi immaginare Internet come un grande iceberg, dove ne vedi soltanto la punta, ma in realtà non sai per quanti metri, sotto il livello del mare, si estenda quel gigante di ghiaccio.
I motivi per i quali Google non può indicizzare tutto sono semplici, ma allo stesso tempo complicati per chi non ha a che fare quotidianamente con questo settore.
Una delle ragioni più comuni è che alcuni cercano volontariamente di occultare il proprio sito web o alcune pagine lasciando istruzioni precise ai motori di ricerca tramite un file apposito che viene posizionato nella root del sito, denominato robots.txt, che contiene a tutti gli effetti un messaggio per Googlebot e gli altri spider dei motori di ricerca. È chiaro che se il motore di ricerca segue quelle istruzioni, il contenuto non viene indicizzato.
Altre categorie di pagine che non vengono indicizzate sono quelle a contenuto dinamico: l’esempio più classico è quello dei social network: quando accedi a Facebook e visualizzi il news feed, ad esempio, sai che quella pagina è personalizzata esclusivamente per te, così come lo è per tutti gli iscritti, perché ovviamente ognuno di noi ha amici diversi, like a pagine diverse e così via. Pensi che Google indicizzi ogni singolo news feed di ogni utente?
In generale, sui siti in cui bisogna registrarsi e che hanno delle pagine dinamiche personalizzate per ciascun utente, i motori di ricerca non possono passare, sia per privacy, sia per motivi prettamente tecnici. Immagina se Google potesse indicizzare il contenuto del pannello di amministrazione di un sito: sarebbe un disastro!
A questo punto, è importante fare una distinzione: se fino ad ora abbiamo parlato dell’invisible web, adesso parleremo del dark web.
Esistono infatti dei siti che utilizzano reti Internet sovrapposte al World Wide Web e dunque non sono accessibili tramite un comune browser e una normale connessione ad Internet, ma occorrono software speciali. Conosci Tor, ad esempio? È un celebre software che consente di navigare online in totale anonimato, ma forse non sai che quella non è la sua unica funzione: Tor, infatti, ti permette di accedere alle pagine web con suffisso onion.
Ma come mai questi siti vengono nascosti? Perché è così importante l’anonimato?
Perché spesso questi siti riguardano attività illegali quali la produzione e la vendita di droga, armi, la diffusione di materiale pedopornografico e musica e film pirata. Esistono persino dei siti su cui è possibile ingaggiare assassini a pagamento.
Oltre a ciò, ci sono ovviamente anche materiali riguardanti istituzioni e agenzie governative che potrebbero archiviare i propri file su Internet, esattamente come fai tu con servizi come Dropbox o Google Drive. Google quei file non li indicizza, eppure sono lì, sul web, in qualche server da qualche parte nel mondo.
Ricorderai sicuramente lo scandalo di WikiLeaks. È dal dark web che arriva molto del materiale pubblicato da quel sito. Un altro esempio: avrai sicuramente sentito parlare di software come eMule e Bit Torrent, con cui alcuni utenti scaricano musica non protetta da diritti d’autore o film o altro materiale. Beh, anche quei file non li trovi tramite Google e nemmeno puoi accedervi con un normale browser, se ti dessi il link. Eppure anche quei file fanno parte di Internet.
Ora che conosci la reale dimensione di Internet, non resta che augurarti buona navigazione!
3.5