Comment trouver des pages cachées sur des sites Web

En 2016, Google a traité plus de 3 200 milliards de requêtes de recherche. Toutefois, les résultats fournis par le moteur de recherche ne représentaient qu'une fraction du contenu disponible en ligne. Une grande partie de l'information disponible en ligne n'est pas accessible via les moteurs de recherche. Il est donc nécessaire d'utiliser des outils spéciaux ou des sites Web de recherche pour trouver ces pages cachées. Connu sous le nom de Web profond, cette information cachée représente jusqu'à 5 000 fois plus que ce qui est disponible avec les techniques de recherche habituelles.

Types de contenu caché

Les pages cachées des sites Web sont divisées en catégories qui expliquent pourquoi elles restent invisibles pour les moteurs de recherche.

Certains constituent un contenu dynamique, qui est présenté uniquement lorsqu'un visiteur émet une demande spécifique sur un site Web qui utilise un code basé sur une base de données pour présenter des résultats spécifiques. A titre d'exemple, ces pages pourraient inclure des résultats d'achat basés sur des combinaisons spécifiques de critères de produit. Les moteurs de recherche ne sont pas conçus pour suivre et stocker des informations dans ces bases de données. Pour trouver ces pages, vous devez aller sur le site Web et rechercher les informations spécifiques que vous recherchez ou utiliser un service de recherche orienté base de données tel que Bright Planet .

Certaines pages n'ont pas de liens qui les connectent aux sources de recherche. Les ressources temporaires, telles que plusieurs versions de sites Web de sous-développement, peuvent être incluses dans cette catégorie, tout comme les sites Web mal conçus. Par exemple, si une personne crée une page Web et la télécharge sur le serveur du site Web sans y ajouter de lien dans les pages actuelles du site Web, personne ne saura qu'elle existe, y compris les moteurs de recherche.

Encore plus de pages nécessitent des informations d'identification de connexion pour pouvoir être consultées ou consultées, telles que les sites d'abonnement. Les concepteurs de sites Web désignent les pages et les sections des sites comme étant en dehors des limites des moteurs de recherche, éliminant ainsi leur emplacement par des moyens conventionnels. Pour accéder à ces pages, vous devez généralement créer un compte avant d'obtenir l'autorisation de les consulter.

Utilisation de fichiers robots.txt

Les moteurs de recherche explorent les pages d'un site Web et indexent leur contenu afin qu'il puisse apparaître en réponse à des requêtes. Lorsque le propriétaire d’un site Web souhaite exclure certaines parties de son domaine de ces procédures d’indexation, il ajoute les adresses de ces répertoires ou pages à un fichier texte spécial, appelé robots.txt, stocké à la racine de son site. Étant donné que la plupart des sites Web incluent un fichier de robot, qu'ils ajoutent ou non des exclusions, vous pouvez utiliser le nom prévisible du document pour afficher son contenu.

Si vous tapez le "[nom de domaine] /robots.txt" sans les guillemets dans la barre d'adresse de votre navigateur en remplaçant le "[nom de domaine]" par l'adresse du site, le contenu du fichier de robot apparaîtra souvent dans la fenêtre du navigateur après avoir appuyé sur la touche "Entrée". Les entrées précédées de "interdire" ou "nofollow" représentent des parties du site qui restent inaccessibles via un moteur de recherche.

Faites-le vous-même: piratage de sites Web

En plus des fichiers robot.txt, vous pouvez souvent trouver du contenu masqué en tapant des adresses Web pour des pages et des dossiers spécifiques dans votre navigateur Web. Par exemple, si vous consultez le site Web d'un artiste et constatez que chaque page utilise la même convention de dénomination - comme gallery1.html, gallery2.html, gallery4.html - vous pouvez alors trouver une galerie cachée en tapant la page "gallery3.html "dans votre navigateur Web.

De même, si vous constatez que le site Web utilise des dossiers pour organiser les pages (par exemple, exemple.com/content/page1.html, avec le dossier "/ content"), vous pourrez peut-être voir le dossier lui-même en tapant le site Web et le mot de passe. dossier, sans page, comme "exemple.com/content/" dans votre navigateur Web. Si l'accès au dossier n'a pas été désactivé, vous pourrez peut-être naviguer à travers les pages qu'il contient, ainsi que dans les pages d'un sous-dossier pour trouver du contenu masqué.

Cet article a été réalisé avec l'aide de itstillworks.com