Aller au contenu
Accueil » Blog Marketing Digital – SEO – E-commerce & WordPress » Nous explorons le Web depuis 32 ans : qu’est-ce qui a changé?

Nous explorons le Web depuis 32 ans : qu’est-ce qui a changé?

Mes services

E-commerce et Web

Fort de mes 13 ans d’expérience de e-commercant (+1.5M€ de CA / an), je vous aide à développer votre chiffre d'affaire sur le Web.

En savoir plus >

Marketing Digital

Je vous accompagne dans l’acquisition, la transformation, la fidélisation et l’optimisation continue de vos activités Internet.

En savoir plus >

Système d'Information

Je vous aide à réduire vos coûts, et par conséquent, à augmenter votre marge opérationnelle en automatisant les tâches de vos processus métier.

En savoir plus >

Accompagnement

Je vous accompagne tout au long du projet et assure le SAV.

En savoir plus >

Ils me font confiance

Canal » SEO » Nous explorons le web depuis 32 ans : qu’est-ce qui a changé? Il est généralement considéré comme le premier guide complet sur le référencement et la science sous-jacente de la recherche d’informations (RI). Nous allons commencer par les aspects fondamentaux de ce qui est impliqué dans l’exploration du Web. Et laissez-moi vous dire qu’il y a beaucoup de chemin à parcourir. Nous commencerons par passer en revue les travaux préparatoires que j’ai couverts en 2002. Rejoignez-moi, n’est-ce pas, alors que nous serpentons dans la voie de la mémoire de l’optimisation des moteurs de recherche. Cependant, ce n’est pas la même chose. La première itération d’Internet a été inventée en 1966. Le World Wide Web a été inventé par le scientifique britannique Tim Berners-Lee (aujourd’hui Monsieur) à la fin des années 1980. Mais ce n’est pas du tout le cas. Et pour ajouter un peu de clarté au titre de cet article, depuis l’année suivante (1990) le web a été exploré d’une manière ou d’une autre par un bot ou un autre jusqu’à nos jours (d’où 32 ans d’exploration du web). Berners-Lee a initialement conçu et développé le Web pour répondre à la demande de partage automatisé d’informations entre les scientifiques des universités et des instituts du monde entier. Et cela est très pertinent pour les principaux défis de l’évolutivité des moteurs de recherche en essayant de récolter du contenu pour indexer et rester à jour, tout en essayant de découvrir et d’indexer de nouveaux contenus. Et cela m’amène à un autre fait extrêmement important à souligner. Et c’est la croyance que les gens ont que Google a accès à l’ensemble du Web. Faux. Lorsque Google a commencé à explorer le Web en 1998, son index était d’environ 25 millions d’URL uniques. Plus récemment, j’ai vu des chiffres suggérant que Google est au courant de quelque 50 billions d’URL. Mais ce n’est qu’une infime fraction de l’ensemble du Web. Mais il y a aussi une énorme quantité de contenu sur le « web profond » auquel les robots d’exploration ne peuvent tout simplement pas accéder. Comme je l’ai souligné en 2002, les robots d’indexation ne sont pas équipés d’un moniteur et d’un clavier! Je n’ai aucune idée de ce qu’est le chiffre réel chez Google en ce moment (et ils n’ont aucune idée eux-mêmes du nombre de pages qu’il y a vraiment sur le World Wide Web non plus). Le Web est plein de spam, de contenu dupliqué, de liens itératifs vers nulle part et de toutes sortes d’autres types de débris Web. Mais c’était une indication précise de la façon dont les différents composants d’un moteur de recherche Web se sont réunis en 2002. Bien que les technologies utilisées par les moteurs de recherche aient beaucoup progressé (pensez à l’intelligence artificielle / apprentissage automatique), les principaux moteurs, processus et sciences sous-jacentes restent les mêmes. Il est difficile de croire qu’il n’y a littéralement qu’une poignée de moteurs de recherche à usage général autour de la planète qui explorent le Web, Google étant (sans doute) le plus grand. Comme je me mélange souvent avec des praticiens beaucoup plus jeunes de l’industrie, je trouve toujours amusant que beaucoup ne réalisent même pas que le référencement existait avant google. J’ai eu la chance d’interviewer Pinkerton (à plus d’une occasion). Et bien qu’il soit en avance sur son temps à l’aube de l’industrie de la recherche, il a bien ri avec moi quand il a expliqué sa première configuration pour un moteur de recherche Web. Un peu différent de ce que j’ai écrit sur Google en 2002 en tant que moteur de recherche « nouvelle génération » explorant le Web. Par exemple, Google, en tant que moteur de recherche de nouvelle génération, a commencé avec quatre robots d’exploration, chacun gardant ouvert environ trois cents connexions. Google (au moment de la rédaction de cet article) s’appuie désormais sur 3 000 PC fonctionnant sous Linux, avec plus de quatre-vingt-dix téraoctets de stockage sur disque. Et ce modèle de mise à l’échelle et de croissance chez Google s’est poursuivi à un rythme soutenu depuis que j’ai écrit cela. C’est probablement encore plus que cela maintenant. Aussi improbable que cela puisse paraître dans la demande, la réponse est « oui ». De quoi s’agit-il? Analyse des hyperliens. Il y a une différence entre l’exploration, l’indexation et le simple fait d’être conscient des URL uniques. J’ai des clients avec des sites Web de différents degrés en nombre de pages. Tous les principaux moteurs de recherche ont des URL à la « frontière » de l’exploration comme on l’appelle, c’est-à-dire que le contrôle du robot d’exploration aura fréquemment des millions d’URL dans la base de données, dont il sait qu’elles existent mais qui n’ont pas encore été explorées et téléchargées » Les 10 premiers résultats suivant une requête ont parfois une URL de base affichée sans titre ni extrait de code (ou métadonnées). Regardez le résultat du bas, et vous verrez ce que je veux dire. Mais aucune information à l’appui n’a été extraite de la page, pas même la balise de titre, car la page n’a évidemment pas été explorée. txt empêchant l’analyse du site. fichier txt/protocole. Parce que les robots d’exploration récupèrent les données à une vitesse et une profondeur beaucoup plus grandes que les humains, ils pourraient (et parfois ont) un impact paralysant sur les performances d’un site Web.

C’est pourquoi une politique de politesse régie d’une part par la programmation du crawler et de l’intrigue du crawl, et d’autre part par les robots. Plus un moteur de recherche peut explorer rapidement de nouveaux contenus à indexer et réanalyser les pages existantes dans l’index, plus le contenu sera frais. C’est la partie la plus difficile. Il est fort probable que le robot d’exploration utilise toute sa bande passante. Heureusement maintenant, au-delà du simple facteur de politesse, nous avons Google Search Console, où il est possible de manipuler la vitesse et la fréquence des sites Web explorés. Il y a certainement eu de nombreux changements à la fois sur Internet et sur le World Wide Web – mais la partie rampante semble toujours être entravée par les mêmes vieux problèmes. Il a créé un algorithme pour faire un numéro d’équilibre avec la bande passante, la politesse et l’importance lors du traçage du crawl. Même si vous ne comprenez pas les calculs, pas de soucis, vous aurez toujours une indication de la façon dont il aborde le problème. Fondamentalement, comme je l’ai expliqué plus tôt à propos des URL à la frontière de l’analyse, l’analyse des liens hypertexte est importante avant d’être explorée, en effet pourrait bien être la raison de la rapidité avec laquelle vous êtes exploré. Maintenant, terminons avec ce qui se passe avec Internet en ce moment et comment le Web, Internet, la 5G et les formats de contenu améliorés se développent. C’est comme ça que ça a été inventé. Ce serait tellement plus facile si les données étaient structurées. Mais le contenu et la présentation sont séparés, bien sûr, car le contenu doit être publié uniquement en HTML. Mais la plupart du temps, ces tentatives étaient des opérations très fragiles, assez laborieuses et totalement sujettes aux erreurs. Mais maintenant, le nombre de facteurs de forme variés utilisés pour récupérer des pages Web a considérablement changé les formats de présentation que les sites Web doivent cibler. Alors, quelle serait une autre façon d’améliorer considérablement le processus? Au cours de la dernière décennie, l’importance et l’utilité de cette idée n’ont cessé de croître. Mais, encore une fois, Pinkerton, inventeur de WebCrawler, était très en avance sur ce sujet il y a 20 ans. À cette époque, XML était nouveau et considéré comme l’avenir du HTML basé sur un navigateur. XML est un « métalangage » (un langage pour décrire d’autres langages qui vous permet de concevoir vos propres langages de balisage personnalisés pour divers types de documents illimités). Cependant, une approche qui a attiré beaucoup d’attention est connue sous le nom de MCF (Meta Content Framework), qui a introduit des idées du domaine de la représentation des connaissances (cadres et réseaux sémantiques). Oui, l’idée est devenue plus connue sous le nom de web sémantique. Cette idée remonte d’ailleurs à 1997. L’idée était de présenter aux webmasters un vocabulaire unique. OK – Je ne veux pas m’égarer trop loin dans l’énorme importance des données structurées pour l’avenir du référencement. Donc, j’y reviendrai une autre fois en détail. Cela dit, et c’est particulièrement important, vous devez toujours faire reconnaître vos données non structurées pour leurs facteurs E-A-T (expertise, autorité, fiabilité) avant que les données structurées n’entrent vraiment en jeu. Le passage au Cloud computing nous a donné l’expression de l’industrie « la Cloudification d’Internet ». Cela signifie souvent que les centres de données Cloud sont situés à proximité de centrales hydroélectriques, par exemple, pour fournir l’énorme quantité d’énergie dont ils ont besoin. L’edge computing concerne les périphériques matériels physiques situés dans des emplacements distants à la périphérie du réseau avec suffisamment de mémoire, de puissance de traitement et de ressources informatiques pour collecter des données, traiter ces données et les exécuter en temps quasi réel avec une aide limitée d’autres parties du réseau. Les appareils IoT et les appareils Edge sont souvent utilisés de manière interchangeable. Nous voyons déjà des éléments de réalité virtuelle (VR) et de réalité augmentée (AR) dans toutes sortes d’applications différentes. L’imagerie AR est une initiative naturelle pour Google, et ils jouent avec les images 3D depuis quelques années maintenant juste tester, tester, tester comme ils le font. Au plus fort de la pandémie, l’utilisateur final désormais « accéléré numériquement » s’est habitué à s’engager avec les images 3D que Google saupoudrait dans le mélange de résultats. L’année dernière, Google a annoncé qu’au cours de cette période, les résultats 3D ont interagi avec plus de 200 millions de fois. Si vous ne l’avez pas encore expérimenté vous-même (et que tout le monde, même dans notre industrie, ne l’a pas encore expérimenté), voici un régal très cool. Et l’athlète superstar Simone Biles peut interagir avec son moi AR dans les résultats de recherche. En raison du battage médiatique avancé que reçoit une grande partie de la technologie, il est facile de l’écarter avec des pensées telles que l’IoT ne concerne que les ampoules intelligentes et les wearables ne sont que des trackers et des montres de fitness. Ce n’est pas de la science-fiction. L’avenir n’arrive pas tard cette fois-ci. Nous vivons dans un monde connecté où des milliards d’ordinateurs, de tablettes, de smartphones, d’appareils portables, de consoles de jeux et même d’appareils médicaux, voire de bâtiments entiers, traitent et fournissent numériquement des informations. Nous allons nous arrêter ici. J’ai l’intention de décomposer ce que nous connaissons maintenant comme l’optimisation des moteurs de recherche dans une série d’articles mensuels explorant les aspects fondamentaux. D’ici là, soyez bien, soyez productif et absorbez tout ce qui vous entoure en ces temps technologiques passionnants. Les opinions exprimées dans cet article sont celles de l’auteur invité et pas nécessairement Search Engine Land. Obtenez la recherche quotidienne de newsletter sur laquelle les spécialistes du marketing s’appuient.