Nous explorons le Web depuis 32 ans : qu'est-ce qui a changé? - Expert & Consultant ChatGPT

Un retour sur l’histoire de la recherche et du référencement et un aperçu de ce que la prochaine itération d’Internet signifie pour les spécialistes du marketing.

Il y a 20 ans cette année, j’ai écrit un livre intitulé « Search Engine Marketing: The Essential Best Practice Guide ». Il est généralement considéré comme le premier guide complet sur le référencement et la science sous-jacente de la recherche d’informations (RI).

J’ai pensé qu’il serait utile de regarder ce que j’ai écrit en 2002 pour voir comment cela se compare aujourd’hui. Nous allons commencer par les aspects fondamentaux de ce qui est impliqué dans l’exploration du Web.

Il est important de comprendre l’histoire et le contexte d’Internet et de chercher pour comprendre où nous en sommes aujourd’hui et ce qui va suivre. Et laissez-moi vous dire qu’il y a beaucoup de chemin à parcourir.

Notre industrie se précipite maintenant dans une autre nouvelle itération d’Internet. Nous commencerons par passer en revue les travaux préparatoires que j’ai couverts en 2002.

Tout cela est un méga saut par rapport à l’endroit où Internet a commencé.

Rejoignez-moi, n’est-ce pas, alors que nous serpentons dans la voie de la mémoire de l’optimisation des moteurs de recherche.

Une leçon d’histoire importante

Nous utilisons les termes World Wide Web et Internet de manière interchangeable. Cependant, ce n’est pas la même chose.

Vous seriez surpris de voir combien ne comprennent pas la différence.

La première itération d’Internet a été inventée en 1966. Une autre itération qui l’a rapproché de ce que nous savons maintenant a été inventée en 1973 par le scientifique Vint Cerf (actuellement évangéliste en chef d’Internet pour Google).

Le World Wide Web a été inventé par le scientifique britannique Tim Berners-Lee (aujourd’hui Monsieur) à la fin des années 1980.

Fait intéressant, la plupart des gens ont l’idée qu’il a passé quelque chose d’équivalent à une vie de recherche scientifique et d’expérimentation avant que son invention ne soit lancée. Mais ce n’est pas du tout le cas. Berners-Lee a inventé le World Wide Web pendant son heure de déjeuner un jour de 1989 alors qu’il dégustait un sandwich au jambon dans le café du personnel du laboratoire du CERN en Suisse.

Et pour ajouter un peu de clarté au titre de cet article, depuis l’année suivante (1990) le web a été exploré d’une manière ou d’une autre par un bot ou un autre jusqu’à nos jours (d’où 32 ans d’exploration du web).

Le Web n’a jamais été conçu pour faire ce que nous en attendons maintenant (et ces attentes sont de plus en plus grandes).

Berners-Lee a initialement conçu et développé le Web pour répondre à la demande de partage automatisé d’informations entre les scientifiques des universités et des instituts du monde entier.

Donc, une grande partie de ce que nous essayons de faire faire faire sur le Web est étrangère à l’inventeur et au navigateur (que Berners-Lee a également inventé).

Et cela est très pertinent pour les principaux défis de l’évolutivité des moteurs de recherche en essayant de récolter du contenu pour indexer et rester à jour, tout en essayant de découvrir et d’indexer de nouveaux contenus.

Pourquoi vous devez savoir tout cela

Le Web n’a jamais été conçu pour faire ce que nous en attendons maintenant (et ces attentes sont de plus en plus grandes).

Berners-Lee a initialement conçu et développé le Web pour répondre à la demande de partage automatisé d’informations entre les scientifiques des universités et des instituts du monde entier.

Donc, une grande partie de ce que nous essayons de faire faire faire sur le Web est étrangère à l’inventeur et au navigateur (que Berners-Lee a également inventé).

De toute évidence, le World Wide Web s’est accompagné de défis inhérents. Et cela m’amène à un autre fait extrêmement important à souligner.

C’est le « mythe omniprésent » qui a commencé lorsque Google a été lancé pour la première fois et qui semble être aussi omniprésent aujourd’hui qu’il l’était à l’époque. Et c’est la croyance que les gens ont que Google a accès à l’ensemble du Web.

Non. Faux. En fait, loin de là.

Lorsque Google a commencé à explorer le Web en 1998, son index était d’environ 25 millions d’URL uniques. Dix ans plus tard, en 2008, ils ont annoncé qu’ils avaient franchi l’étape majeure d’avoir vu 1 billion d’URL uniques sur le Web.

Plus récemment, j’ai vu des chiffres suggérant que Google est au courant de quelque 50 billions d’URL.

Et 50 trillions, c’est beaucoup d’URL. Mais ce n’est qu’une infime fraction de l’ensemble du Web.

Google (ou tout autre moteur de recherche) peut explorer une énorme quantité de contenu à la surface du Web. Mais il y a aussi une énorme quantité de contenu sur le « web profond » auquel les robots d’exploration ne peuvent tout simplement pas accéder. Il est verrouillé derrière des interfaces conduisant à des quantités colossales de contenu de base de données. Comme je l’ai souligné en 2002, les robots d’indexation ne sont pas équipés d’un moniteur et d’un clavier!

En outre, le chiffre de 50 billions d’URL uniques est arbitraire. Je n’ai aucune idée de ce qu’est le chiffre réel chez Google en ce moment (et ils n’ont aucune idée eux-mêmes du nombre de pages qu’il y a vraiment sur le World Wide Web non plus).

Ces URL ne mènent pas toutes à un contenu unique non plus. Le Web est plein de spam, de contenu dupliqué, de liens itératifs vers nulle part et de toutes sortes d’autres types de débris Web.

En 2002, j’ai créé une interprétation visuelle de « l’anatomie générale d’un moteur de recherche basé sur un robot d’indexation » :

De toute évidence, cette image ne m’a valu aucun prix de design graphique. Mais c’était une indication précise de la façon dont les différents composants d’un moteur de recherche Web se sont réunis en 2002. Cela a certainement aidé l’industrie émergente du référencement à mieux comprendre pourquoi l’industrie et ses pratiques étaient si nécessaires.

Bien que les technologies utilisées par les moteurs de recherche aient beaucoup progressé (pensez à l’intelligence artificielle / apprentissage automatique), les principaux moteurs, processus et sciences sous-jacentes restent les mêmes.

Bien que les termes « apprentissage automatique » et « intelligence artificielle » aient trouvé leur chemin plus fréquemment dans le lexique de l’industrie ces dernières années, j’ai écrit ceci dans la section sur l’anatomie d’un moteur de recherche il y a 20 ans:

« Dans la conclusion de cette section, j’aborderai les ‘machines d’apprentissage’ (machines à support vectoriel) et l’intelligence artificielle (IA), où le domaine de la recherche et de la récupération sur le Web doit inévitablement aller ensuite ».

Il est difficile de croire qu’il n’y a littéralement qu’une poignée de moteurs de recherche à usage général autour de la planète qui explorent le Web, Google étant (sans doute) le plus grand. Je dis cela parce qu’en 2002, il y avait des dizaines de moteurs de recherche, avec de nouvelles startups presque chaque semaine.

Comme je me mélange souvent avec des praticiens beaucoup plus jeunes de l’industrie, je trouve toujours amusant que beaucoup ne réalisent même pas que le référencement existait avant google.

Bien que Google obtienne beaucoup de crédit pour la façon innovante dont il a abordé la recherche sur le Web, il a beaucoup appris d’un gars nommé Brian Pinkerton. J’ai eu la chance d’interviewer Pinkerton (à plus d’une occasion).

Il est l’inventeur du premier moteur de recherche de récupération de texte intégral au monde appelé WebCrawler. Et bien qu’il soit en avance sur son temps à l’aube de l’industrie de la recherche, il a bien ri avec moi quand il a expliqué sa première configuration pour un moteur de recherche Web. Il fonctionnait sur une seule machine 486 avec 800 Mo de disque et 128 Mo de mémoire et un seul robot d’exploration téléchargeant et stockant des pages de seulement 6 000 sites Web!

Un peu différent de ce que j’ai écrit sur Google en 2002 en tant que moteur de recherche « nouvelle génération » explorant le Web.

« Le mot ‘crawler’ est presque toujours utilisé au singulier ; cependant, la plupart des moteurs de recherche ont en fait un certain nombre de robots d’exploration avec une « flotte » d’agents effectuant le travail à grande échelle. Par exemple, Google, en tant que moteur de recherche de nouvelle génération, a commencé avec quatre robots d’exploration, chacun gardant ouvert environ trois cents connexions. À des vitesses de pointe, ils ont téléchargé les informations à partir de plus de cent pages par seconde. Google (au moment de la rédaction de cet article) s’appuie désormais sur 3 000 PC fonctionnant sous Linux, avec plus de quatre-vingt-dix téraoctets de stockage sur disque. Ils ajoutent trente nouvelles machines par jour à leur parc de serveurs juste pour suivre la croissance ».

Et ce modèle de mise à l’échelle et de croissance chez Google s’est poursuivi à un rythme soutenu depuis que j’ai écrit cela. Cela fait un moment que je n’ai pas vu un chiffre précis, mais peut-être il y a quelques années, j’ai vu une estimation selon laquelle Google explorait 20 milliards de pages par jour. C’est probablement encore plus que cela maintenant.

Est-il possible de se classer dans le top 10 chez Google si votre page n’a jamais été explorée?

Aussi improbable que cela puisse paraître dans la demande, la réponse est « oui ».

De temps en temps, Google renverra une liste, ou même un seul lien vers un document, qui n’a pas encore été exploré mais avec notification que le document n’apparaît que parce que les mots-clés apparaissent dans d’autres documents avec des liens, qui pointent vers lui.

De quoi s’agit-il? Comment est-ce possible?

Analyse des hyperliens. Oui, ce sont des backlinks !

Il y a une différence entre l’exploration, l’indexation et le simple fait d’être conscient des URL uniques.

« Si vous revenez aux énormes défis décrits dans la section sur l’exploration du Web, il est clair que l’on ne devrait jamais supposer, à la suite d’une visite d’une araignée de moteur de recherche, que TOUTES les pages de votre site Web ont été indexées. J’ai des clients avec des sites Web de différents degrés en nombre de pages. Une cinquantaine, quelque 5 000 et en toute honnêteté, je peux dire qu’aucun d’entre eux n’a chaque page indexée par tous les principaux moteurs de recherche. Tous les principaux moteurs de recherche ont des URL à la « frontière » de l’exploration comme on l’appelle, c’est-à-dire que le contrôle du robot d’exploration aura fréquemment des millions d’URL dans la base de données, dont il sait qu’elles existent mais qui n’ont pas encore été explorées et téléchargées »

Il y a eu de nombreuses fois où j’ai vu des exemples de cela. Les 10 premiers résultats suivant une requête ont parfois une URL de base affichée sans titre ni extrait de code (ou métadonnées).

Voici un exemple que j’ai utilisé dans une présentation de 2004. Regardez le résultat du bas, et vous verrez ce que je veux dire.

Google est conscient de l’importance de cette page en raison des données de liaison qui l’entourent. Mais aucune information à l’appui n’a été extraite de la page, pas même la balise de titre, car la page n’a évidemment pas été explorée. (Bien sûr, cela peut également se produire avec la petite erreur à feuilles persistantes qui se produit tout le temps lorsque quelqu’un quitte les robots. txt empêchant l’analyse du site.

J’ai souligné cette phrase ci-dessus en gras pour deux raisons importantes :

Je vais juste embellir un peu plus la « politesse » car elle est directement connectée aux robots. fichier txt/protocole. Tous les défis liés à l’exploration du Web que j’ai expliqués il y a 20 ans existent encore aujourd’hui (à plus grande échelle).

Parce que les robots d’exploration récupèrent les données à une vitesse et une profondeur beaucoup plus grandes que les humains, ils pourraient (et parfois ont) un impact paralysant sur les performances d’un site Web. Les serveurs peuvent planter en essayant simplement de suivre le nombre de requêtes rapides.

C’est pourquoi une politique de politesse régie d’une part par la programmation du crawler et de l’intrigue du crawl, et d’autre part par les robots. Le fichier txt est requis.

Plus un moteur de recherche peut explorer rapidement de nouveaux contenus à indexer et réanalyser les pages existantes dans l’index, plus le contenu sera frais.

Trouver le bon équilibre? C’est la partie la plus difficile.

Disons, purement hypothétiquement, que Google voulait garder une couverture complète des nouvelles et des affaires courantes et a décidé d’essayer de parcourir l’ensemble du site Web du New York Times tous les jours (même chaque semaine) sans aucun facteur de politesse. Il est fort probable que le robot d’exploration utilise toute sa bande passante. Et cela signifierait que personne ne peut lire le journal en ligne en raison de l’accaparement de la bande passante.

Heureusement maintenant, au-delà du simple facteur de politesse, nous avons Google Search Console, où il est possible de manipuler la vitesse et la fréquence des sites Web explorés.

OK, nous avons couvert beaucoup de terrain comme je le savais.

Il y a certainement eu de nombreux changements à la fois sur Internet et sur le World Wide Web – mais la partie rampante semble toujours être entravée par les mêmes vieux problèmes.

Cela dit, il y a quelque temps, j’ai vu une présentation d’Andrey Kolobov, chercheur dans le domaine de l’apprentissage automatique chez Bing. Il a créé un algorithme pour faire un numéro d’équilibre avec la bande passante, la politesse et l’importance lors du traçage du crawl.

Je l’ai trouvé très instructif, étonnamment simple et assez facile à expliquer. Même si vous ne comprenez pas les calculs, pas de soucis, vous aurez toujours une indication de la façon dont il aborde le problème. Et vous entendrez également le mot « importance » dans le mélange à nouveau.

Fondamentalement, comme je l’ai expliqué plus tôt à propos des URL à la frontière de l’analyse, l’analyse des liens hypertexte est importante avant d’être explorée, en effet pourrait bien être la raison de la rapidité avec laquelle vous êtes exploré. Vous pouvez regarder la courte vidéo de sa présentation ici.

Maintenant, terminons avec ce qui se passe avec Internet en ce moment et comment le Web, Internet, la 5G et les formats de contenu améliorés se développent.

Les moteurs de recherche ne peuvent pas accéder à l’ensemble du Web

De toute évidence, le World Wide Web s’est accompagné de défis inhérents. Et cela m’amène à un autre fait extrêmement important à souligner.

Non. Faux. En fait, loin de là.

Plus récemment, j’ai vu des chiffres suggérant que Google est au courant de quelque 50 billions d’URL.

Et 50 trillions, c’est beaucoup d’URL. Mais ce n’est qu’une infime fraction de l’ensemble du Web.

Ces URL ne mènent pas toutes à un contenu unique non plus. Le Web est plein de spam, de contenu dupliqué, de liens itératifs vers nulle part et de toutes sortes d’autres types de débris Web.

Comprendre l’architecture des moteurs de recherche

En 2002, j’ai créé une interprétation visuelle de « l’anatomie générale d’un moteur de recherche basé sur un robot d’indexation » :

Robots d’exploration des moteurs de recherche de nouvelle génération

Comme je me mélange souvent avec des praticiens beaucoup plus jeunes de l’industrie, je trouve toujours amusant que beaucoup ne réalisent même pas que le référencement existait avant google.

Un peu différent de ce que j’ai écrit sur Google en 2002 en tant que moteur de recherche « nouvelle génération » explorant le Web.

Analyse des hyperliens et énigme de l’exploration/indexation/de l’ensemble du Web

Est-il possible de se classer dans le top 10 chez Google si votre page n’a jamais été explorée?

Aussi improbable que cela puisse paraître dans la demande, la réponse est « oui ».

De quoi s’agit-il? Comment est-ce possible?

Analyse des hyperliens. Oui, ce sont des backlinks !

Il y a une différence entre l’exploration, l’indexation et le simple fait d’être conscient des URL uniques.

Voici un exemple que j’ai utilisé dans une présentation de 2004. Regardez le résultat du bas, et vous verrez ce que je veux dire.

J’ai souligné cette phrase ci-dessus en gras pour deux raisons importantes :

C’est pourquoi une politique de politesse régie d’une part par la programmation du crawler et de l’intrigue du crawl, et d’autre part par les robots. Le fichier txt est requis.

Plus un moteur de recherche peut explorer rapidement de nouveaux contenus à indexer et réanalyser les pages existantes dans l’index, plus le contenu sera frais.

Trouver le bon équilibre? C’est la partie la plus difficile.

Heureusement maintenant, au-delà du simple facteur de politesse, nous avons Google Search Console, où il est possible de manipuler la vitesse et la fréquence des sites Web explorés.

Qu’est-ce qui a changé en 32 ans d’exploration du Web?

OK, nous avons couvert beaucoup de terrain comme je le savais.

Il y a certainement eu de nombreux changements à la fois sur Internet et sur le World Wide Web – mais la partie rampante semble toujours être entravée par les mêmes vieux problèmes.

Maintenant, terminons avec ce qui se passe avec Internet en ce moment et comment le Web, Internet, la 5G et les formats de contenu améliorés se développent.

Le Web a été une mer de données non structurées dès le départ. C’est comme ça que ça a été inventé. Et comme il continue de croître de manière exponentielle chaque jour, le défi des moteurs de recherche est d’explorer et de réanalyser les documents existants dans l’index pour analyser et mettre à jour si des modifications ont été apportées pour garder l’index à jour.

C’est une tâche gigantesque.

Ce serait tellement plus facile si les données étaient structurées. Et c’est en grande partie le cas, car les bases de données structurées génèrent de nombreux sites Web. Mais le contenu et la présentation sont séparés, bien sûr, car le contenu doit être publié uniquement en HTML.

Il y a eu de nombreuses tentatives que j’ai connues au fil des ans, où des extracteurs personnalisés ont été construits pour tenter de convertir du HTML en données structurées. Mais la plupart du temps, ces tentatives étaient des opérations très fragiles, assez laborieuses et totalement sujettes aux erreurs.

Quelque chose d’autre qui a complètement changé la donne est que les sites Web dans les premiers jours étaient codés à la main et conçus pour les vieilles machines de bureau maladroites. Mais maintenant, le nombre de facteurs de forme variés utilisés pour récupérer des pages Web a considérablement changé les formats de présentation que les sites Web doivent cibler.

Comme je l’ai dit, en raison des défis inhérents au Web, les moteurs de recherche tels que Google ne seront probablement jamais en mesure d’explorer et d’indexer l’ensemble du World Wide Web.

Alors, quelle serait une autre façon d’améliorer considérablement le processus? Que se passe-t-il si nous laissons le robot continuer à faire son travail régulier et rendre un flux de données structurées disponible simultanément?

Au cours de la dernière décennie, l’importance et l’utilité de cette idée n’ont cessé de croître. Pour beaucoup, c’est encore une idée assez nouvelle. Mais, encore une fois, Pinkerton, inventeur de WebCrawler, était très en avance sur ce sujet il y a 20 ans.

Lui et moi avons discuté de l’idée de flux XML spécifiques au domaine pour normaliser la syntaxe. À cette époque, XML était nouveau et considéré comme l’avenir du HTML basé sur un navigateur.

On l’appelle extensible parce que ce n’est pas un format fixe comme HTML. XML est un « métalangage » (un langage pour décrire d’autres langages qui vous permet de concevoir vos propres langages de balisage personnalisés pour divers types de documents illimités). Diverses autres approches ont été présentées comme l’avenir du HTML, mais n’ont pas pu répondre à l’interopérabilité requise.

Cependant, une approche qui a attiré beaucoup d’attention est connue sous le nom de MCF (Meta Content Framework), qui a introduit des idées du domaine de la représentation des connaissances (cadres et réseaux sémantiques). L’idée était de créer un modèle de données commun sous la forme d’un graphique étiqueté dirigé.

Oui, l’idée est devenue plus connue sous le nom de web sémantique. Et ce que je viens de décrire, c’est la vision initiale du graphe de connaissances. Cette idée remonte d’ailleurs à 1997.

Cela dit, c’est en 2011 que tout a commencé à se mettre en place, schema.org étant fondée par Bing, Google, Yahoo et Yandex. L’idée était de présenter aux webmasters un vocabulaire unique. Différents moteurs de recherche pouvaient utiliser le balisage différemment, mais les webmasters ne devaient faire le travail qu’une seule fois et récolteraient les avantages du balisage pour plusieurs consommateurs.

OK – Je ne veux pas m’égarer trop loin dans l’énorme importance des données structurées pour l’avenir du référencement. Cela doit être un article à part entière. Donc, j’y reviendrai une autre fois en détail.

Mais vous pouvez probablement voir que si Google et d’autres moteurs de recherche ne peuvent pas explorer l’ensemble du Web, l’importance de nourrir des données structurées pour les aider à mettre à jour rapidement les pages sans avoir à les réanalyser à plusieurs reprises fait une énorme différence.

Cela dit, et c’est particulièrement important, vous devez toujours faire reconnaître vos données non structurées pour leurs facteurs E-A-T (expertise, autorité, fiabilité) avant que les données structurées n’entrent vraiment en jeu.

Comme je l’ai déjà mentionné, au cours des quatre dernières décennies, Internet est passé d’un réseau peer-to-peer à la superposition du World Wide Web à une révolution de l’Internet mobile, à l’informatique en nuage, à l’Internet des objets, à l’Edge Computing et à la 5G.

Le passage au Cloud computing nous a donné l’expression de l’industrie « la Cloudification d’Internet ».

D’énormes centres de données de la taille d’un entrepôt fournissent des services pour gérer l’informatique, le stockage, la mise en réseau, la gestion et le contrôle des données. Cela signifie souvent que les centres de données Cloud sont situés à proximité de centrales hydroélectriques, par exemple, pour fournir l’énorme quantité d’énergie dont ils ont besoin.

Maintenant, la « Edgeifacation of the Internet » transforme tout cela d’être plus éloigné de la source de l’utilisateur à être juste à côté.

L’edge computing concerne les périphériques matériels physiques situés dans des emplacements distants à la périphérie du réseau avec suffisamment de mémoire, de puissance de traitement et de ressources informatiques pour collecter des données, traiter ces données et les exécuter en temps quasi réel avec une aide limitée d’autres parties du réseau.

En plaçant les services informatiques plus près de ces emplacements, les utilisateurs bénéficient de services plus rapides et plus fiables avec de meilleures expériences utilis

Nous explorons le Web depuis 32 ans : qu’est-ce qui a changé?