Le PageRank survit dans le noyau de Google…

Mais de manière plus complexe et fine…La simplification du modèle originel de HITS dans le modèle du PR, conjuguée au contexte commercial et concurrentiel du web, ont abouti à ces dérives que l’on connaît, et qu’a essayé de corriger 12 ans plus tard la couche dite Penguin annoncée par Google officiellement le 24 avril 2012.

Le génie hors-sol et sans filiation n’existant pas, en janvier 1996, les pères du PageRank et de Google, deux doctorants de l’université de Stanford, (usa), Sergey Brin et Larry Page se basent pour concevoir leur moteur de recherche Google, sur les travaux d’un immense mathématicien, Jon Kleinberg, qui a inventé pour IBM un algorithme portant l’acronyme HITS pour Hyperlink Induced Topic Search. L’algorithme HITS s’est construit à partir du Graphe du web.

Mais qu’est ce que le Graphe du web ?

Ce modèle mathématique essaye de nous montrer à quoi peut ressembler le web. Les mathématiciens se passionnent pour la modélisation de l’espace du web comme les astrophysiciens ont à cœur de dessiner le cosmos ! Mais le cosmos est une entité (en partie?) physique, le web est totalement virtuel. Seuls des modèles mathématiques puissants peuvent en donner une idée.

Il existe trois modèles qui essayent de formaliser le web :

1- un modèle macroscopique , où l’espace web serait composé de quatre zones distinctes :

Un gros noyau depuis lequel on peut aller de n’importe quelle page vers n’importe quelle autre en suivant des liens.

Un deuxième ensemble de pages depuis lesquels on peut aller dans le noyau, mais sans liens retour depuis ce noyau

Le troisième ensemble de pages est présent dans le noyau, mais ne renvoie pas vers le noyau

Un grand nombre de pages qui ne permettent pas d’atteindre le noyau et auxquelles le noyau ne permet pas d’accéder. Une espèce de nos mans land …

La modélisation numérique a fait dire aux chercheurs que c’était un modèle en nœud papillon.

 

Ce modèle a mis fin à la croyance que l’on pouvait atteindre toutes les pages du web depuis n’importe quelle page en suivant les liens.

2-Le modèle microscopique :

Ce modèle s’intéresse aux petits ensembles comme ceux qui agrègent une communauté.

3Le modèle statistique

Ce modèle dessine le web à travers le nombre de liens sortants d’une page, le nombre d’images qu’elle peut contenir, la taille en poids des pages. Ce modèle estime qu’une page contient en moyenne 11 liens, et qu’une grande majorité des pages n’est pas liée. Que le nombre de pages ayant 9 liens est 5 fois moindre que les pages ayant un seul lien …

Voici à quoi peut ressembler un modèle dit particulaire pour illustrer le Graphe du web :

L’algorithme HITS (d’où est issu le PageRank), stipule que tous les sites Web n’ont pas la même importance, et ne jouent pas le même rôle. ( voir à cet égard, mon article très intuitif, segments et finalités).

Il y a les sites qui font autorité ( authorities ) en fait ceux qui contiennent la véritable source d’ information originale et faisant référence.

En second il y a les sites relais, qui ne contiennent pas à proprement parler d’information, mais aiguillent vers les sites de références. On les appelle HUB, ou sites PIVOTS ou sites RELAIS.

Lire l’article complet : https://www.linkedin.com/pulse/le-pagerank-survit-dans-noyau-de-google-rani-boudaakkar/

1 Comment

  1. Bonjour, ceci est un commentaire.
    Pour débuter avec la modération, la modification et la suppression de commentaires, veuillez visiter l’écran des Commentaires dans le Tableau de bord.
    Les avatars des personnes qui commentent arrivent depuis Gravatar.

Leave a Comment

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.