Discuter:Notoriété Google

Un article de Wikipédia, l'encyclopédie libre.

Déplacé du Wikipédia:Le Bistro

Afin de réduire les conflits de nominations (lorsque quelque chose ou quelqu'un possède plusieurs désignations et que certains ne veulent entendre parler que de l'une, et les autres d'une autre), pourquoi ne pas convenir une fois pour toutes qu'en cas de conflit, c'est la notoriété Google dans les pages francophones qui tranche dès lors qu'une dénomination a plus de 25%, ou de 30%, d'avance sur une autre ? Après tout,

  1. D'une part, nous souhaitons voir les articles aussi accessibles que possible, et il faut donc toutes choses égales par ailleurs se ranger aux conventions usuelles.
  2. D'autre part, vox populi, vox Dei...

François-Dominique 3 sep 2004 à 00:10 (CEST)

Le jour où on considèrera Google comme une référence pour choisir, on est perdu. Il suffira de faire du google bombing pour que nous nous plions à un choix précis: si chaque musulman francophone crée un site sur free où ailleurs, on va voir arriver en courant un prophète Muhammed (BSDL) comme nom d'article; c'est effectivement une demande récurrente que nous recevons! (Le BSDL est l'abréviation que la Bénédiction et le Salut de Dieu soient sur Lui ) . En particulier si l'on sait que c'est un moyen d'imposer une idée, les groupes malhonnêtes n'hésiteront pas à le faire. Il y a déjà des services de presse de pays qui envoient tous les 3 mois des mails officiels à Wikipédia (et probablement à 10000 autres sites) pour demander la modification de certaines choses qui ne leur plaisent pas. Je frêmis à un titre d'article Sa Sainteté Raël.
Vox populi, vox Dei revient dans le domaine de la connaissance à faire voter sur la valeur de pi; cela a eu lieu quelque part aux États-Unis où une loi a fixé la valeur de pi à 3,1416 .
Google donne une indication intéressante mais ne dois pas être une référence absolue pour choisir.
Jyp 3 sep 2004 à 00:36 (CEST)
Absolue, non (c'est pourquoi la marge de 30% que je citais me paraît une bonne idée). En revanche, ton hypothétique Google bombing ne marchera pas pour au moins trois raisons :
  1. parce que les programmeurs de Google, sensiblement plus futés que la moyenne des programmeurs, ont déjà mis en place des algorithmes de data mining pour repérer précisément ce genre de chose et les filtrer. Slashdot s'était fait à une époque (moins de deux ans, me semble-t-il) l'écho de ces sites qui avaient rétrogradé du jour au lendemain.
  2. parce que lorsqu'un mot est référencé sur des centaines de milliers de sites, on ne trouve pas comme cela des centaines de milliers de militants prêts à créer chacun un site, disposât-on des ressources d'un Ben Whirlpool.
  3. parce qu'un site a d'autant plus de valeur dans un page ranking qu'il est cité, et que détecter que des sites se réferncent entre eux en vase clos est un problème résolu depuis plus de quarante ans sous le nom de détection des cliques dans un graphe.
Il ne tient bien entendu qu'à toi de nous prouver le contraire en nous montrant que tu peux inverser les rapports de notoriété des termes Saint Paul (392 000 refs) et Paul de Tarse (1960 refs, soit ridiculement 200 fois moins - et c'est sous ce terme qu'on prétend le faire apparaître dans la Wikipédia :oD), Capitaine Haddock (7830 références) et Capitaine Archibald Haddock (20 - oui, VINGT - références, dont celle de la Wikipédia :o))), soit 391 fois moins). Tant que nous y sommes, je ne vois pas pourquoi on n'y remplacerait pas l'entrée fauteuil (316 000 références) par le célèbre commodités de la conversation (184 références, soit 1717 fois moins, certes, mais tout de même neuf fois plus que Capitaine Archibald Haddock). Après quoi il n'y aurait plus bien entendu qu'à confier à chaque lecteur de la Wikipédia un lexique Jypien-français, à moins qu'on ne définisse une fois pour toutes le Jypien comme langue alternative à celle du français. Ca mérite assurément réflexion. François-Dominique 3 sep 2004 à 02:59 (CEST), que les Précieuses ridicules ont toujours fait marrer. Sacré Molière ! Au fait, qu'est-ce que vous attendez pour le rebaptiser Jean-Baptiste Poquelin, celui-là ? Ne tardez pas, sinon on ne sait jamais, quelqu'un risquerait de trouver l'article et de le lire ;o)
L'exemple Capitaine Haddock / Capitaine Archibald Haddock est mal choisi puisque le second a été à juste titre déplacé vers le premier il y a quelques temps. Il eût été bon de vérifier au préalable si quelqu'un ne s'était pas déjà avisé du non-respect de certaines des Conventions de nommage (en gros la simplicité). Qui vous empêche de promouvoir, de façon non polémique, ces vertus de simplicité, par exemple en déplaçant les articles à titres alambiqués vers les dénominations simples, lorsqu'il n'existe aucun risque d'ambiguité ? Hanki Kinør 3 sep 2004 à 09:21 (CEST)

L'argument « Saint Paul (392 000 refs) et Paul de Tarse (1960 refs, soit ridiculement 200 fois moins » ne tient absolument pas la route. Saint Paul capture tous les sites faisant référence aux innombrables communes, églises, etc. appelées Saint-Paul. Le premier site retourné concerne Saint-Paul de Vence. Vargenau 3 sep 2004 à 03:26 (CEST)

Parce que selon toi, donc, Saint-Paul de Vence ne serait pas nommé ainsi en référence à l'apôtre Saint Paul (au même titre, soit dit en passant, que Sao Paulo) ? Voilà un point de vue des plus intéressants :oD Je te concède par ailleurs volontiers qu'il n'existe pas de ville nommée "Paul de Tarse", cette désignation étant quasiment inconnue du très grand public. D'ailleurs, Tarse, 99,9% des francophones sont certainement infoutus de dire où ça peut bien se trouver sur une carte. Y compris parmi ceux qui ont entendu parler de Saint Paul.
Relisez ce que j'ai écrit. Je n'ai jamais dit que les communes n'étaient pas nommées d'après l'apôtre Paul. Vargenau 4 sep 2004 à 08:02 (CEST)
Afin d'éviter toute autre erreur, je m'empresse de préciser que si autant de villages en France se nomment Saint-Martin quelque chose, c'est en référence aussi, ô coïncidence extraordinaire, à Saint Martin. Ah, au fait, sous quel nom l'avez-vous caché, celui-là ? François-Dominique 3 sep 2004 à 09:40 (CEST)
Il s'agit bien entendu de Martin de Tours. Merci d'avoir fait remarquer que la page était mal nommée (contrairement à en: de: et sv:) Vargenau 4 sep 2004 à 08:02 (CEST)
Très amusant ce match ! J'aime bien vos arguments à tous deux. Allez, Jyp, à toi. Ne te laisse pas démonter. < :°)) Roby 3 sep 2004 à 05:03 (CEST)

Tout d'abord, François-Dominique, Carton jaune car je trouve personnellement que tu as, ci-dessus, un ton inutilement provocateur.

La « notoriété Google » est une bonne indication mais ne doit en aucun cas devenir une règle et ceci pour deux raisons. Premièrement, Google ne recense que des pages Internet, donc créer par des gens qui ont un accès à cette technologie. Hors, cette technologie est encore loin d'être accessible à certaines franges de la population (même si ça progresse) et encore moins aux habitants de certaines régions francophones (l'Afrique par exemple). Tant que Internet ne se sera pas réellement démocratisé, il constituera un point de vue particulier, non nécessairement représentatif de l'ensemble de la communauté francophone (que nous représentons). Deuxièmement, Google est une entreprise commerciale indépendante dont le but est de faire de l'argent. Rien ne garanti la fiabilité de leurs informations et nous ne devons donc pas lui faire confiance aveuglement. Je vous conseille de lire le disclamer de Google qui me semble assez édifiant. Petit extrait :

« Google n'accepte aucune responsabilité d'aucune sorte en ce qui concerne la précision, le contenu, l'exhaustivité, la légitimité, la fiabilité, l'opérabilité ou la disponibilité des informations ou des données affichées dans les résultats obtenus par les Services de recherche Google. »

Pour finir, je pense qu'il ne faut pas sous-estimer les gens malhonnêtes. Que le moteur de Google soit très performant, soit, mais ça reste un système d'analyse numérique qui a ses limites. Il est particulièrement aisé, à mon avis, de créer des milliers de pages différentes a partir d'un même contenu initial sans que Google puisse détecter la supercherie. Et même si je n'ai pas de temps à perdre pour vous en faire la démonstration, je vous pris de croire que certains l'auront, surtout si des sites importants commencent à prendre Google comme référence. Aineko 3 sep 2004 à 06:48 (CEST)

« Tout d'abord, François-Dominique, Carton jaune car je trouve personnellement que tu as, ci-dessus, un ton inutilement provocateur. »
Ca, c'est une question de style. Ce qui est "trouvé personnellement" inutile par l'un fera sourire un autre. De cela, on ne discute pas. À chacun de choisir son style et non celui des autres :o) François-Dominique 3 sep 2004 à 09:54 (CEST)
« La « notoriété Google » est une bonne indication mais ne doit en aucun cas devenir une règle et ceci pour deux raisons. Premièrement, Google ne recense que des pages Internet, donc créer par des gens qui ont un accès à cette technologie. »
Il existe en fait, si tu porends la peine de consulter l'article, deux "notoriétés Google" : celle du Web et celle des Newsgroups (forums), et la non-constance du rapport entre les deux constitue en soi un sujet intéressant. Pour le reste, je ne vois pas de différence avec toute autre technologie : un dictionnaire est constitué à partir de ce qui se trouve dans des oeuvres écrites, et ne prend donc en compte que les mots créés par ceux qui savent écrire. Certes. Et alors ??? François-Dominique 3 sep 2004 à 09:54 (CEST)
« Hors, cette technologie est encore loin d'être accessible à certaines franges de la population (même si ça progresse) et encore moins aux habitants de certaines régions francophones (l'Afrique par exemple). »
Je reviens du Cameroun : tu serais étonné de voir à quel point les cybercafés sont bourrés là-bas (plus qu'au Sénégal, qui étant plus touristique fournit plus d'occasion de contact. Un bon quart des personnes qui s'entredraguent sur http://www.affection.org sont d'ailleurs d'Afrique francophone, y compris du Burkina Faso. Il faudrait tout de même cesser de voir l'Afrique avec les yeux du colonisateur des années 60. Nous sommes en 2004, et soit dit en passant les bacheliers camerounais de la série philo semblent autrement plus éveillés que les nôtres (moins de temps passé devant les jeux vidéo et la TV, sans doute). François-Dominique 3 sep 2004 à 09:54 (CEST)
« Tant que Internet ne se sera pas réellement démocratisé, il constituera un point de vue particulier, non nécessairement représentatif de l'ensemble de la communauté francophone (que nous représentons). Deuxièmement, Google est une entreprise commerciale indépendante dont le but est de faire de l'argent. Rien ne garanti la fiabilité de leurs informations et nous ne devons donc pas lui faire confiance aveuglement. Je vous conseille de lire le disclamer de Google qui me semble assez édifiant. Petit extrait :
« Google n'accepte aucune responsabilité d'aucune sorte en ce qui concerne la précision, le contenu, l'exhaustivité, la légitimité, la fiabilité, l'opérabilité ou la disponibilité des informations ou des données affichées dans les résultats obtenus par les Services de recherche Google. »

Pour finir, je pense qu'il ne faut pas sous-estimer les gens malhonnêtes. Que le moteur de Google soit très performant, soit, mais ça reste un système d'analyse numérique qui a ses limites. Il est particulièrement aisé, à mon avis, de créer des milliers de pages différentes a partir d'un même contenu initial sans que Google puisse détecter la supercherie. Et même si je n'ai pas de temps à perdre pour vous en faire la démonstration, je vous pris de croire que certains l'auront, surtout si des sites importants commencent à prendre Google comme référence. Aineko 3 sep 2004 à 06:48 (CEST) »

C'est la qualité de ses informations qui a valu sa notoriété à Google et non l'inverse. Si cette qualité disparaissait, le public se tournerait vers un autre moteur de recherches et voilà tout. Je suis effaré des arguments que certains sont prêts à aller chercher dès qu'il se rendent compte que le choix de la majorité (même dans une proportion de 200 à 1!) ne concorde pas avec leur souhaits ("Le peuple me désapproouve ? Changez le peuple!"). Il se trouve que les faits sont têtus. j'ajoute par ailleurs qu'une inversion franche de notoriété entre deux moteurs de recherche différents aurait bien peu de chance de passer inaperçue. François-Dominique 3 sep 2004 à 09:54 (CEST)
« Je suis effaré des arguments que certains sont prêts à aller chercher dès qu'il se rendent compte que le choix de la majorité ne concorde pas avec leur souhaits »
J'aimerai bien savoir ce qui, dans mon texte, te permets d'affirmer que tel est mon intention ? A moins que ce ne soit que du trollage inutile. Sur le fond, rien à rajouter. Aineko 3 sep 2004 à 10:34 (CEST)

Un moteur de recherche permet de mesurer les popularités comme jamais encore on ne l'avait pu (voir notamment le Google Zeitgeist). Mais une encyclopédie recueille la connaissance. Est-ce vraiment ce qui est indexé par les moteurs de recherche ? En outre on ne peut suivre avec ces moteurs que les thèmes offrant un nombre significatif de résultats. Marc Mongenet 3 sep 2004 à 12:33 (CEST)

Voilà ma réponse aux arguments de François-Dominique...

J'ai trouvé quatre arguments principaux au milieu des réponses de François-Dominique:

  • parce que les programmeurs de Google, sensiblement plus futés que la moyenne des programmeurs
    • Outre le fait qu'il s'agit d'une affirmation non étayée , il suffit donc qu'un groupe de pression soit doté de programmeurs « plus futés » que ceux de google pour que l'algo soit dangereux. Cela n'arrivera bien sûr jamais: les meilleurs informaticiens ont toujours été et iront toujours chez Google.
  • parce que lorsqu'un mot est référencé sur des centaines de milliers de sites, on ne trouve pas comme cela des centaines de milliers de militants prêts à créer chacun un site
    • Wikipédia n'est pas composé seulement d'articles dont le titre est référencé par 100'000 sites. Ainsi Mikal donne 616 références (et encore toutes ne correspondent pas au gourou). Louis de Bourbon (celui né en 1974) donne 192 pages. Pour les noms moins connus, c'est une vingtaine. L'argument de la difficulté n'est donc pas pertinent; même un particulier est capable de faire basculer un choix dans ces cas-là... Imagine la puissance d'un pays comme la Chine l'appliquant au nommage d'un article sur un dissident chinois (y insérant une faute d'orthographe rendant son nom ridicule en chinois par exemple)
    • Même à grande échelle, la difficulté n'est pas si grande. Techniquement, c'est même facile, c'est juste une question de moyens: un pays peut avoir les noms de domaines gratuitement, on peut hoster 100'000 sites sur un nombre restreint d'ordinateurs, réaliser des sites avec des looks différents, et des contenus similaires c'est facile. Et si pour un particulier c'est relativement honéreux, pour un groupe cela l'est moins. (Même le nom de domaine n'est pas nécessaire, un sous-domaine suffit). Je rappelle quand même que des services de propagandes gouvernementaux ont écrits à Wikipédia! Ou que certains sites immobiliers français possèdent plus de 20 sites présentant les mêmes objets, tous avec des looks différents et des noms différents. Si la petite entreprise de 3 employés fait cela, que peut faire un NMR avec 5000 adhérents, versant chacun déjà une obole mensuelle de 1000 € ?
  • parce qu'un site a d'autant plus de valeur dans un page ranking qu'il est cité
    • L'algorithme que François-Dominique propose est basée sur le nombre de pages et pas sur le classement des pages. Quel que soit le Page Ranking des pages, c'est le fait que le site soit indexé ou pas qui compte, pas son positionnement (qui ne dépend d'ailleurs pas essentiellement du page rank, mais principalement des mots-clés) sous Google.

En fait si on analyse le phénomène google, on s'aperçoit que son succès est dû à trois points:

  • l'exhaustivité, ou plus précisément la quantité, il classe le plus de pages
  • la pertinence: il classe toutes les pages, mais présente celles qu'ils pensent les plus pertinentes d'abord.
  • la neutralité: l'algorithme de pertinence est automatique et évite un surclassement manuel en faveur de ceux qui paient

En fait, ce n'est pas la réalité de ces trois points qui fait son succès, mais le fait que Google soit perçus ainsi par les utilisateurs.

L'algorithme proposé par François-Dominique ne tient compte que de l'exhaustivité. On ne peut donc le justifier par la pertinence des résultats d'une recherche (qui ne sont pas dû d'ailleurs qu'au Page Rank).

Quelques autres faiblesses:

  • Cela a été déjà signalé, l'algo ne fait pas de différences entre les différents sens d'un même terme le chien saint-bernard n'est pas pertinent pour le choix du nom de l'article saint Bernard

De même Georges X, comte de Blois ne fait pas de différence entre les articles qui utilisent cela systématiquement et ceux qui l'utilisent naturellement dans le texte: George X, comte de Blois, a brandit la toison d'or.

  • L'exemple de Molière ne tient pas non plus: Molière était le nom de scène de M. Poquelin. Il signait ses pièces ainsi.

Paul de Tarse n'a jamais signé ses épîtres du nom de saint Paul. C'est une décision postérieure.

  • De plus, l'algo est incapable de refléter un changement de nommage rapide: ainsi si on l'applique, le Congo (Kinshasa) s'appellerait toujours Zaïre.

Jyp 3 sep 2004 à 15:20 (CEST)

C'est marrant, je vois des raisons différentes au succès de Google. La pertinence (OK, pas différent), la vitesse, la prévisualisation. Marc Mongenet 3 sep 2004 à 23:32 (CEST)