Discuter:Google (moteur de recherche)

Un article de Wikipédia, l'encyclopédie libre.

Sommaire

[modifier] Transfert

Bonjour!

Je compte extraire l'information (et les sources lièes) disponible dans Recherche sur Internet: méthode et astuces pour l'insérer dans cette rubrique. Une partie devra aller dans Recherche d'information. Toute personne ayant envie de collaborer est évidemment bienvenue. A l'inverse, si quelqu'un a des suggestions/oppositions/commentaires, on pourrait le faire dans cette discussion et régler les choses avant que de les inscrire... Au plaisir de vous lire,

Christophe Dupriez 3 février 2007 à 10:54 (CET)

[modifier] DEBUT DE CONTENU PROPOSE pour une section "Comment utiliser le Moteur de Recherche Google". Vos commentaires ??? Christophe Dupriez 12 février 2007 à 05:15 (CET)

[modifier] Termes à chercher:

La documentation de Google sur son interprétation des requêtes est assez spartiate. L’évolution du fonctionnement observé montre que ceci est sans doute à dessein pour garder une liberté de changement maximale. Ce qui suit doit être continuellement validé et remanié pour suivre les modifications.

  • H2O est cherché comme un seul mot et Google ne trouve alors pas les documents avec H 2 O ou H2O dans leur texte. Ceux-ci sont retrouvés en demandant "H 2 O". H-2-O (voir plus loin le rôle du tiret) trouve aussi bien H2O que H 2 O et H2O. Malheureusement, l’opérateur « tiret » ne cherche que les deux combinaisons extrêmes (tous les mots collés ou tous les mots séparés: il ne trouve pas H2 O).
  • mot : Un mot et ses variantes singulier/pluriel - masculin/féminin – avec/sans accents. Par exemple chevaux d’arçon retrouve cheval d’arçon: cet algorithme fonctionne en français et en anglais mais pas en néerlandais (il ne connaît pas les pluriels en "en"). Attention : la variante que vous spécifiez est favorisée dans le tri des documents présentés.
  • ~mot : Un mot et ses synonymes. Fonctionne avec un dictionnaire anglais même sur les recherches en français et néerlandais ! Essayer la requête ~automobile -automobile pour voir les mots trouvés en dehors du terme strict automobile. ~arabic retourne Egypt, Lebanon, Arab et … Hindu ! On ne connaît pas la source des synonymes.
  • "mot" : Un mot exact. Google ne tient pas compte de l’accentuation pour la recherche mais favorise la forme spécifiée lors du tri des documents présentés.
  • "mot … mot" : une suite de mots spécifiques, une expression
  • "mot * mot": dans une suite de mots entre guillemets (et seulement là), une étoile peut être mise à la place d’un ou plusieurs mots complets qu’on ne désire pas spécifier. Par exemple : "ministère du * et du commerce"
  • site:www… : un domaine d’origine. On peut être plus ou moins général et même indiquer des domaines de premier niveau. Par exemple : site:org OR site:com
  • title:"mot … mot" : une suite de mots spécifiquement dans le titre du document (balise <title>…</title> et/ou première balise <h1>…</h1>)
  • +mot : chercher ce mot même si c’est un mot vide dans la langue de l’utilisateur ( +de en français par exemple) et le chercher en tenant compte des accents ( +dés par exemple). Un « + » est assumé si un seul mot est cherché : thé seul est cherché comme si on avait tapé +thé. (Cette forme a donc une signification très différente de celle de Altavista où le "+" indiquait des mots obligatoires) Lors du tri des documents, Google donne la préférence à la forme tapée : l’opérateur « + » n’a donc plus beaucoup d’intérêt.
  • mot-mot : chercher un terme composé de plusieurs mots, qu’il soit écrit avec des tirets, des espaces ou même sans espace du tout: gratte-ciel trouve gratte ciel, gratte-ciel et gratteciel . gratte-ciel ne signifie pas du tout la même chose que gratte -ciel (voir l’opérateur "-"). Attention: va-nu-pied trouve va nu pied et vanupied mais pas vas nupied.

[modifier] Opérateurs logiques (booléens):

  • espace : les documents doivent contenir ce qui est à droite ET ce qui est à gauche. Le tri de Google favorise les documents où les différents mots spécifiés sont proches l’un de l’autre (voir plus bas).
  • OR ou |  : les documents peuvent contenir ce qui est à droite OU ce qui est à gauche. Attention : OR doit être écrit en majuscules !
  • espace- (signe moins) : exclure les documents contenant le mot qui suit (SAUF)
  • ( … ) : sous-expression à évaluer avant de faire les opérations avoisinantes

Le GoogleGuide vous donne d’autres exemples. Le site de HotBot Etats-Unis fournit un formulaire de recherche Google parfois plus pratique que celui de Google même.

[modifier] Limites:

  • Les requêtes sont limitées à 32 mots.
  • Seuls les 1000 premiers résultats pertinents pour une requête sont accessibles, et ce même si les correspondances sont plus nombreuses. Les résultats peuvent même parfois être moins de 1000 en raison de la suppression des pages provenant d’un même site. D’après Google, obtenir plus de 1000 résultats entraînerait une lourde charge supplémentaire pour une demande finalement assez rare.

En théorie, le tri assure que les références les plus utiles sont en premier (difficile à valider)

[modifier] Dates:

  • Lors d’une recherche par dates, la date est celle de l’indexation dans la banque de données (i.e. la visite du « spider » Google) et non celle de la publication effective de la page (telle que fournie par le serveur http://)
  • Dans le formulaire de recherche avancée, vous pouvez faire une recherche sur les derniers 3, 6 et 12 mois.
  • L’opérateur daterange:date julienne-date julienne (ou le formulaire du site de HotBot) permet de spécifier un autre intervalle de dates. Une date julienne est le nombre de jours écoulés depuis le début de notre ère : le site http://www.numerical-recipes.com/julian.html peut vous aider à le calculer.

[modifier] ET AUSSI...

[modifier] Tri du résultat:

La qualité de Google vient de sa capacité à montrer en premier les pages jugées les plus pertinentes en général et les plus pertinentes à une recherche en particulier. Google trie les documents trouvés en fonction:

  • de mesures de qualité du site en général et aussi de chacune des pages (cohérence des méta-informations avec le texte visible de la page par exemple). Ces mesures ne sont pas ou peu documentées.
  • une mesure du poids de chacune des pages indexées: Il s’agit de l’algorithme PageRank dont voici un extrait cité de Google :

We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages’ PageRanks will be one. PageRank or PR(A) can be calculated using a simple iterative algorithm, and corresponds to the principal eigenvector of the normalized link matrix of the web. Voir aussi: [1]

  • d’un calcul de la pertinence de la page vis-à-vis de la recherche effectuée. Ceci se fait en tenant compte:
    • de la présence dans la page des mots de la recherche (éventuellement élargis à leurs synonymes ou à leurs variantes singulier/pluriel)
    • de l’emplacement de ces mots dans la page (titre, méta-données, texte) ou dans les liens vers cette page: ce dernier point cause parfois des problèmes éthiques car une page se retrouve indexée par les mots que d’autres personnes que ses auteurs utilisent pour la désigner. (Essayez: "miserable failure", l’auteur de la page visée ne cherchait pas consciemment ce qualificatif ! )
    • Du tf-idf de chaque mot, formule qui prend en compte le nombre d’occurrences du mot dans la page pondéré par l’inverse de la fréquence relative de ce mot dans la partie du Web indexée par Google:
      • tfi = fréquence du terme i dans la page
      • dfi = nombre de pages dans le Web contenant le terme i
      • D = nombre de documents dans le Web
      • Cette formule a été mise au point par Gerard Salton (1927-1995), Université Cornell, sur base de la Théorie_de_l'information de Claude_Shannon.
    • de la distance dans la page entre les mots cherchés: plus ils sont proches l’un de l’autre, plus la page est jugée pertinente vis-à-vis de la recherche effectuée. Voir: [2]
  • du pays indiqué par l’URL d’accès à Google : google.be accorde une nette préférence aux sites belges, google.fr aux sites français, google.com aux sites américains et google.co.uk aux sites anglais, etc. Il est réellement important de choisir la « localisation » de ses recherches. La page suivante devrait plus souvent servir de page de démarrage d’une recherche: [3]
  • de la langue de l’utilisateur qui est aussi celle des mots cherchés : le seul formulaire permettant de la spécifier est sur [4] . Le seul autre moyen de changer la langue de l’utilisateur est de modifier « à la main » l’URL de Google (http://www.google.be/search?hl=fr&q=... ) en changeant le paramètre &hl=xx (xx étant le code en deux lettres de la langue désirée).

Il est essentiel de faire ses recherches en changeant sa langue d’utilisateur en fonction de la langue des mots cherchés. Google trie alors les documents en favorisant cette langue (et utilisera peut-être un jour le bon dictionnaire de synonymes). Il utilise alors l’algorithme adéquat pour rendre équivalents le singulier et le pluriel, le féminin et le masculin (rappel: le néerlandais semble mal supporté pour l’instant).

[modifier] retour

Bonjour, merci pour ce travail!
Je suis pour ajouter ce contenu, mais il faudra veiller à ce qu'il reste dans un style descriptif encyclopédique. Sinon, sa place serait plutôt dans un wikilivre de la wikiversité par exemple.
Je n'aime pas particulièrement les listes dans les articles, mais ici, il y a du contenu autour, donc ça me va à peu près :)
Cordialement, Plyd /!\ 13 février 2007 à 11:09 (CET)