Utilisateur:Pmartin/Wikiwix

Un article de Wikipédia, l'encyclopédie libre.

WiKiwix   Wikipediaondvd



Ajouter une nouvelle remarque


Sommaire


[modifier] Quelques retours sur le moteur de recherche

Bonjour,

Si je comprends bien d'après le bistro d'aujourd'hui, vous êtes à l'origine du moteur de recherche dont l'on parle aujourd'hui dans le bistro. Mes excuses pour mon message sec de ce matin, c'était une mauvaise journée, heureusement terminée ! Je pense que pour l'instant, le moteur n'est pas assez mûr pour être inclus avec les autres dans Special:Search, mais il est très prometteur. J'ai quelques suggestions ci-dessous, et quelques idées en l'air (je ne suis pas programmateur, juste grand utilisateur !). Désolé si je dis des évidences !

  • Un moteur de recherche pour Commons a récemment été créé et a rencontré un franc succès : Mayflower. En explorant ses fonctions, et surtout sa page de présentation et de discussion, vous aurez un aperçu des requêtes d'utilisateurs et donc de fonctions possibles. Tout n'y est pas lié aux images.
  • Utiliser un dump signifie être en retard : or, de nombreux utilisateurs s'étonnent déjà que le moteur de recherche ne trouve pas les articles créés quelques jours auparavant. Une solution serait d'utiliser le toolserver, où la base de données est recopiée en direct ou presque. En attendant, un petit avertissement précisant la date à laquelle le dump a été fait serait pas mal.
J'ai choisi d'utiliser le dump xml comme solution d'urgence pour pouvoir sortir très rapidement une version qui tourne. Utiliser un système de mise à jour régulière est prévu, on hésite encore sur le moyen technique. Le canal irc qui répertorie en live est assez attrayant, ça permettrait d'avoir un moteur constamment à jour des toutes dernières modifs.
  • Pouvoir utiliser l'URL pour faire une recherche serait pratique, du genre http://www.wikipediasearch.net/?lang=fr&q=ma_recherche, notamment pour pouvoir lier l'outil depuis Wikipédia. Passer des paramètres dans l'URL serait chouette aussi (voir Mayflower qui fait ça très bien, je trouve).
http://www.wikipediasearch.net/?lang=fr&action=ma%20requete :)
  • Une question bête : le logo et le nom de Wikipédia sont des marques déposées, je ne sais pas s'ils peuvent être utilisés comme ça, mais comme vous travaillez pour le projet WP1.0 vous connaissez sans doute.
Pascal a signé un contrat d'utilisation de la marque en échange d'une commission sur la vente des cd.
  • Comme proposé sur le bistro, séparer la langue de l'interface de la langue de la Wikipédia recherchée serait un plus. Des traductions en différentes langues sont assez faciles grâce à la communauté Wikimedia (exemple).
Pas bien difficile en effet, par contre ça oblige l'utilisateur à choisir la langue de l'interface et la langue du corpus. J'ai l'impression que ça n'est pas très pratique.
  • Concernant la pertinence des résultats :
    • La requête prend-elle en compte les accents ? "Rémi" devrait retourner les mêmes résultats que "Remi", comme beaucoup de monde n'a pas les accents sur le clavier (ou les oublie sur les majuscules). Une autre possibilité serait de laisser l'utilisateur choisir si les accents sont pris en compte ou non.
Les lettres accentuées sont toutes désaccentuées. Y compris les accents exotiques d'europe de l'est.
    • La prise en compte du pluriel me semblerait une grosse amélioration : que "sous-marins" retourne la même chose que "sous-marin" (ou au moins l'article Sous-marin, qui n'obtient que 59% si on recherche "sous-marins"). Le fait que les titres d'articles sont au singulier n'est pas forcément connu du lecteur moyen.
La toute première version du moteur faisait le retrait du pluriel. Ca a été supprimé pour justement ne pas réduire la signification de la requète, un mot et son pluriel pouvant ne pas avoir exactement le même sens. Le vocabulaire thématique permet entre autre de faire le lien entre un mot et son pluriel pendant la recherche.
    • Les pourcentages sont très bien, j'ai un peu suivi la discussion sur le nombre de points. Mais quand je cherche "sous-marin", je trouve 4 résultats à 100%... est-ce normal ?
J'ai changé l'affichage, les scores ne sont plus affichés. Le pourcentage correspond au score divisé par 2, avec un plafond à 100%. Ce n'est qu'une question d'esthétique à discuter :)
    • Les redirections peuvent sans doute être utilisés. Par exemple, reefer redirige vers Navire frigorifique : quand je cherche "reefer", les résultats pourraient donc afficher "Navire frigorifique" en premier, en précisant éventuellement que c'est à cause de la redirection.
Oui c'est à creuser, pour l'instant les pages de redirection ne sont (théoriquement) pas indexées.
    • Peut-être que les noms d'images et de modèles ne devraient pas être pris en compte dans les recherches, car ils n'ont pas toujours de rapport avec le sujet de l'article ; détecter la plupart de ces liens ne devrait pas être trop difficile.
Ils ne sont eux non plus (théoriquement) pas indexés par le moteur de recherche.
  • A propos d'éventuelles options avancées que je trouverais intéressantes :
    • Comme avec Mayflower, proposer des catégories associées à la recherche. Mayflower propose aussi d'inclure ou d'exclure certaines catégories dans la recherche, une option extrêmement utile pour les Wikipédiens actifs.
    • Les liens portail en bas de page pourraient être utilisés pour afficher le "domaine" de l'article de façon simple (ce que les catégories ne permettent pas toujours). Entre 2/3 et 3/4 des articles possèdent un bandeau, certains en possèdent 2 ou 3, rarement plus. Comme le résumé affiché ne permet pas toujours de savoir de quoi l'article parle, afficher son "domaine" permet déjà de savoir où aller. Après, on peut même envisager une recherche par domaine... ou réutiliser les icônes de ces bandeaux pour un affichage différent !
    • Pour les Wikipédiens actifs, d'autres options sont intéressantes : afficher la taille de l'article (et limiter la recherche à une fourchette de taille), la date de dernière modification (idem), montrer des liens directs vers la page de discussion, l'historique, les pages liées, etc. (tout ceci serait désactivé par défaut, pour garder une apparence sobre).

OK, je rêve un peu, mais il y a peut-être des choses utiles là-dedans :-) Merci de ce travail en tout cas. Cordialement, le Korrigan bla 20 mars 2007 à 22:25 (CET)

Bonjour Korrigan, merci pour toutes ces suggestions. Je me suis permis de répondre aux questions dans ton texte :) Mononoke Hime 20 mars 2007 à 23:37 (CET)


[modifier] Quelques réponses sur le retours sur le moteur de recherche

Oui tout à fait nous sommes à l'origine du moteur de recherche posté le 20 Mars sur le Bistro.

Concernant toutes les fonctionnalités à ajouter , elles arriveront dans un deuxième temps. En effet il me semble important de régler les problèmes de mises à jours dans un premier temps. Comme te la signaler Mononoke Hime nous explorons plusieurs pistes afin de résoudre très rapidement ce souci. D'après ce que j'ai pu m'entretenir avec lui cet inconvénient devrait être résolu début de semaine prochaine.
Concernant le logo de wikipedia, je suis en contact régulièrement avec la fondation afin d'éviter le moindre problème, donc de ce point de vue là tout est ok. Mais ne va pas croire que cela nous donne certains passe droit , puisque seul l'approbation de la communauté compte.
Concernant le manque de maturité du moteur, en fait elle est toute relative, en effet compte tenu de notre réactivité et de vos attentes nous allons très vite trouver un concensus.

Cordialement Martin Pascal

[modifier] De Wikipédia à tous les projets francophones de Wikimedia.

Dans le cadre de vos réflexions sur l'évolution de Wikipediasearch.net, je souhaite vous proposer de d’étendre ce dispositif à tous les projets francophones de Wikimédia, afin d’avoir un outil permettant de récapituler l’information éparpillée entre les différents sites correspondants.

Par exemple, imaginez que vous faites une étude sur Victor Hugo. Avec un moteur balayant les divers projets de Wikimédia, vous auriez en une seule recherche pour cet auteur :

  • sa biographie dans Wikipédia, et les articles afférents,
  • ses citations dans Wikiquote,
  • ses œuvres sur Wikisource,
  • les mots en rapport dans le Wiktionnaire (Hugolien !),
  • les documents multimédias correspondants de Wikimedia Commons,
  • les évènements culturels sur Wikinews,
  • des cours sur Wikilivres ou la Wikiversité.

Bref, toute la « substantifique moëlle » de Victor Hugo vue par les multiples Wikis de Wikimédia.

A ma connaissance, un tel système n’existe pas encore… -- Almak 14 avril 2007 à 21:14 (CEST)

Excellente idée Almak, en fait actuellement nous préparons une V2 de wikipediasearch.net, qui devrait sortir en fin de semaine. Cette version cloturera dans un premier temps la première phase d'évolution lié au recherche dans Wikipedia. Le but ce cette V2 est de proposer différents type de recherche lié au contenus. A ce titre et sans trop en dire nous allons proposer un moteur de recherche d'images, l'affichage des catégories et des projets auquels sont rattachés les articles, les regroupements chronologiques et surtout la mise à jour en temps réel. Mais tes excellentes idées seront reprises pour la V3. Merci Almak, et en fait je cherchais le moyen de pouvoir rentrer en contact avec la communauté soit par le biais d'un forum, ou ... , afin que celle -ci puisse nous soummettre ce genre d'idée et je pense qu'en passant par cette page de discussion nous avons résolu ce problème, donc doublement merci Pmartin 15 avril 2007 à 08:19 (CEST)

[modifier] Le moteur est temporairement fermé

Le moteur est temporairement fermé et devrait réouvrir rapidement ces portes. Nous sommes désolés de la gène occasionnée. Pmartin 17 avril 2007 à 15:15 (CEST)

[modifier] le moteur est réouvert

Une nouvelle interface, des nouvelles fonctionnalités sont mises à la disposition. Pmartin 11 mai 2007 à 09:04 (CEST)

[modifier] belle faute

"contacter nous", eh ben bravo

c'est corrigé, merci de nous avoir signalé la coquille Pmartin 17 mai 2007 à 09:36 (CEST)

[modifier] Un peu d'aide

Bonjour,

Bravo pour cette nouvelle version, c'est un plaisir de voir cet outil se développer. La nouvelle mouture me rend un peu confus quand même, notamment avec de nouvelles icônes dont on ignore leur fonction (la petite boussole par exemple). Je suggère d'utiliser des info-bulles pour dire à quoi servent les boutons ("Atlas", la boussole, dire que le sélecteur de catégorie emmène sur la page de Wikipédia et ne fait pas une recherche sur la catégorie, etc.). De même pour les flèches bleues, qui ne sont pas très évidentes je trouve (un alignement plus "classique" serait meilleur de mon point de vue : << < > >>).

Une petite page d'aide / de FAQ dans le genre de celle-ci serait d'ailleurs la bienvenue, pour expliquer les questions courantes sur ce moteur. Mes questions (auxquelles je n'ai pas toujours les réponses d'ailleurs !) seraient :

  • Qui est derrière Wikiwix, avec quelle technologie, quelle est la teneur du lien avec Wikipédia ?
  • Les recherches sont-elles "live" (base de données à jour) ou pas ? Que signifie "articles désynchronisés" ?
  • Les images incluent-elles celles de Commons ?
  • Comment marche ce #*!& d'atlas ? (je râle, je râle, car pour sélectionner "France" et "Paris" j'ai dû jouer de la molette de souris et ne pas cliquer à côté, sous peine de me retrouver avec des résultats vides...). Et à quoi correspondent les chiffres de cet atlas ? Au passage, l'atlas pourrait renvoyer vers les excellents Atlas de Commons, par pays (exemple).
  • Quelles est cette boîte à cocher "un des mots" ? J'ai du réfléchir 2 minutes avant de savoir dans quel sens l'utiliser (un bouton radio à 2 options serait plus intuitif, ou alors un intitulé plus complet). De façon amusante, elle devient "all word" en anglais, ce qui est à la fois contraire au français et erroné ("all words").
  • Comment marchent ces flux RSS / Atom ? (valables seulement pour la recherche en cours, de quoi préviennent-ils exactement...)
  • Quand l'interface est en anglais, la recherche porte-t-elle sur Wikipédia en anglais ?

Bref, l'idée n'est pas tant d'obtenir des réponses ici qu'une petite page d'aide (qui pourrait être une page du wiki, d'ailleurs : ce serait plus simple !) utile pour tous.

Merci et bonne continuation, le Korrigan bla 20 mai 2007 à 00:10 (CEST)

J'ai pris note Pmartin 21 mai 2007 à 16:13 (CEST)
Nous sommes entrain de construire une faq accessible sur cette url http://www.wikiwix.com/faq/ Pmartin 22 mai 2007 à 13:48 (CEST)

[modifier] Parmis->Parmi

Bonjour,

je vous avait signalé suite à un message du bistro (auxquels vous aviez répondu ultérieurement également) l'existence d'une coquille orthographique dans la réponse à une requête : "Résultats 1-10 parmis 2608 pour xxxx". Meilleures salutations à vous Jef-Infojef 2 juin 2007 à 19:16 (CEST)

[modifier] résumé des recherches

Je vous suggère de filtrer les textes entre {{ }} lors de l'affichage de vos résumés rapides des résultats de recherche. En effet ce sont des modèles souvent présents pour indiquer une ébauche, homonymie, tableau synthétique, etc mais qui apportent de la confusion dans la visualisation des résultats. Meilleures salutations --Jef-Infojef 2 juin 2007 à 19:37 (CEST)

[modifier] Aide:Recherche

Bonjour. J'ai un peu déplacé l'info. Une question : le moteur indique toujours "482088 articles" et "830 désynchronisés", est-ce vraiment à jour ? Et est-il vraiment le plus rapide ? Ah, d'ailleurs, quelle base de données utilise wikiwix ? Le toolserver (réplication ?), un dump, ou autre chose ?

Si je peux me permettre (sachant que je n'ai rien contre wikiwix, au contraire), Google trouve des articles que j'ai créés il y a 2 jours, de même que la recherche interne qui vient tout juste d'être mise à jour. De plus, la recherche interne bénéficie d'un index "incrémental", construit progressivement et plus une fois toutes les quelques semaines comme auparavant.

Bref, il faut vérifier si Wikiwix est bien le plus "à jour", avec quelques comparaisons sur des articles récents. Cordialement, le Korrigan bla 12 juillet 2007 à 09:24 (CEST)

Merci pour la réponse. En fait, le moteur de recherche interne a enfin été mis à jour, et avec lui la façon dont l'index est créé. On y trouve des articles récemment créés, en ce moment la limite est de 12 heures environ. Mais Wikiwix n'a pas l'air d'être si à jour que ça : quand je cherche Servitude pour dettes (article créé il y a 3 jours). Mais j'avoue que les autres moteurs externes ne font pas mieux :-) le Korrigan bla 13 juillet 2007 à 18:23 (CEST)