Discussion Utilisateur:Zouavman Le Zouave/Que trouve-t-on sur Wikipédia/Qualité

Un article de Wikipédia, l'encyclopédie libre.

Sommaire

[modifier] Wikipédia:Wikipédia 1.0

Dans les critères, j'ai commencé par noter l'absence de toute préoccupation de la pertinence du contenu, pour poursuivre en pensant qu'il serait judicieux de s'appuyer sur les critères WP 1.0. Les rubriques orthographe et images, très accessoires, seraient utilement remplacées. TigHervé@ 11 novembre 2007 à 07:47 (CET)

J'en sais trop rien... Ici on étudie la qualité des articles, pas la qualité de leur sujets(s). On pourrait faire ça dans un projet ultérieur et séparé, ou WP 1.0 pourrait copier nos listes (ici et ) et le faire dans le cadre de leur projet. Zouavman Le Zouave 11 novembre 2007 à 11:43 (CET)
Qualité de leurs sujets ? TigHervé@ 11 novembre 2007 à 14:52 (CET)

[modifier] Redéfinition des variables et de leur notation

Comme je compte utiliser les données dans SPSS, et pour la clarté de l'enquète, il faudrait :

  • Evitez les échelles (1,2,3,4) et les remplacer par des variables indicatrices d'évenement (1 si la caractéristique est présente, 0 sinon)
  • Eviter les pourcentages. Je comprend l'intérêt de rapporter le nombre de fautes au nombre de mots, mais c'est griller une étape. Le tableur pourra ensuite très simplement effectuer ce genre de calculs. Noter simplement le nombre de fautes permet des résultat plus affinés.
  • Je pense qu'une enquète sur les sources est une perte de temps, tout le monde sait que la plupart des articles sont sans sources, et par ailleurs la qualité d'une source compte autant que sa présence, mais ce n'est pas étudiable statistiquement.
  • Pour les images, plutôt que l'échelle ou la variable indicatrice d'évenement, il serait mieux de compter tout simplement le nombre d'images par article.--Aliesin 11 novembre 2007 à 13:50 (CET)
Mais limiter l'étude à "il y a" et "il n'y a pas", ce serait vraiment simplet. Pour les fautes d'orthographe, on est d'accord, je vais changer ça dès que j'ai le temps. Et pour le nombre d'images, on est aussi d'accord. J'ai déjà commencé à mettre ça en application, mais j'ai trouvé peu de temps pour le faire. Je m'organiserais. Zouavman Le Zouave 11 novembre 2007 à 14:07 (CET)
Ce n'est pas du tout simplet. Si tu met 2 variables indicatrices, tu obtiens 4 résultats possibles, donc une richesse semblable à une échelle 1,2,3,4... Mais surtout on ne peut rien faire ou presque statistiquement avec une échelle 1,2,3,4 donc ça ne sert presque à rien. En effet, en quoi peut-on dire que 3 vaut 3 fois plus que 1, ou 4 4 fois plus que 1 ? Tu comprends bien que les chiffres que tu met ne veulent rien dire.--Aliesin 11 novembre 2007 à 14:16 (CET)
D'accord, c'est plus clair. Donc il faudrait diviser la valeur en en deux et limiter les options à 1 (il y a) et 0 (il n'y a pas)? Zouavman Le Zouave 11 novembre 2007 à 14:24 (CET)

[modifier] Données en binaire?

Suite à multiples discussions, je pense qu'il est mieux d'aborder le sujet ici. Doit-on faire des données binaires (0 ou 1) ou devons nous faire plusieurs propositions (1 pour mauvais sourcage, 2 pour un sourcage moyen, etc.)? Aliesin (d · c · b) trouve le système binaire plus pratique pour rentrer dans un programme de statistiques, ce qui est compréhensible, mais Moez (d · c · b) apporte un argument très intéressant qui est qu'il sera plus facile de transformer les données multiples (1-5 ou 1-3) en données binaires à la fin du projet. J'aimerais entendre votre avis sur la question. Si nous devons changer le système d'évaluation, on fera cela à partir des entrées 101-200, puis on repassera sur les 1-100 à la fin. D'autre part, si nous décidons de faire plus de deux propositions, il faudra décider de quelles propositions il s'agira. Qu'en pensez vous? Zouavman Le Zouave 17 novembre 2007 à 13:02 (CET)

Le système binaire est plus simple à utiliser donc ça me convient mais j'aurais plutôt vu 0 pour mauvais sourcage, ébauche et 1 pour sources présentes, article bien entamé.--Guil2027 17 novembre 2007 à 13:10 (CET)
Plus facile à utiliser, oui; mais est-il le système qui donne les résultats les plus pratiques? Juste une réflexion. Zouavman Le Zouave 17 novembre 2007 à 14:18 (CET)
Superbe travail réalisé mais aussi superbe travail à remplir. 3 observations :
  • Le nombre de mots, de fautes d'orthographe et d’illustrations peut être compté une seule fois, aucune raison que chacun refasse le décompte,
  • Une appréciation sur le style de rédaction et la compréhension serait le bien venu,
  • D’accord avec Moez, pas de choix binaire mais généralement un choix pair, pour éviter le marais central d’un choix refuge, comme une échelle de Likert adaptée du style mauvais-passable-bien-très bien-je ne sais pas, traduisible en 0-1-2-3-? et pas beaucoup plus difficile à dépouiller qu’un résultat binaire. Hamelin de Guettelet 17 novembre 2007 à 14:29 (CET)
Bon moi perso je pense que les 1-2-3 c'est bon pour les sources, pour les images aussi (je dirait : 0 pas d'image, 1 quelques images (voir aussi en rapport avec la taille du texte ) 2 article bien illustré). Pour les sources de même, mais pour les fautes 0 et 1 c'est bien. Pour l'aspect je sais pas... Donc pour finir je pense que les données multiples est à garder. -- Walké 17 novembre 2007 à 14:40 (CET)
L'argument comme quoi en binaire, c'est plus facile à traiter m'exaspère considérablement. Poussé à ses limites, il signifie : on se fiche complètement du fond et de la pertinence du truc, du moment que le programme n'est pas dur à écrire. C'est ce type d'attitude qui fait que les informaticiens et les sondeurs d'opinion sont universellement haïs, tout au moins par moi-même. Si on se porte volontaire pour gérer un truc comme ça, alors on le fait bien, sinon, on ne le fait pas. J'ai dit. Félix Potuit 17 novembre 2007 à 15:59 (CET)
Disons que dans mon boulot, on a souvent des stats à remplir et le système binaire est le plus souvent proposé. Tout simplement parce que quand on commence à introduire plusieurs options, les gens n'ont pas la même perception et on se retrouve avec des données différentes selon les gens. C'est aussi parce que plus c'est compliqué, moins tu auras de gens à les remplir. Mais je vais me répéter: quand on met 0, ça veut dire qu'il n'y a rien, c'est la première fois que je vois l'inverse. Ensuite je ne comprends pas le problème: soit l'article est sourcé et n'est plus une ébauche, soit il ne l'est pas. Qu'est-ce que vous voulez mettre entre? Je précise que je ne suis pas informaticienne, donc potentiellement j'ai une chance de ne pas être haïe Sourire.--Guil2027 17 novembre 2007 à 17:05 (CET)

Une petite proposition:

Qu'en pensez vous? Zouavman Le Zouave 17 novembre 2007 à 16:54 (CET)

Ok, mais je ne comprends toujours pas. Si je lis l'article pour compter les fautes d'orthographe, je les corrige dans le même temps ou bien doit-on laisser les articles avec des fautes uniquement pour garder au suivant le plaisir de recompter? Où est la qualité de WP pendant ce temps ? Dito pour le nombre de mots à compter. Hamelin de Guettelet 17 novembre 2007 à 17:26 (CET)
Les liens sont des liens permanents, et mèneront vers une version archivée de l'article. C'est cette version qui importe. Si tu vois que l'article contient toujours des fautes d'orthographe, libre à toi de les corriger, mais l'évaluation est basée sur la version archivée. Comme ça, tu peux tranquillement améliorer l'article sans altérer l'évaluation. Sourire Que penses-tu de la proposition 1? As tu des idées? Zouavman Le Zouave 17 novembre 2007 à 17:59 (CET)
Le nombre de mots mal orthographiés c'est une mauvaise idée car ce nombre dépend probablement avant tout de la longueur de l'article, ce qui n'est pas ce qu'on chercher à mesurer avec cet item. Mieux vaut un truc du genre « il y a des fautes/orthographe correcte » ou « orthographe supportable/orthographe pas supportable ». À la rigueur diviser le nombre de fautes par la longueur du texte mais je suis un peu sceptique. GL 17 novembre 2007 à 23:34 (CET)
L'intérêt est qu'on peut diviser ce nombre par le nombre de mots, ce qui nous donne un pourcentage. Mais en effet, une évaluation en "orthographe supportable" contre "orthographe moyennement supportable" et "orthographe insupportable" est une bonne idée. Zouavman Le Zouave 18 novembre 2007 à 11:58 (CET)
Voila, j'ai modifié la section orthographe de la proposition. Qu'en penses-tu, GL? Zouavman Le Zouave 18 novembre 2007 à 13:59 (CET)

Je regrette d’être passé à coté de ton travail et de n’avoir pas contribué plus tôt. Maintenant, tu veux savoir ce que je pense de ta proposition 1. Voila ma réflexion :

1 - Méthodologie d’enquête :

- le tirage d’article au hasard n’est pas suffisant pour la crédibilité de l’enquête, ce n’est qu’une base de départ utile et nécessaire mais non suffisant au regard du point suivant ;
- il est obligatoire que l’échantillon soit représentatif de la population mère. Existe-t-il une stat WP donnant le nombre d’articles par famille, portail, projet ou je ne sais quoi d’autre ? si oui, il faut que la répartition des articles dépouillés y soit conforme (méthode des quotas). Il sera toujours possible ultérieurement de revenir sur cette répartition, même si un certain nombre d’articles sont exclus à ce moment du dépouillement, la perte en marge de confiance sera faible au regard du gain en représentativité (limitation de biais) ;
- je ne reviens pas sur la classification par catégorie, trop précise (gastronomie) ou trop vague (art et divertissements), il sera toujours possible ultérieurement de revenir sur cette classification en fonction du point précédant.

2 - Méthodologie du questionnaire :

- faire clairement la distinction entre les informations quanti (à n’apprécier qu’une seule fois) et quali (demandant l’appréciation de chaque) :
- infos quanti : orthographe, nombre de mots, d’illustrations. Infos quanti à ne calculer qu’une seule fois. Pas d’échelle puisque la réponse est un nombre (x fautes, x mots, x illustrations) avec possibilité de faire un dépouillement croisé simple (x fautes/x mots ou x illustrations/x mots) ou plus complexe par catégorie, etc.
- info quali : aspect, l’article parait-il complet aux yeux du lecteur (peu importe sa compétence, c’est un lecteur lambda). Sourçage, l’article parait-il vérifiable par des sources (pas uniquement externe) mais aussi références biblio et notes complètes avec numéro de page (bon critère de sérieux). Puisqu’on est en quali pourquoi pas une note d’appréciation générale. Utilisation d’une échelle dérivée de Likert du style 0 = très mauvaise appréciation, 1 = mauvaise appréciation, 2 = bonne appréciation et 3 = très bonne appréciation. Il faut tenir compte de ceux qui ne veulent pas répondre ou qui font une réponse inadéquate = ? Éviter d’avoir un nombre de réponses impair pour écarter les indécisions sur un item refuge. Pas trop de problèmes pour le dépouillement, puisqu’il faut bien compter toute les réponses et les résultats sont donnés en %.

Peut être faire 2 enquêtes une quanti avec des volontaires pour des tâches ingrates et une quali pour tous les contributeurs intéressés. L’enquête quali peut peut être se faire sous la forme de vote habituel WP mis en tableau, le décompte se fait automatiquement, il suffira juste de vérifier les erreurs d’attribution (c'est peut être une bêtise je ne suis pas des plus doué en codage informatique).

3 - Méthodologie d’administration : L’auto administration des questionnaires est toujours délicate.

- clairement préciser (pour ceux comme moi qui essaye de comprendre avant d’agir et qui n’avait pas encore cliqué sur un article) que l’enquête est faite sur une version archivée (attention aux problèmes d’édition pour les contributeurs pas nécessairement expérimentés comme moi) ;
- expliquer plus clairement la façon de remplir le tableau (là j’ai toujours pas compris, il faut peut être m’expliquer longtemps pour que je comprenne vite).

Il faut toujours tester un questionnaire avant de l’administrer (sauf à être un pro qui lui ne fait que reproduire ce qui est déjà fait). 1 à 100 pourra servir de test et il sera toujours possible d’y revenir en dernier quand ceux qui y ont déjà répondu auront oublié leurs réponses.

Excuse mon cours ex cathedra mais tout ce qui peut améliorer la qualité (qui ne passe que par un bon sourçage) de WP m’intéresse. Une faute d’orthographe ne fait pas perdre une information, une mauvaise rédaction peut transformer une information mais il reste toujours la source par contre une information non sourcée devient inutile car elle ne peut être prise en compte.

Bravo encore pour ce travail qui est plus important que toutes les PàS et SI pour la crédibilité de WP. Je crois qu’il existe quelque part des lauriers, je me mets en quête. À+ :o) Hamelin [de Guettelet] 18 novembre 2007 à 17:55 (CET)

Peux tu expliquer Hamelin en quoi la méthode des quotas est utile ici ? Je crois qu'elle est utilisée par les sondeurs pour compenser leur incapacité à séléctionner les sondés sans biais. Ici on dispose d'un outil qui séléctionne les articles rigoureusement au hasard, aussi il n'y a aucune raison à mon avis d'utiliser la méthode des quotas.
Sinon j'avais indiqué mon septicisme vis à vis du traitement des sources, d'abord parce que ce n'est pas mesurable quantitativement, ensuite parce que tout le monde connait le résultat à l'avance. Je pense que l'évaluation quali est totalement impossible à réaliser, ne serai-ce parce que les gens sont impliqués dans le projet et connaîtraient l'objet de l'enquète. Un test qualitatif n'a donc aucun sens.
Une révision des catégories de la première enquète est faisable avec nos relevés, vu que nous avons indiqué le thème précis de l'article à chaque fois. Refaire les catégories ne prendrait pas beaucoup de temps. Je précise que j'avais créé les catégories à partir d'un test de cents articles au hasard, et qu'elles ont perdu de leur pertinence avec les résultats sur 1000 tests. Le fait qu'elles ne soient pas optimales est évident.
La variable fini/pas fini n'est pas à mon avis tellement qualitatif : un article fini (qui peut pour autant être repris, allongé et amélioré) a certaines caractéristiques formelles que l'article de base de wikipédia n'a pas, et les cas tangeants sont à mon avis peu fréquents. C'est un peu comme se demander si un produit manufacturé et ou non dans son embalage.
La gestion des tableaux sur wikipédia est un enfer pour de telles études.--Aliesin 18 novembre 2007 à 20:57 (CET)
Nous sommes bien sur le même problème, technique probabiliste ou non. Un tirage au hasard pur est toujours illusoire, par exemple je ne suis pas convaincu, pour le pratiquer, que l’algorithme de tirage d’article au hasard soit véritablement probabiliste. Les conditions idéales de tirage sont trop rarement respectées, tu connais le problème des tables de chiffres au hasard qui ne donnent un véritable hasard que sur les grands nombres. Tu en as fait la démonstration par l’exemple ; tu indiques toi-même que les catégories tirées par 100 et par 1000 diffèrent. Donc pour éviter le biais qui se glisse dans ce type de constitution d’échantillon, il est couramment fait appel à une technique de quotas quand il est possible de faire une catégorisation de la population mère. Elle permet de redresser l’échantillon une fois l’enquête terminée. Il suffit de ne tenir compte dans les résultats que d’un nombre d'items dans chaque catégorie qui corresponde à la répartition de la population mère (l’échantillon de 1/500 le permet). Je ne parle pas ici des techniques de sondage d’opinion où pour respecter la catégorisation a priori on finit par rechercher à interviewer un "retraité" de "– 25 ans" en "csp+" habitant une ville de "+ 50 000 habitants" dans la "Creuse" et comme on ne le trouve pas on redresse au doigt mouillé (pas de problème, c’est scientifique puisque c’est un ordinateur qui officie).
Qu’est-ce d’autre que du quali que de demander de noter de 0 à 3, l’"impression", l’"avis" ou "tout ce que tu voudras" comme "quelques" liens, "des" références ou "pratiquement" vérifiable, "vide", "inachevé", "vikifié" ou "complet", chacun a sa propre définition de ces notions. Likert a justement inventé son échelle pour pouvoir facilement traiter des infos non quantitatives (à l’origine il était question de comportement socio-psychologiques). Je ne t’aurais jamais parlé de faire du quali pur et dur suivi d’un dépouillement sémiologique.
Tu ne dis rien sur le pur quanti ?
Je ne voudrais pas passer pour un critique alors que je trouve déjà votre travail remarquable. Uniquement quelques remarques et conseils venus à la lecture de votre questionnaire. Ma PdD reste à votre disposition, pour le reste j’ai déjà suffisamment donné ! À+ :o) Hamelin [de Guettelet] 19 novembre 2007 à 00:22 (CET)

[modifier] Taille

Comment fait-on pour trouver le nombre de mots? Pour une ébauche je veux bien compter un par un, mais après? --Guil2027 (d) 21 novembre 2007 à 22:23 (CET)

Tu peux faire un copié collé dans word ou dans ultraedit. Fichier > Propriétés > Statistiques pour le 1er, Rechercher > compter les mots pour le second --Zedh msg 21 novembre 2007 à 22:42 (CET)
Merci!! --Guil2027 (d) 21 novembre 2007 à 22:59 (CET)

[modifier] Critiques

Je trouve aussi que la notation est contre-intuitive : 0 est plutôt synonyme de mauvais, 1 c'est plutot OK (aspect, source). De plus je trouve une autre idée contre intuitive, c'est le résultat binaire : c'est très dur de choisir 0 ou 1 alors que je trouve plus facile de choisir entre 1-2-3-4, quite lors du dépouillement à regrouper 1-2 et 3-4. Mais c'est juste psychologique. Bonne continuation --Zedh msg 21 novembre 2007 à 23:18 (CET)

C'est justement la question qui se pose. Quand la discussion sera terminée, et j'ai l'impression qu'elle l'est (et quand j'aurais le temps aussi), je changerais tout ça, et on re-fera les évaluations qui ont déjà été faites à la fin. Merci pour ton avis, je pense qu'il confirme mon opinion. J'espère te re-voir très bientôt sur le projet! Clin d'œil Zouavman Le Zouave 22 novembre 2007 à 09:33 (CET)
Oui il y a consensus sur le fait que la notation est contre-intuitive. --Aliesin (d) 22 novembre 2007 à 13:09 (CET)
En revanche il y a un gros problème à mon avis sur la notion d'article achevé... je vois des tas d'articles squeletiques bien notés.--Aliesin (d) 22 novembre 2007 à 13:11 (CET)
Je pense que l'idée d'un article achevé vs un article inachevé semble floue pour beaucoup de contributeurs. Est-elle vraiment indispensable? Au pire on peut toujours envoyer un message à chaque contributeur ou faire une sous-section particulière pour expliquer le concept. Je suis extrêmement occupé en ce moment, je n'ai pas beaucoup de temps à donner à Wikipédia. Je ferais de mon mieux d'améliorer tout pour le bien du projet dès que je le peux. Zouavman Le Zouave 22 novembre 2007 à 23:19 (CET)

[modifier] Nouvelle méthode d'évaluation

Dites moi ce que vous en pensez. Zouavman Le Zouave 23 novembre 2007 à 12:45 (CET)

Je reste sur mes premières remarques. L'échelle est sans intérêt pour l'orthographe ou les images vu qu'on peut les comptes. Et des réponses oui non sont préférables dans les autres cas. Une étude réalisée sur de telles bases n'a aucune valeur.--Aliesin (d) 23 novembre 2007 à 15:14 (CET)
Je ne comprends pas en quoi les réponses oui/non sont préférables à une échelle de Likert en 4 points (donc avec 'choix forcé'). J'ai même un article (certes POV) qui explique en quoi cela peut induire un biais : en:Ipsative. Concernant l'orthographe, je ne suis pas d'accord non plus : compter des fautes sur un article d'une bonne longueur est quelque chose de completement aléatoire, lorsqu'on lit un article 'en diagonale'. Enfin pour répondre à zouavman, je pense qu'il faut préciser pour la partie 'aspect' qu'on ne traite pas du fond de l'article, mais juste de la forme (contrairement à WP1.0 qui, si j'ai bien compris, traite lui du fond). Enfin dernière question, est-ce que l'orthographe influe sur la notation de l'aspect de l'article (vu que c'est une question à part, on peut en douter) ? --Zedh msg 24 novembre 2007 à 02:16 (CET)
Concernant l'aspect, je pense que cette variable devrait être indépendante de l'orthographe. C'est simplement de la forme dont il s'agit (sections, organisations, position des modèles, etc). Par contre je ne sais pas si c'est absolument nécessaire... Peut être devrait-on simplifier cette variable? Des idées? Zouavman Le Zouave 24 novembre 2007 à 13:42 (CET)
A mon sens l'échelle de Likert sert à estimer des appréciations subjectives en psychologie et en marketing, mais qu'elle a aucun intérêt pour les mesures objectives. Cela revient à demander aux gens si un objet est léger, plutot léger, plutot lourd ou lourd alors qu'on a une balance. Pour le nombre de faute d'orthographe, il est recommandé d'utiliser le correcteur de Microsoft Word pour en avoir une estimation, comme pour le nombre de mots d'ailleurs.--Aliesin (d) 24 novembre 2007 à 22:54 (CET)
Si c'est le problème de l'objectivité qui te dérange, tu pourras toujours convertir (et cela très facilement) les données à 4 ou 5 variables en données binaires. L'inverse est nettement plus difficile. Zouavman Le Zouave 25 novembre 2007 à 07:10 (CET)
Attention avec les conversions, c'est vrai que ça se fait mais on a les réponses aux questions qu'on pose. C'est pas anodin de demander sous une forme et d'analyser (et de reporter) sous une autre. GL (d) 25 novembre 2007 à 10:15 (CET)
ah j'avais pas pensé au correcteur de word :p --Zedh msg 25 novembre 2007 à 10:09 (CET) (jl'utilise jamais ce truc, cest pour les feignants ;)
On peut tout à fait leur demander ça, pourvu qu'on garde à l'esprit que ce qu'on mesure c'est la perception de l'objet. Pour l'orthographe c'est pareil, la capacité des relecteurs à obtenir un décompte exact peut être mise en cause et les données de ce type posent des problèmes particuliers. Le mieux c'est de reconnaitre que ce qu'on peut mesurer c'est orthographe acceptable vs. orthographe visiblement défaillante et de formuler les items de façon appropriée. Ça me parait tout aussi intéressant qu'une évaluation « objective ». GL (d) 25 novembre 2007 à 10:14 (CET)
Faut pas exagérer, entre pas souhaitable et aucune valeur il y a de la marge. GL (d) 25 novembre 2007 à 10:14 (CET)

Des précisions sur les échelles de Likert, parce qu'il y a pas mal de confusion sur la terminologie : une échelle de Likert c'est un questionnaire (ou une partie d'un questionnaire si on cherche à mesurer un construit multidimensionnel), pas une seule question (qu'on devrait appeler un item de type Likert). Likert mesurait des attitudes en utilisant plusieurs questions qui formaient donc une échelle (il y a une procédure pour sélectionner les questions, le but est de permettre d'additionner les réponses pour obtenir le score final). Likert n'utilisait que des nombres de réponse impairs mais parfois seulement trois (YES, ?, NO). Il n'utilisait pas de nombres mais des étiquettes du genre « strongly approve » ou « disapprove » voire des listes de phrases. Un exemple tiré d'un de ses articles :

How far in our educational system (aside from trade education) should the most intelligent negroes be allowed to go ?
* Grade school
* Junior high school
* High school
* College
* Graduate and professional school