Discuter:Statistiques/Archive1

Un article de Wikipédia, l'encyclopédie libre.

Sommaire

[modifier] Statistiques et probabilités

L'article fait la confusion entre statistiques et probabilités. Or, une statistique est l'analyse d'un phénomène réel alors qu'une probabilité est l'estimation d'un événement futur. Comme les articles sur les probabilités sont complets; je supprime les textes parasites. --Thierry 9 mars 2005

[modifier] Modéliser le hasard

"le but de la statistique est d'essayer de modéliser le hasard" lit-on dans l'article. Mais est-ce vrai ? Etablir des mesures récapitulatives (comme la moyenne, l'écart-type, etc.) sur des séries de valeurs disponibles pour l'ensemble de la population étudiée, n'est-ce pas déjà "faire des stats" ? --Marc BERTIER 4 fev 2005 à 09:49 (CET)

je pense effectivement qu'il y a une sorte de confusion dans cette article entre statistique et probabilité. Il parait difficile de remédier à cet état de fait sans recomposer l'ensemble de l'article. Il faudrait normalement distinguer la statistique descriptive (décompte simple) de la statistique inférentielle (création d'une loi) . Voir l'article statistique (mathématiques élémentaires). --HB 5 fev 2005 à 14:24 (CET)
tout à fait d'accord, je vais faire quelques modifs sur les points principaux (la phrase La statistique constitue une méthode d'analyse d'événements réels (donc passés). Au contraire, les probabilités ont pour objet d'anticiper le futur. notamment) Lehalle 10 avril 2006 à 10:00 (CEST)

[modifier] lien sur écart-type

Impossible de mettre un lien sur écart type: il renvoie sur la page des modifications au lieu de renvoyer sur l'article lui-même HB 9 jul 2004 à 18:34 (CEST)

Oui, la même chose m'est arrivée avec d'autres articles, parfois résolue par un copier collé du titre à mettre en lien, mais pas toujours. Le wiki a ses mystères ;-)). --Pgreenfinch 10 jul 2004 à 00:00 (CEST)


Regression


pourquoi dire que le cas de deux variables corrélées est caricatural dans le passage sur la régression linéaire. c'st parce qu'il existe une corrélation que la régression a un sens...

on pourrait simplement enlever cet adjectif...

Certes le terme est maladroit, mais surtout l'article est loin d'être complet... on attend un spécialiste. Le terme de caricatural signifie que la corrélation est extrêmement simple. En effet, des variables peuvent être corrélées de manière non affine (exponentielle, puissance, polynomiale, ...)(voir série statistique à deux variables). Le cas de la corrélation affine devient caricatural dans sa simplicité.HB 17 aoû 2004 à 12:16 (CEST)

[modifier] "statisticus" ???

Cette histoire de "mot latin statisticus" a comme un parfum de canular. Je présume que la racine réelle est status. Quelqu'un peut-il confirmer ou infirmer ? 195.132.59.18 6 sep 2004 à 12:56 (CEST)

Cela ressemble effectivement à un canular. L'encyclopaedia universalis fait remonter le terme à l'allemand Staatskunde puis Statistik (1746) sans valider pour autant complètement cette hypothèse. ==> suppression de l'étymologie farfelue. HB 6 sep 2004 à 16:20 (CEST)

[modifier] les "chiffres" de la statistique

L'usage courant du mot "chiffres" dans l'énoncé "grand public" de données statistiques (les chiffres du chomage) est une abomination. Il s'agit de nombres, et seul le terme "nombres" devrait être utilisé pour désigner ces nombres.

Il me semble que toute occurrence du mot chiffre dans ce genre de contexte devrait être remplacé par "nombres", ou bien être placé entre guillemet avec un renvoi vers une explication de cet usage.

[modifier] Remarques diverses

Il semble que la partie Statistique descriptive/Corrélation et régression puisse être supprimée :

  • elle fait double emploi avec Statistiques sur deux variables où ces notions apparaissent de manière plus raisonnable,
  • elle introduit le test du khi2 qui relève de toute évidence de la statistique mathématique.

Dans la partie Statistiques et probabilités – qui pourrait s'appeler Statistique mathématique – s'il est évident que les statistiques portent sur le passé, en revanche il est très discutable de dire que «les probabilités ont pour objet d'anticiper le futur». Bien que la rigueur scientifique ne soit peut-être pas l'unique cause des dénégations des instituts de sondage, l'exemple de la «probabilité sur le résultat des prochaines élections» paraît particulièrement mal choisi. Jct 24 mai 2005 à 09:31 (CEST)

J'avais nettoyé l'article il y a trois mois des bribes de probabilités, mais c'est un article qui a du mal à trouver sa frontière : que mettre ici ? que mettre ailleurs ? Je pense qu'il faudrait un article d'initiation avec toutes les notions "de base" et des articles pour approfondir.

C'est moi qui avait écrit cet exemple pour illustrer la différence entre statistiques et probabilités et je l'aime bien : la probabilité porte sur des faits à venir. Utilisateur:Thierry 20 juin 2005

Puisque le débat s'est développé sous le titre Remarques diverses, je continue bien qu'on aborde les questions de fond.
Je ne suis pas convaincu par la définition probabilité = prédiction illustrée, selon moi, de façon caricaturale par les devins des instituts lors des campagnes électorales. C'est sans grande importance, à condition que ce point de vue ne conduise pas à «nettoyer» une partie importante des statistiques.
J'avais d'ailleurs noté précédemment que ce nettoyage était imparfait car il avait conservé les «tests pour vérifier que la loi choisie est judicieuse : Test du ² ou Khi-deux ou chi-carré (prononcer « ki-deux » ou « ki-carré ») : permet de mesurer l'indépendance des variables»

qui n'ont rien à faire dans Statistique descriptive.

Dans Mesures de dispersion, on parle de variance (notion de statistique descriptive en 1/n) et de variance empirique corrigée (notion de statistique mathématique en 1/(n-1), connue sous le nom d'estimation sans biais).
Ces deux exemples montrent que la statistique descriptive et la statistique mathématique (les gens savants parlent d'inférence statistique) sont si intimement liées qu'il n'est pas si facile de les distinguer. Il ne faut d'ailleurs pas considérer qu'il s'agit d'une opposition entre notions de base et notions approfondies : beaucoup de gens ont entendu parler de la courbe en cloche mais pas des méthodes d'algèbre linéaire utilisées dans certains problèmes de statistique descriptive.
Même si des interactions nombreuses obscurcissent le problème, il faut absolument faire la distinction. Sur le fond, le critère est simple : la statistique mathématique utilise des lois de probabilité, la statistique descriptive se contente de faire des calculs d'algèbre, souvent élémentaires mais pas toujours.
Dans la forme, ce qui me semblerait le plus clair et obligerait à se poser la question de la frontière consisterait à réduire pour l'essentiel la page Statistiques à (La démarche statistique + L'acquisition des données) avec des renvois vers les pages Statistique descriptive et Statistique mathématique. Il se trouve que la page Statistique descriptive existe déjà mais se réduit à une introduction qui ne renvoie à Statistique que de manière mécanique sans qu'on voie bien en quoi les deux renvois éclairent les phrases qui les contiennent. Les parties correspondantes de la page Statistique lui donneraient de la substance.Jct 21 jun 2005 à 17:12 (CEST)

Il est extrêmement intéressant de considérer la page http://en.wikipedia.org/wiki/Statistics.

Les deux premières phrases de l'introduction de la page française Statistiques sont des traductions des phrases anglaises mais les trois phrases suivantes, qui me paraissent tout à fait pertinentes, ont été «nettoyées» et remplacées par On peut la lier à la théorie de la décision :

Dans le cadre de la théorie statistique, le caractère aléatoire et l'incertitude sont modélisés selon la théorie des probabilités. Comme l'un des buts des statistiques est de produire la «meilleure» information à partir des données disponibles, quelques auteurs les considèrent comme une branche de la théorie de la décision. L'utilisation des statistiques inclut la planification, le résumé et l'interprétation des observations en tenant compte de la variabilité et de l'incertitude.

Le cœur de la page est constituée par un paragraphe Méthodes statistiques qui se réduit pour l'essentiel à des liens vers des pages concernant la conception des expériences, la statistique descriptive et la statistique mathématique, ce qui, me semble-t-il, précise les notions précédentes de planification, résumé et interprétation. Le seul lien qui ait été conservé dans la version française concerne le data mining qui ne relève pas de manière évidente des «notions de base».

Etonnamment, cela ressemble à ma proposition précédente mais pas à l'opposition entre «les notions de base et des articles pour approfondir».Jct 24 jun 2005 à 15:15 (CEST)

[modifier] Bibliographie

Il est dommage que l'article ne cite pas deux ou trois ouvrages de vulgarisation ou d'initiation (je ne le fais pas moi-même parce que je ne connais pas le domaine) Comme ouvrages non techniques et utiles, je voudrais citer Plus vite que son nombre et attention statistiques, mais entre statistiques tout court, statisitques mathématiques et statistiques descriptives, je ne sais pas où ils ont leur place. Apokrif 25 novembre 2005 à 18:04 (CET)

[modifier] Réorganisation de l'article autour des techniques statistiques

J'ai ajouté une section Statistiques#Techniques Statistiques. Il me semble qu'il serait plus riche de faire un article par technique, quitte à ne laisser ici qu'un résumé succint. Sinon nous courrons le risque de redonances. Qu'en pensez-vous? Lehalle 14 avril 2006 à 09:34 (CEST)

Ca me semble très bien un article sur les statistiques decriptives (Attention il existe et mérite d'être sérieusement complété : Statistique descriptive) n'a rien de choquant au contraire.Romary 14 avril 2006 à 12:48 (CEST)

Dans les techniques statistiques/compression statistique, il faudra faire une section sur la malédiction des grandes dimensions. Lehalle

L'article est trop détaillé sur certains points et pas assez sur d'autres. Il faudrait:

  • ne mettre dans cet article que des exemples, illustrations et idées générales (peu de formules)
  • renvoyer vers des articles plus détaillés le reste

Lehalle

[modifier] variance sans biais et "variance corrigée"

J'ai modifié tous les paragraphes sur ce qui était nommé variance corrigée. Il s'agit vraisemblablement de la variance sans biais.

De même le paragraphe sur l'augmentation de la précision en fonction de la taille de l'échantillon était assez flou. J'ai utilisé la Loi des grands nombres pour rendre tout cela plus rigoureux et (je l'espère) plus clair.

Et finalement j'ai reformulé aussi le paragraphe sur la nécessité ou non d'utiliser la variance sans biais. Il me semble que ce que l'auteur précédent voulait dire tournait autour de la différence entre un échantillon et un sondage (dans le premier cas on calcule un estimateur de la variance --il vaut donc mieux qu'il soit sans biais-- et dans le second on mesure la variance de la population --pas de correction--). Lehalle 14 avril 2006 à 19:38 (CEST)

[modifier] Introduction

[modifier] Data mining

J'ai modifié l'introduction. Le dernier paragraphe sur le Data Mining était assez surprennant:

En revanche, la fouille de données (en:data mining), a une approche différente des méthodes statistiques classiques, basées sur le test d'une hypothèse fixée a priori. Au contraire, le data mining va tenter de faire émerger des hypothèses à partir des données brutes, hypothèses parfois surprenantes pour l'expérimentateur.

car

  • On ne fait pas émerger des hypothèses mais des lois ou des relations (avec un niveau de confiance).
  • Les statistiques classiques ne sont pas uniquement basées sur le test d'hypothèse.
  • La démarche scientique expérimentale (qui concerne aussi le Data Mining) ne fait jamais d'hypothèse a posteriori.

Lehalle

[modifier] Statistique mathématique

La paragraph sur la statistique mathématique était aussi curieux:

La statistique mathématique a un objectif plus ambitieux : interpréter une population en utilisant une loi de probabilité. Dans cette démarche, le statisticien se fixe une hypothèse et détermine ensuite si celle-ci s'accorde avec les faits (matérialisés par des chiffres).

La Stat math pré existe à la statistique. Sans cette discuipline on ne fait pas de stat mais on calcule seulement des indicateurs. Lehalle

[modifier] Taille de l'échantillon

Le paragraphe:

Toute étude statistique se fonde sur une population formée de nombreux individus sur lequels on peut observer des caractères.

est aussi sujet à caution: on peut faire des stats sur de tout petits échantillons, on aura juste une très grande incertitude sur nos résultats. Lehalle