Outils statistiques
Sommaire de la page:
Usage des statistiques
On trouve dans les civilisations anciennes des traces de collecte d'informations, essentiellement liées aux productions agricoles ou aux échanges de marchandises, mais c'est au XVIIIème siècle, avec le début des systèmes d'assurance, qu'on crée les premières tables statistiques de mortalité.Le but des statistiques est de:
- représenter une population à partir des caractéristiques d'un échantillon
- évaluer la probabilité de trouver une caractéristique dans un échantillon connaissant la population à laquelle il appartient
Statistiques sur les mesures
Dans l'immence majorité des situations rencontrées dans les activités de procédé, il est procédé à des mesures sur un échantillon, dans le but de connaitre les caractéristiques d'un lot.C'est ainsi qu'on procèdera à des contrôles de qualité sur un produit fini (échantillonnage, analyse, bulletin d'analyse du lot),
ou à la mesure d'un paramètre opératoire sur une chaîne de production (positionnement d'un capteur dans une tuyauterie, mesure, enregistrement)
Incertitude de mesure
Le résultat obtenu au terme d'un processus de mesure ou d'analyse n'est qu'une estimation de la grandeur mesurée. L'écart entre la valeur obtenue et la valeur réelle est la somme des écarts dûs aux diverses perturbations. C'est l'incertitude sur la mesure.L'incertitude peut être:
- systématique; le plus souvent due à un écart d'étalonnage d'un instrument, qui persistera constament dans le même sens jusqu'à un nouvel étalonnage.
- aléatoire; provoquée par les diverses perturbations aléatoires.
Un seuil de confiance doit être défini; plus il sera élevé, plus la valeur d'incertude sera importante. Un seuil de confiance à 95% est généralement adopté.
Si une même mesure peut être répétée un grand nombre de fois (n fois), l'incertitude sur la mesure peut être déduite de la distribution des résultats autour de la moyenne. La valeur de l'écart-type est utilisée.
ΔY = σ ⁄ √n pour confiance à 68%
ΔY = 2σ ⁄ √n
pour confiance à 95%
Si la mesure fait appel à une mesure sur une échelle graduée, avec la plus petite graduation "δ", la lecture donnera avec une égale probabilité les valeurs Y, Y-δ/2 ou Y+δ/2, la demi graduation étant la plus petite précision possible; la dispersion des valeurs suit une loi dite "rectangulaire" ou équiprobable; la moyenne sera Y et l'écart-type est δ ⁄ 2√3.
ΔY = δ ⁄ 2√3 pour confiance à 68%
ΔY = δ ⁄ √3 pour confiance à 95%
Si la mesure fait appel à un équipement dont le constructeur fourni la précision "±δ", la lecture donnera avec une égale probabilité les valeurs Y-δ ou Y+δ; la moyenne sera Y et l'écart-type est δ ⁄ √3.
ΔY = δ ⁄ √3 pour confiance à 68%
ΔY = 2δ ⁄ √3
pour confiance à 95%
Si le résultat de la mesure fait appel à plusieurs mesures combinées par une relation mathématique:
- Y = A + B + C + ... → ΔY = √((ΔA)² + (ΔB)² + (ΔC)² + ...)
- Y = A × B ⁄ C → ΔY ⁄ Y = √((ΔA ⁄ A)² + (ΔB ⁄ B)² + (ΔC ⁄ C)²)
- Y = Ab → ΔY ⁄ Y = b(ΔA ⁄ A )
Dispersion de mesure
Des mesures répétées sur des échantillons supposés identiques ne donneront probablement jamais des valeurs identiques; la cause peut être:- le lot sur lequel les échantillons sont prélevés n'est pas parfaitement homogène
- l'opérateur effectuant la mesure introduit des erreurs dans le processus de mesure et d'analyse
- l'équipement de mesure est perturbé par des facteurs non identifiés ou non contrôlés (température du laboratoire, tension du réseau électrique, ...)

Les résultats de mesure se répartissent autour d'une valeur centrale, qu'on considère proche de la valeur vrai.
Répartition suivant une loi normale
Si le nombre de perturbations générant des écarts de résultats est important (>3), et se produisent de manière aléatoire, la fréquence d'apparition des résultats en fonction de la valeur mesurée forme une courbe en cloche dite "courbe de Gauss". La distribution est dite "normale" ou "suit une loi normale":- Les valeurs les plus fréquentes sont proches de la valeur centrale,
- plus on s'éloigne de la valeur centrale, et moins de tels résultats sont fréquents
La loi de distribution dite "normale" a une définition mathématique précise, et est l'hypothèse de base de nombreux tests statistiques courants. Pour les utiliser il est toujours bon de vérifier que la population de valeurs sur laquelle ces tests sont appliqués, ne s'écartent pas trop de cette loi.
Valeur médiane
La valeur pour laquelle le nombre de mesures inférieures égale le nombre de mesures supérieures est la valeur médiane de la série.Moyenne
La valeur résultant du calcul de la somme des valeurs mesurées, divisée par le nombre de mesures est la valeur moyenne de la série.

m: moyenne d'une série de mesures
xi: valeurs des mesures
n: nombre de valeurs de mesures
σ: écart-type de la série de mesures
Ecart-type "σ"
L'écart-type d'une série est la moyenne des écarts des valeurs mesurées à la moyenne de la série. Puisque les écarts sont tantôt positifs tantôt négatifs, leur moyenne directe est nulle. Pour contourner cela, les écarts à la moyenne sont élevés au carré afin que la valeur soit toujours positive, puis après avoir calculé la moyenne des carrés des écarts, l'écart type est obtenu en extrayant la racine carrée. Ainsi la valeur de l'écart type est cohérente avec la moyenne des écarts.Si la distribution des valeurs suit une loi normale autour de la moyenne:
- 68% des valeurs doivent être comprises entre -1 et +1 écart-type
- 95% entre -2 et +2 écarts-type
- 99,7% entre -3 et +3 écarts-type
Variance
C'est le carré de l'écart type ou encore la moyenne des carrés des écarts des valeurs mesurées à la moyenne de la série. Variance et écart-type sont souvent employés indifféremment pour caractériser la dispersion des mesures.Présentation des résultats de mesure
Histogramme
Représenter une série de mesures sous la seule forme d'une moyenne et d'un écart-type est souvent insuffisant. Le tracé d'un histogramme permet de visualiser la forme de la distribution, symétrique ou non, ou d'identifier des valeurs aberrantes.
- Le nombre de classes est de préférence la valeur entière la plus proche de la racine carrée du nombre total de données; si on dispose de 50 valeurs à représenter, on les répartira en √50 ≈ 7 classes; cette règle n'a rien de contraignant et est seulement destinée à assurer que chaque classe comportera un nombre significatif de valeurs.
- La largeur de chaque classe est déterminée en divisant l'étendue de domaine de mesure (écart entre la valeur mini et la valeur maxi) par le nombre de classes
Le graphe est tracé en portant le nombre d'observation dans chaque classe en fonction de la valeur centrale de la classe.
Capabilité
Les mesures réalisées montrent ce que l'atelier est capable de faire. Ces mesures sont synthétisées par la calcul de la moyenne et de l'écart-type.Le client de l'atelier de production commande un produit avec une spécification; par exemple les sacs doivent peser entre 24,75 et 25,25 kg, la pureté doit être supérieure à 95%, la teneur en telle impureté doit être inférieure à 1%, la granulométrie doit être comprise entre 200 et 500µm ....


Cp: indice de dispersion
Cpk: indice de centrage
m: moyenne des mesures
Ti, Ts: tolérances inférieures et supérieure
σ: écart-type des mesures

- l'indice de dispersion Cp
- l'indice de centrage Cpk
Ces indices supposent que les mesures suivent une distribution normale. Dans ce cas les mesures sont distribuées symétriquement autour de la moyenne, et se répartissent sur six écarts-types.
L'objectif doit être que les indices de dispersion et de centrage soient égaux ou supérieurs à 1,0. Ceci permet d'assurer que la totalité de la production sera comprise entre les limites de la tolérance de fabrication.
Un indice de dispersion inférieur à 1,0 signifie que la dispersion des résultats est plus grande que l'écart des tolérances de fabrication. Une partie de la production sera donc hors de ces limites.
Un indice de centrage inférieur à 1,0, même si l'indice de dispersion est supérieur à 1, signifie qu'une partie de la production sera hors tolérance de fabrication, toujours du même coté.
Carte de controle
Une carte de contrôle est une représentation graphique de l'évolution d'une caractéristique de la production et sa position par rapport aux tolérences de fabrication. C'est une des méthodes importantes du processus de Maîtrise Statistique des Procédés (MSP). Son but est de donner à l'opérateur des limites visuelles pour l'aider à centrer sa production.
Moyenne visée = (Ti +Ts)/2
On calcule un écart type visé tel que la totalité de la production soit comprise entre les tolérences (capabilité = 1).
σ visé = (Ts - Ti)/6
On fixe les limites:
- de surveillance (LS) à moyenne ± 2 σ visé
- de contrôle (LC) à moyenne ± 3 σ visé
Les points mesurés sont placés sur la carte de contrôle au fur et à mesure de leurs détermination.
L'utilisation de la carte de contrôle est la suivante:
- plusieurs points successifs en augmentation ou en diminution indique une dérive du procédé. Une correction doit être apportée aux réglages avant d'atteindre les limites
- plusieurs points successifs (7 à 10) sont situés du même coté de la moyenne indique un déréglage avec décalage de la valeur moyenne
- si un point dépasse la limite de contrôle, une modification du réglage doit être apporté.
Comparaison de séries de mesure
L'atelier de production est amené à traiter une nouvelle matière première, ou bien il utilise un nouveau catalyseur, ou un nouvel équipement, ...; ces circonstances amènent à s'interroger sur les effets de ce changement sur la qualité de production.On voudra alors comparer une série de mesures enregistrées avant le changement, et une nouvelle série de mesures enregistrées après le changement.
On calculera moyenne et écart-type de chacune des séries de mesure, et elles seront sans doute différentes; mais cette différence est -elle significative? Est-elle dûe à la modification effectueée, ou bien est-elle le fruit du hazard? Des tests statistiques permettent de dire si les moyennes et les écarts-type sont significativement différents, et quelle est la probabilité de conclure à tort.
Test de Student
Même si les deux séries de mesures sont issues d'un même lot et donc devraient conduire à des moyennes identiques, en raison de la dispersion naturelle des mesures, il y a une certaine probabilité pour que les moyennes observées soient différentes. Cette probabilité se distribue selon une loi normale. Elle est maximum pour un écart nul entre les moyennes, et diminue pour les écarts de plus en plus importants. Cette probabilité dépend des écarts-type des séries de mesures, et du nombre de mesures.
mA,B: moyenne des séries A et B
t: t de Student
nA,B: nombre de valeurs dans les séries A et B
σA,B: écart-type des séries A et B
ddl: nombre de degrés de liberté
On teste l'hypothèse dite H0, qui considère que les lots sont identiques.
On calcule un paramètre nommé "t" qui est une combinaison de la valeur d'écart entre les moyennes, des écarts-types de mesure de chaque série, et du nombre de mesures impliquées dans chaque série. On calcule également un degré de liberté du système, ddl, qui est fonction du nombre de mesures. Ensuite on cherche dans une table de Student la probabilité p correspondante au couple t, ddl. C'est la probabilité qu'on a d'obtenir un tel écart des moyennes des deux séries de mesures, alors que les lots sur lesquelles elles ont été effectuées sont identiques. Si cette probabilité est faible, on rejète l'hypothèse, et on conclu que les lots sont différents, ou bien que les moyennes sont significativement différentes. Cependant la probabilité p de se tromper subsiste.
Au lieu d'utiliser les tables de Student, si on dispose d'un tableur on peut utiliser les fonctions suivantes:
pour Excel: =TEST.STUDENT(série 1;série 2;2=bilatéral;2=variances identiques)
pour LibreOffice: =TESTSTUDENT(série 1;série 2;2=bilatéral;2=variances identiques)
Test de Welch
C'est une variante du test de Student pour comparer des séries dont les variances sont différentes.
nA,B: nombre de valeurs dans les séries A et B
σA,B: écart-type des séries A et B
ddl: nombre de degrés de liberté
Votre avis est précieux pour améliorer ce site.
Avez-vous trouvé cette page utile?