Avertissement au visiteur!

Outils statistiques

Sommaire de la page:

Usage des statistiques
Statistiques sur les mesures
Incertitude de mesure
Dispersion de mesure
Présentation des résultats de mesure
Capabilité
Carte de controle
Comparaison de séries de mesure
Test de Student
Test de Welch

Voir aussi ...

Usage des statistiques

On trouve dans les civilisations anciennes des traces de collecte d'informations, essentiellement liées aux productions agricoles ou aux échanges de marchandises, mais c'est au XVIIIème siècle, avec le début des systèmes d'assurance, qu'on crée les premières tables statistiques de mortalité.
Le but des statistiques est de:
- représenter une population à partir des caractéristiques d'un échantillon
- évaluer la probabilité de trouver une caractéristique dans un échantillon connaissant la population à laquelle il appartient

Statistiques sur les mesures

Dans l'immence majorité des situations rencontrées dans les activités de procédé, il est procédé à des mesures sur un échantillon, dans le but de connaitre les caractéristiques d'un lot.
C'est ainsi qu'on procèdera à des contrôles de qualité sur un produit fini (échantillonnage, analyse, bulletin d'analyse du lot),
ou à la mesure d'un paramètre opératoire sur une chaîne de production (positionnement d'un capteur dans une tuyauterie, mesure, enregistrement)

Incertitude de mesure

Le résultat obtenu au terme d'un processus de mesure ou d'analyse n'est qu'une estimation de la grandeur mesurée. L'écart entre la valeur obtenue et la valeur réelle est la somme des écarts dûs aux diverses perturbations. C'est l'incertitude sur la mesure.

L'incertitude peut être:

systématique; le plus souvent due à un écart d'étalonnage d'un instrument, qui persistera constament dans le même sens jusqu'à un nouvel étalonnage.
aléatoire; provoquée par les diverses perturbations aléatoires.

Le résultat de la mesure doit être accompagné de son incertitude afin de définir un espace de valeurs dans lequel la valeur réelle doit probablement se trouver: (Y = X ± ΔY)
Un seuil de confiance doit être défini; plus il sera élevé, plus la valeur d'incertude sera importante. Un seuil de confiance à 95% est généralement adopté.

Si une même mesure peut être répétée un grand nombre de fois (n fois), l'incertitude sur la mesure peut être déduite de la distribution des résultats autour de la moyenne. La valeur de l'écart-type est utilisée.

ΔY = σ ⁄ √n pour confiance à 68%

ΔY = 2σ ⁄ √n pour confiance à 95%

Pour une mesure ponctuelle, l'incertitude doit être déduite de la précision des divers équipements utilisés pour obtenir le résultat final.

Si la mesure fait appel à une mesure sur une échelle graduée, avec la plus petite graduation "δ", la lecture donnera avec une égale probabilité les valeurs Y, Y-δ/2 ou Y+δ/2, la demi graduation étant la plus petite précision possible; la dispersion des valeurs suit une loi dite "rectangulaire" ou équiprobable; la moyenne sera Y et l'écart-type est δ ⁄ 2√3.

ΔY = δ ⁄ 2√3 pour confiance à 68%

ΔY = δ ⁄ √3 pour confiance à 95%

Si la mesure fait appel à un équipement dont le constructeur fourni la précision "±δ", la lecture donnera avec une égale probabilité les valeurs Y-δ ou Y+δ; la moyenne sera Y et l'écart-type est δ ⁄ √3.

ΔY = δ ⁄ √3 pour confiance à 68%

ΔY = 2δ ⁄ √3 pour confiance à 95%

Si le résultat de la mesure fait appel à plusieurs mesures combinées par une relation mathématique:

Y = A + B + C + ... → ΔY = √((ΔA)² + (ΔB)² + (ΔC)² + ...)
Y = A × B ⁄ C → ΔY ⁄ Y = √((ΔA ⁄ A)² + (ΔB ⁄ B)² + (ΔC ⁄ C)²)
Y = A^b → ΔY ⁄ Y = b(ΔA ⁄ A )

Dispersion de mesure

Des mesures répétées sur des échantillons supposés identiques ne donneront probablement jamais des valeurs identiques; la cause peut être:
- le lot sur lequel les échantillons sont prélevés n'est pas parfaitement homogène
- l'opérateur effectuant la mesure introduit des erreurs dans le processus de mesure et d'analyse
- l'équipement de mesure est perturbé par des facteurs non identifiés ou non contrôlés (température du laboratoire, tension du réseau électrique, ...)
Répartition dune série de mesures

Ces perturbations peuvent être aléatoires. Leur effet sera alors tantôt orienté dans un sens, tantôt dans un autre. Ils pourront s'additionner ou se retrancher.
Les résultats de mesure se répartissent autour d'une valeur centrale, qu'on considère proche de la valeur vrai.

Répartition suivant une loi normale

Si le nombre de perturbations générant des écarts de résultats est important (>3), et se produisent de manière aléatoire, la fréquence d'apparition des résultats en fonction de la valeur mesurée forme une courbe en cloche dite "courbe de Gauss". La distribution est dite "normale" ou "suit une loi normale":

Les valeurs les plus fréquentes sont proches de la valeur centrale,
plus on s'éloigne de la valeur centrale, et moins de tels résultats sont fréquents

La répartition peut aussi être représentée par une courbe des fréquences cumulées: la proportion des résultats inférieurs à une valeur en fonction de cette valeur. La courbe a une forme en S, allant de 0 à 1 (ou 0 à 100%).

La loi de distribution dite "normale" a une définition mathématique précise, et est l'hypothèse de base de nombreux tests statistiques courants. Pour les utiliser il est toujours bon de vérifier que la population de valeurs sur laquelle ces tests sont appliqués, ne s'écartent pas trop de cette loi.

Valeur médiane

La valeur pour laquelle le nombre de mesures inférieures égale le nombre de mesures supérieures est la valeur médiane de la série.

Moyenne

La valeur résultant du calcul de la somme des valeurs mesurées, divisée par le nombre de mesures est la valeur moyenne de la série.

Statistiques de base:

avec:
m: moyenne d'une série de mesures
x_i: valeurs des mesures
n: nombre de valeurs de mesures
σ: écart-type de la série de mesures

Ecart-type "σ"

L'écart-type d'une série est la moyenne des écarts des valeurs mesurées à la moyenne de la série. Puisque les écarts sont tantôt positifs tantôt négatifs, leur moyenne directe est nulle. Pour contourner cela, les écarts à la moyenne sont élevés au carré afin que la valeur soit toujours positive, puis après avoir calculé la moyenne des carrés des écarts, l'écart type est obtenu en extrayant la racine carrée. Ainsi la valeur de l'écart type est cohérente avec la moyenne des écarts.
Si la distribution des valeurs suit une loi normale autour de la moyenne:
- 68% des valeurs doivent être comprises entre -1 et +1 écart-type
- 95% entre -2 et +2 écarts-type
- 99,7% entre -3 et +3 écarts-type

Variance

C'est le carré de l'écart type ou encore la moyenne des carrés des écarts des valeurs mesurées à la moyenne de la série. Variance et écart-type sont souvent employés indifféremment pour caractériser la dispersion des mesures.

Présentation des résultats de mesure

Histogramme

Représenter une série de mesures sous la seule forme d'une moyenne et d'un écart-type est souvent insuffisant. Le tracé d'un histogramme permet de visualiser la forme de la distribution, symétrique ou non, ou d'identifier des valeurs aberrantes.
Exemple d'histogramme pour représenter une série de mesures

Pour tracer un histogramme, on réparti les données en classes de même largeur:
- Le nombre de classes est de préférence la valeur entière la plus proche de la racine carrée du nombre total de données; si on dispose de 50 valeurs à représenter, on les répartira en √50 ≈ 7 classes; cette règle n'a rien de contraignant et est seulement destinée à assurer que chaque classe comportera un nombre significatif de valeurs.
- La largeur de chaque classe est déterminée en divisant l'étendue de domaine de mesure (écart entre la valeur mini et la valeur maxi) par le nombre de classes
Le graphe est tracé en portant le nombre d'observation dans chaque classe en fonction de la valeur centrale de la classe.

Capabilité

Les mesures réalisées montrent ce que l'atelier est capable de faire. Ces mesures sont synthétisées par la calcul de la moyenne et de l'écart-type.
Le client de l'atelier de production commande un produit avec une spécification; par exemple les sacs doivent peser entre 24,75 et 25,25 kg, la pureté doit être supérieure à 95%, la teneur en telle impureté doit être inférieure à 1%, la granulométrie doit être comprise entre 200 et 500µm ....

Capabilité d'un atelier:

avec:
Cp: indice de dispersion
Cpk: indice de centrage
m: moyenne des mesures
Ti, Ts: tolérances inférieures et supérieure
σ: écart-type des mesures

La capabilité désigne la capacité qu'a l'atelier à satisfaire la spécification demandée par le client. Deux indices sont utilisés:
- l'indice de dispersion Cp
- l'indice de centrage Cpk
Ces indices supposent que les mesures suivent une distribution normale. Dans ce cas les mesures sont distribuées symétriquement autour de la moyenne, et se répartissent sur six écarts-types.
L'objectif doit être que les indices de dispersion et de centrage soient égaux ou supérieurs à 1,0. Ceci permet d'assurer que la totalité de la production sera comprise entre les limites de la tolérance de fabrication.
Un indice de dispersion inférieur à 1,0 signifie que la dispersion des résultats est plus grande que l'écart des tolérances de fabrication. Une partie de la production sera donc hors de ces limites.
Un indice de centrage inférieur à 1,0, même si l'indice de dispersion est supérieur à 1, signifie qu'une partie de la production sera hors tolérance de fabrication, toujours du même coté.

Carte de controle

Une carte de contrôle est une représentation graphique de l'évolution d'une caractéristique de la production et sa position par rapport aux tolérences de fabrication. C'est une des méthodes importantes du processus de Maîtrise Statistique des Procédés (MSP). Son but est de donner à l'opérateur des limites visuelles pour l'aider à centrer sa production.
Carte de contrôle

La moyenne visée ainsi que les limites de surveillance et de contrôle sont fixées à partir des tolérences de fabrication.
Moyenne visée = (Ti +Ts)/2
On calcule un écart type visé tel que la totalité de la production soit comprise entre les tolérences (capabilité = 1).
σ visé = (Ts - Ti)/6
On fixe les limites:
- de surveillance (LS) à moyenne ± 2 σ visé
- de contrôle (LC) à moyenne ± 3 σ visé
Les points mesurés sont placés sur la carte de contrôle au fur et à mesure de leurs détermination.
L'utilisation de la carte de contrôle est la suivante:
- plusieurs points successifs en augmentation ou en diminution indique une dérive du procédé. Une correction doit être apportée aux réglages avant d'atteindre les limites
- plusieurs points successifs (7 à 10) sont situés du même coté de la moyenne indique un déréglage avec décalage de la valeur moyenne
- si un point dépasse la limite de contrôle, une modification du réglage doit être apporté.

Comparaison de séries de mesure

L'atelier de production est amené à traiter une nouvelle matière première, ou bien il utilise un nouveau catalyseur, ou un nouvel équipement, ...; ces circonstances amènent à s'interroger sur les effets de ce changement sur la qualité de production.
On voudra alors comparer une série de mesures enregistrées avant le changement, et une nouvelle série de mesures enregistrées après le changement.
On calculera moyenne et écart-type de chacune des séries de mesure, et elles seront sans doute différentes; mais cette différence est -elle significative? Est-elle dûe à la modification effectueée, ou bien est-elle le fruit du hazard? Des tests statistiques permettent de dire si les moyennes et les écarts-type sont significativement différents, et quelle est la probabilité de conclure à tort.

Test de Student

Même si les deux séries de mesures sont issues d'un même lot et donc devraient conduire à des moyennes identiques, en raison de la dispersion naturelle des mesures, il y a une certaine probabilité pour que les moyennes observées soient différentes. Cette probabilité se distribue selon une loi normale. Elle est maximum pour un écart nul entre les moyennes, et diminue pour les écarts de plus en plus importants. Cette probabilité dépend des écarts-type des séries de mesures, et du nombre de mesures.

Test de Student:

avec:
m_A,B: moyenne des séries A et B
t: t de Student
n_A,B: nombre de valeurs dans les séries A et B
σ_A,B: écart-type des séries A et B
ddl: nombre de degrés de liberté

Procédure de test:
On teste l'hypothèse dite H₀, qui considère que les lots sont identiques.
On calcule un paramètre nommé "t" qui est une combinaison de la valeur d'écart entre les moyennes, des écarts-types de mesure de chaque série, et du nombre de mesures impliquées dans chaque série. On calcule également un degré de liberté du système, ddl, qui est fonction du nombre de mesures. Ensuite on cherche dans une table de Student la probabilité p correspondante au couple t, ddl. C'est la probabilité qu'on a d'obtenir un tel écart des moyennes des deux séries de mesures, alors que les lots sur lesquelles elles ont été effectuées sont identiques. Si cette probabilité est faible, on rejète l'hypothèse, et on conclu que les lots sont différents, ou bien que les moyennes sont significativement différentes. Cependant la probabilité p de se tromper subsiste.
Au lieu d'utiliser les tables de Student, si on dispose d'un tableur on peut utiliser les fonctions suivantes:
pour Excel: =TEST.STUDENT(série 1;série 2;2=bilatéral;2=variances identiques)
pour LibreOffice: =TESTSTUDENT(série 1;série 2;2=bilatéral;2=variances identiques)

Test de Welch

C'est une variante du test de Student pour comparer des séries dont les variances sont différentes.

Test de Student-Welch:

Calcul du nombre de degrés de liberté pour le test de Welch

avec:
n_A,B: nombre de valeurs dans les séries A et B
σ_A,B: écart-type des séries A et B
ddl: nombre de degrés de liberté

Ce test n'est pertinent que si la distribution des mesures suit une loi normale.