Usage
des statistiques
On
trouve dans les civilisations anciennes des traces de collecte
d'informations, essentiellement liées aux productions agricoles ou aux
échanges de marchandises, mais c'est au XVIIIème siècle, avec le début
des systèmes d'assurance, qu'on crée les premières tables statistiques
de mortalité.
Le but des statistiques est de:
- représenter une population à partir des caractéristiques
d'un échantillon
-
évaluer la probabilité de trouver une caractéristique dans un
échantillon connaissant la population à laquelle il appartient
Statistiques
sur les mesures
Dans
l'immence majorité des situations rencontrées dans les activités de
procédé, il est procédé à des mesures sur un échantillon, dans le but
de connaitre les caractéristiques d'un lot.
C'est ainsi qu'on
procèdera à des contrôles de qualité sur un produit fini
(échantillonnage, analyse, bulletin d'analyse du lot),
ou à la
mesure d'un paramètre opératoire sur une chaîne de production
(positionnement d'un capteur dans une tuyauterie, mesure,
enregistrement)
Incertitude
de mesure
Le résultat obtenu au terme d'un processus de mesure ou d'analyse n'est
qu'une estimation de la grandeur mesurée. L'écart entre la valeur
obtenue et la valeur réelle est la somme des écarts dûs aux diverses
perturbations. C'est l'incertitude sur la mesure.
L'incertitude peut être:
- systématique; le plus souvent due à un écart d'étalonnage
d'un instrument, qui persistera constament dans le même sens jusqu'à un
nouvel étalonnage.
- aléatoire; provoquée par les diverses perturbations
aléatoires.
Le résultat de la mesure doit être accompagné de son incertitude afin
de définir un espace de valeurs dans lequel la valeur réelle doit
probablement se trouver:
(Y = X ±
ΔY)
Un seuil de confiance doit être défini; plus il sera élevé, plus la
valeur d'incertude sera importante. Un seuil de confiance à 95% est
généralement adopté.
Si une même mesure peut être répétée un grand nombre de fois
(n fois), l'incertitude sur la mesure peut être déduite de la
distribution des résultats autour de la moyenne. La valeur de
l'écart-type est utilisée.
ΔY = σ ⁄ √n
pour confiance à 68%
ΔY = 2σ ⁄ √n
pour confiance à 95%
Pour une mesure ponctuelle, l'incertitude doit être déduite de la
précision des divers équipements utilisés pour obtenir le résultat
final.
Si la mesure fait appel à une mesure sur une échelle graduée, avec la
plus petite graduation "δ", la lecture donnera avec une égale
probabilité les valeurs Y, Y-δ/2 ou Y+δ/2, la demi graduation étant la
plus petite précision possible; la dispersion des valeurs suit une loi
dite "rectangulaire" ou équiprobable; la moyenne sera Y et l'écart-type
est δ ⁄
2√3.
ΔY = δ ⁄
2√3 pour confiance à 68%
ΔY = δ ⁄ √3
pour confiance à 95%
Si la mesure fait appel à un équipement dont le constructeur
fourni la précision "±δ", la lecture donnera avec une égale probabilité les valeurs Y-δ ou Y+δ; la moyenne sera Y et l'écart-type est δ ⁄ √3.
ΔY = δ ⁄ √3
pour confiance à 68%
ΔY = 2δ ⁄ √3
pour confiance à 95%
Si le résultat de la mesure fait appel à plusieurs mesures combinées par une relation mathématique:
- Y = A + B + C + ... → ΔY = √((ΔA)² + (ΔB)² + (ΔC)² + ...)
- Y = A × B ⁄ C → ΔY ⁄ Y = √((ΔA ⁄ A)² + (ΔB ⁄ B)² + (ΔC ⁄ C)²)
- Y = Ab → ΔY ⁄ Y =
b(ΔA ⁄ A )
Dispersion
de mesure
Des
mesures répétées sur des échantillons supposés identiques ne donneront
probablement jamais des valeurs identiques; la cause peut être:
- le lot sur lequel les échantillons sont prélevés n'est pas
parfaitement homogène
- l'opérateur effectuant la mesure introduit des
erreurs dans
le processus de mesure et d'analyse
-
l'équipement de mesure est perturbé par des facteurs non identifiés ou
non contrôlés (température du laboratoire, tension du réseau
électrique, ...)
Ces perturbations
peuvent
être aléatoires. Leur
effet sera alors tantôt orienté dans un sens, tantôt dans un autre. Ils
pourront s'additionner ou se retrancher.
Les résultats de mesure se répartissent autour d'une valeur centrale,
qu'on considère proche de la valeur vrai.
Répartition suivant une loi normale
Si le nombre de perturbations générant des écarts de résultats est
important (>3), et se produisent de manière aléatoire, la
fréquence d'apparition des résultats en fonction de la valeur mesurée
forme une courbe en cloche dite "courbe de Gauss". La distribution est
dite "normale" ou "suit une loi normale":
- Les valeurs les plus fréquentes sont proches de la valeur
centrale,
- plus on s'éloigne de la valeur centrale, et moins de tels
résultats sont fréquents
La répartition peut aussi être représentée par une courbe des
fréquences cumulées: la proportion des résultats inférieurs à une
valeur en fonction de cette valeur. La courbe a une forme en S, allant
de 0 à 1 (ou 0 à 100%).
La loi de distribution dite "normale" a une définition
mathématique précise, et est l'hypothèse de base de nombreux tests
statistiques courants. Pour les utiliser il est toujours bon de
vérifier que la population de valeurs sur laquelle ces tests sont
appliqués, ne s'écartent pas trop de cette loi.
Valeur médiane
La valeur pour laquelle le nombre de mesures inférieures égale le
nombre
de mesures supérieures est la valeur médiane de la série.
Moyenne
La
valeur résultant du calcul de la somme des valeurs mesurées, divisée
par le nombre de mesures est la valeur moyenne de la série.
Ecart-type "σ"
L'écart-type
d'une série est la moyenne des écarts des valeurs mesurées à la moyenne
de la série. Puisque les écarts sont tantôt positifs tantôt négatifs,
leur moyenne directe est nulle. Pour contourner cela, les écarts à la
moyenne sont élevés au carré afin que la valeur soit toujours positive,
puis après avoir calculé la moyenne des carrés des écarts, l'écart type
est obtenu en extrayant la racine carrée. Ainsi la valeur de l'écart
type est cohérente avec la moyenne des écarts.
Si la distribution des valeurs suit une loi normale autour de la
moyenne:
- 68% des valeurs doivent être comprises entre -1 et +1
écart-type
- 95% entre -2 et +2 écarts-type
- 99,7% entre -3 et +3 écarts-type
Variance
C'est
le carré de l'écart type ou encore la moyenne des carrés des écarts des
valeurs mesurées à la moyenne de la série. Variance et écart-type sont
souvent employés indifféremment pour caractériser la dispersion des
mesures.
Présentation
des résultats de mesure
Histogramme
Représenter
une série de mesures sous la seule forme d'une moyenne et d'un
écart-type
est souvent insuffisant. Le tracé d'un histogramme permet de visualiser
la forme de la distribution, symétrique ou non, ou d'identifier des
valeurs aberrantes.
Pour
tracer un histogramme, on réparti les données en classes de même
largeur:
- Le nombre de classes est de préférence la valeur entière la
plus proche de la racine carrée du nombre total de données; si on
dispose de 50 valeurs à représenter, on les répartira en √50 ≈
7 classes; cette règle n'a rien de contraignant et est seulement
destinée à assurer que chaque classe comportera un nombre significatif
de valeurs.
-
La largeur de chaque classe est déterminée en divisant l'étendue de
domaine de mesure (écart entre la valeur mini et la valeur maxi) par le
nombre de classes
Le graphe est tracé en portant le nombre d'observation dans chaque
classe en fonction de la valeur centrale de la classe.
Capabilité
Les
mesures réalisées montrent ce que l'atelier est capable de faire. Ces
mesures sont synthétisées par la calcul de la moyenne et de
l'écart-type.
Le client de l'atelier de production commande un
produit avec une spécification; par exemple les sacs doivent peser
entre 24,75 et 25,25
kg, la pureté doit être supérieure à 95%, la teneur en telle impureté
doit être inférieure à 1%, la granulométrie doit être comprise entre
200 et 500µm ....
La
capabilité désigne la capacité
qu'a l'atelier à satisfaire la spécification demandée par le client.
Deux indices sont utilisés:
- l'indice de dispersion Cp
- l'indice de centrage Cpk
Ces
indices supposent que les mesures suivent une distribution normale.
Dans ce cas les mesures sont distribuées symétriquement autour de la
moyenne, et se répartissent sur six écarts-types.
L'objectif doit
être que les indices de dispersion et de centrage soient égaux ou
supérieurs à 1,0. Ceci permet d'assurer que la totalité de la
production sera comprise entre les limites de la tolérance de
fabrication.
Un indice de dispersion inférieur à 1,0 signifie que la
dispersion des résultats est plus grande que l'écart des tolérances de
fabrication. Une partie de la production sera donc hors de ces limites.
Un
indice de centrage inférieur à 1,0, même si l'indice de dispersion est
supérieur à 1, signifie qu'une partie de la production sera hors
tolérance de fabrication, toujours du même coté.
Carte de
controle
Une carte de contrôle est une représentation graphique de l'évolution
d'une caractéristique de la production et sa position par rapport aux
tolérences de fabrication. C'est une des méthodes importantes du
processus de Maîtrise Statistique des Procédés (MSP). Son but est de
donner à l'opérateur
des limites visuelles pour l'aider à centrer sa production.
La moyenne visée ainsi que les
limites de surveillance et de contrôle
sont fixées à partir des tolérences de fabrication.
Moyenne visée = (Ti +Ts)/2
On calcule un écart type visé tel que la totalité de la production soit
comprise entre les tolérences (capabilité = 1).
σ visé = (Ts - Ti)/6
On fixe les limites:
- de surveillance (LS) à moyenne ± 2 σ visé
- de contrôle (LC) à moyenne ± 3 σ visé
Les points mesurés sont placés sur la carte de contrôle au fur et à
mesure de leurs détermination.
L'utilisation de la carte de contrôle est la suivante:
-
plusieurs points successifs en augmentation ou en diminution indique
une
dérive du procédé. Une correction doit être apportée aux réglages avant
d'atteindre les limites
- plusieurs points successifs (7 à 10) sont
situés du même coté de la moyenne indique un déréglage avec décalage de
la valeur moyenne
- si un point dépasse la limite de contrôle, une modification
du réglage doit être apporté.
Comparaison
de séries de mesure
L'atelier
de production est amené à traiter une nouvelle matière première, ou
bien il utilise un nouveau catalyseur, ou un nouvel équipement, ...;
ces circonstances amènent à s'interroger sur les effets de ce
changement
sur la qualité de production.
On voudra alors comparer une série de
mesures enregistrées avant le changement, et une nouvelle série de
mesures enregistrées après le changement.
On
calculera moyenne et
écart-type de chacune des séries de mesure, et elles seront
sans doute différentes; mais cette différence est -elle significative?
Est-elle dûe à la modification effectueée, ou bien est-elle le fruit du
hazard? Des tests
statistiques permettent de dire si les moyennes et les écarts-type sont
significativement différents, et quelle est la probabilité de conclure
à tort.
Test de
Student
Même
si les deux séries de mesures sont issues d'un même lot et donc
devraient conduire à des moyennes identiques, en raison de la
dispersion naturelle des mesures, il y a une certaine probabilité pour
que les moyennes observées soient différentes. Cette probabilité se
distribue selon une loi normale. Elle est maximum pour un écart nul
entre les moyennes, et diminue pour les écarts de plus en plus
importants. Cette probabilité dépend des écarts-type des séries de
mesures, et du nombre de mesures.
Procédure de test:
On teste l'hypothèse dite
H0, qui considère que
les lots sont identiques.
On
calcule un paramètre nommé "t" qui est une combinaison de la valeur
d'écart entre les moyennes, des écarts-types de mesure de chaque série,
et du nombre de mesures impliquées dans chaque série. On calcule
également un degré de liberté du système, ddl, qui est fonction du
nombre de mesures. Ensuite on cherche dans une table de Student la
probabilité
p
correspondante au couple t, ddl. C'est la probabilité
qu'on a d'obtenir un tel écart des moyennes des deux séries de mesures,
alors que les lots sur lesquelles elles ont été effectuées sont
identiques. Si cette probabilité est faible, on rejète l'hypothèse, et
on conclu que les lots sont différents, ou bien que les moyennes sont
significativement différentes. Cependant la probabilité p de se tromper
subsiste.
Au lieu d'utiliser les tables de Student, si on dispose d'un
tableur on peut utiliser les fonctions suivantes:
pour Excel: =TEST.STUDENT(série 1;série
2;2=bilatéral;2=variances identiques)
pour LibreOffice: =TESTSTUDENT(série
1;série 2;2=bilatéral;2=variances identiques)
Test de Welch
C'est une
variante du test de Student pour comparer des séries dont les variances
sont différentes.
Ce test n'est pertinent que si la distribution des
mesures suit une loi normale.