La corrélation est une statistique qui caractérise l’existence ou
l’absence d’une relation entre des valeurs de mesures de variables
différentes.
Ces variables peuvent être des paramètres opératoires, des propriétés
ou caractéristiques, ....
La meilleure façon de décrire la relation unissant deux
variables est de porter les points sur un graphique dit en "nuage de
points" (V2 = f(V1)).Ce diagramme renferme toute
l'information sur le comportement conjoint des deux variables.
La relation entre deux variables peut suivre une loi linéaire mais
aussi de toutes autres formes (logarithmique, exponentielle,
quadratique, ...). Pour une raison de simplicité de calcul on recherche
le plus souvent une relation linéaire.
Si un lien linéaire (pas nécessairement parfaitement
linéaire) existe entre ces deux variables, on souhaitera le quantifier
à l'aide d'une mesure numérique. Celle-ci permettra d'établir des
comparaisons de la force des liens linéaires unissant diverses paires
de variables.
La valeur qui permet de quantifier la force de ce lien linéaire est le
coefficient de corrélation "r" ou "R".
Le coefficient de corrélation permet de quantifier cette relation
grâce à:
- le signe de la corrélation (positive et
négative),
- le degré de corrélation, qui se mesure sur une échelle
de 0 à 1. Zéro signifie une totale absence de corrélation entre les
deux mesures, alors que 1 signifie une corrélation parfaite.
Si la corrélation est parfaite, connaître la valeur d’une mesure nous
permet de connaître exactement la valeur de l’autre.
Coefficient
de corrélation et covariance
On définit le coefficient de corrélation r par:
r = σxy
/ (σx σy)
où:
σ
x est l'écart-type de la variable X
σ
y est l'écart-type de la variable Y
et σ
xy est la covariance entre les variables X
et Y
Le coefficient de corrélation est parfois remplacé par le coefficient
de détermination qui est le carré du coefficient de
corrélation; il est noté r² ou R². Il varie lui aussi de 0 à 1, mais il
est toujours positif.
La variance mesure la dispersion moyenne autour de la moyenne
de la variable. Sommer les écarts à la moyenne conduira toujours à une
valeur nulle, puisque les écarts positifs équilibrent les écarts
négatifs; on somme donc les carrés des écarts pour calculer la
variance. L'écart-type (σ) en est la racine carrée. La covariance
mesure si les dispersions des deux variables autour de leurs moyennes
se produisent indépendamment (covariance nulle) ou si elles sont
liées (positivement ou négativement).
En fait, covariance et corrélation sont deux notions soeurs.
Toutefois, alors que la covariance possède des unités et,
conséquemment, varie selon le choix des unités de mesure, la
corrélation, elle, est sans unité, et est donc invariable face au
choix des unités de mesure. Ainsi, la covariance est exprimée en
unités qui varient en fonction des données, et n'est pas convertie sur
une échelle standardisée de -1 à +1. Comme les données ne sont pas
standardisées, vous ne pouvez pas utiliser les statistiques de la
covariance pour évaluer l'importance de la relation linéaire.
La covariance est une mesure de la variance présente dans deux
échantillons simultanément. L’idée étant que si les deux
échantillons covarient, la covariance devrait être grande, alors que
s’ils ne covarient pas, la covariance devrait être modérément faible.
L'absence de corrélation n'implique pas l'indépendance entre les
variables. Elle implique uniquement l'absence de relation linéaire
entre celles-ci. Par contre, l'indépendance entre les variables
implique l'absence de corrélation.
L’existence d’une corrélation n’implique pas forcément que la variation
d’une des deux variables est le résultat de la variation de l’autre
(cause à effet). Il se peut, par exemple qu’il y ait une troisième
variable non prise en compte qui soit à l’origine de la variation,
directement ou indirectement des deux autres. Une variable
particulièrement pernicieuse de ce point de vue est le temps. A peu
près tout ce qu’on étudie en biologie est variable dans le temps. Et
donc, bien souvent, il existe des corrélations entre des variables qui
n’ont rien à voir l’une avec l’autre lorsqu’elles sont toutes deux
mesurées à différents moments, ce qu’on appelle des séries temporelles
ou chronologiques.
Interprétation
de la corrélation
Une corrélation exprime une évolution parallèle de deux variables.
Identifier une telle corrélation est utile pour:
- substituer la mesure d'une propriété par une autre mesure
plus aisée à réaliser
- anticiper un résultat final en mesurant une propriété d'une
matière première
- identifier un mécanisme en mettant en évidence des
comportements parallèles
- ...
On peut être tenté de voir dans certaines corrélations une relation de
cause à effet. La variation d'une des variables pourrait être
responsable de la variation de l'autre.
"Corrélation n'est pas raison"
De nombreuses situations conduisent à des corrélations contre
intuitives ou erronées:
- si le système observé est régulé, la corrélation traduira
l'action du régulateur au lieu du phénomène physique supposé. Par
exemple l'observation de la corrélation entre le débit d'un fluide
chauffant ajusté par un régulateur sur la température du fluide
chauffé fera apparaitre que la température est plus élevée
lorsque le débit du fluide chauffant est faible.
- les variables corrélées peuvent être toutes deux sous
l'influence d'une troisième non mesurée ou non prise en compte. C'est
ainsi que des variables mesurées simultanément peuvent montrer une
relation alors qu'elles sont toutes deux seulement fonction du temps
Régression
linéaire entre deux variables
Une fois constatée l'existence d'un lien linéaire entre deux
variables, on peut chercher à décrire l'équation de la droite ayant
le meilleur ajustement possible au nuage de points.
Contrairement à la corrélation, qui est totalement
symétrique, pour les besoins de la régression, on doit définir une
variable "à expliquer" dite "dépendante" d'une variable "explicative"
dite "indépendante", selon un modèle sous-jacent de la forme suivante:
yi = b0
+ b1Xi + ei
où:
- yi est la ième
observation de la variable à expliquer,
- xi est la ième
observation de la variable explicative,
- ei est le résidu entre la droite
(estimée) et la valeur réellement observée (yi).
Dans cette équation, b
0 et b
1
représentent les paramètres (estimés) de la droite donnant le
meilleur ajustement.
Le meilleur ajustement est obtenu lorsque la somme des carrés des
écarts entre la valeur réelle et la valeur prédite de la variable
expliquée (y), pour chaque valeur de la variable explicative (x) est la
plus faible; c'est la droite des
moindres
carrés.
Régression
linéaire multiple
La régression linéaire peut être généralisée pour chercher à expliquer
une variable Y par un ensemble de variables X
1, X
2,
...X
p.
Soit une variable Y que l'on veut relier à p variables X par le
modèle linéaire suivant:
Y = β0 + β1X1
+ β2X2 + .....+ βp
Xp + ε
L'équation d'une droite fait appel à deux paramètres. Ils sont
déterminés d'après les coordonnées de deux points sur un graphe.
De même, l'équation d'une droite de régression simple nécessitera un
minimum de deux points expérimentaux représentants deux points
de fonctionnement du système.
Si seulement deux points sont utilisés, la droite de régression passera
nécessairement par ces deux points. Un nombre supérieur de points
expérimentaux est bien sûr hautement souhaitable. A cause des aléas des
incertitudes de mesures la droite de régression ne pourra sans doute
pas passer par tous les points, mais passera néanmoins aussi près que
possible. C'est la droite des moindres carrés (des écarts).
Une régression linéaire multiple nécessitera à minima
autant de points expérimentaux qu'il y a de paramètres à déterminer
dans l'équation visée. Un nombre supérieur de points expérimentaux est
toujours hautement souhaitable.
Pour qu'une régression multiple soit pertinente, il faut
veiller à:
- l'indépendance des variables explicatives: les variables
explicatives ne doivent pas être corrélées entre elles.
- l'homogènéïté de la variance (homoscédasticité): l'erreur
sur la prédiction est sensiblement la même quelles que soit les valeurs
des variables explicatives
- l'alignement effectif des points sur une droite
Une régression linéaire multiple peut être menée sur des
données archivées recueillies au cours de la vie naturelle d'un
processus, ou à l'occasion d'expérimentations ciblées, programmées et
maîtrisées.
Les données issues de la vie naturelle du procédé sont souvent
affectées de nombreux travers:
- domaine de variation limité des paramètres
- variations chronologiquement parallèles
- corrélation forte entre les paramètres
Les informations issues d'expérimentations maîtrisées seront
souvent plus riches. On pourra choisir les expérimentations à réaliser
selon une méthode de plan d'expérience.
Sélection
de la meilleure régression
Il n'y a pas de bonne ou de mauvaise régression, il n'y a que des
régressions qui représentent imparfaitement les variations de la
variable à expliquer.
Une variable peut être mieux expliquée par une variable explicative que
par une autre.
Une régression logarithmique peut être plus efficace qu'une régression
linéaire.
Une régression multiple n'est justifiée que si elle représente mieux
qu'une régression simple les variations de la variable expliquée.
Pour comparer les différentes régressions possibles, on
analyse l'importance et la répartition du résidu. Point par point on
peut calculer l'écart entre la valeur mesurée et la valeur calculée.
L'ensemble de ces écarts constitue une population dont:
- la moyenne est proche de zéro
- la dispersion est caractérisée par un écart-type
- la répartition peut être comparée à une distribution
suivant une "loi normale".
On privilègiera la régression conduisant au plus faible résidu
(écart-type le plus faible), mais aussi celle dont la population de
résidus suis au plus près une loi normale.
Si la distribution des écarts s'écarte sensiblement d'une distribution
normale, on peut légitimement soupçonner que la cause de ces écarts
n'intervient pas au hazard et donc peut être une variable manipulée
qu'il est utile de prendre en compte dans la régression..
Calcul
dans les tableurs
Les fonctions à utiliser sont identiques pour les trois tableurs les
plus répandus (LibreOffice, OpenOffice ou Excel)
Le coefficient de corrélation peut être
calculé:
COEFFICIENT.CORRELATION("série 1";
"série 2")
faire tracer la droite de régression puis demander l'affichage du
coefficient de détermination R² (c'est le carré du coefficient de
corrélation)
Les paramètres d'une droite de régression linéaire
simple sont calculés par les fonctions:
ORDONNEE.ORIGINE("série Y"; "série X")
et
PENTE("série Y"; "série X")
Les paramètres d'une régression linéaire multiple
sont calculées par la fonction:
DROITEREG("série Y"; "séries X")
La fréquence d'apparition selon une loi "normale"
de valeurs comprisent entre deux bornes est calculée est calculée en
faisant la différence des fonctions de répartition de la loi normale
pour les deux bornes:
LOI.NORMALE("borne-sup";"moyenne";"écart-type";
1) - LOI.NORMALE("borne-inf";"moyenne";"écart-type"; 1)
Représentations
graphiques
La représentation graphique d'une régression multiple est
possible jusqu'à deux variables explicatives en traçant une série de
droites de régession paramètrées.