Corrélations et régressions
Aller au contenu principal Accéder aux Rubriques
Avertissement au visiteur! × Les informations contenues dans ces pages se veulent aussi exactes que possible et vous sont proposées en toute bonne foi. Cependant leur caractère très général fait qu'elles peuvent être inappropriée dans une situation particulière. Aussi toute application, choix ou décision qui en découlerait doit impérativement être validé par un expert compétent.

Corrélations et régressions



Corrélation entre deux variables

La corrélation est une statistique qui caractérise l’existence ou l’absence d’une relation entre des valeurs de mesures de variables différentes.
Ces variables peuvent être des paramètres opératoires, des propriétés ou caractéristiques, ....

La meilleure façon de décrire la relation unissant deux variables est de porter les points sur un graphique dit en "nuage de points" (V2 = f(V1)).représentation graphique en nuage de pointsCe diagramme renferme toute l'information sur le comportement conjoint des deux variables.
La relation entre deux variables peut suivre une loi linéaire mais aussi de toutes autres formes (logarithmique, exponentielle, quadratique, ...). Pour une raison de simplicité de calcul on recherche le plus souvent une relation linéaire.

Si un lien linéaire (pas nécessairement parfaitement linéaire) existe entre ces deux variables, on souhaitera le quantifier à l'aide d'une mesure numérique. Celle-ci permettra d'établir des comparaisons de la force des liens linéaires unissant diverses paires de variables.

La valeur qui permet de quantifier la force de ce lien linéaire est le coefficient de corrélation "r" ou "R".
Le coefficient de corrélation permet de quantifier cette relation grâce à:
  • le signe de la corrélation (positive et négative), 
  • le degré de corrélation, qui se mesure sur une échelle de 0 à 1. Zéro signifie une totale absence de corrélation entre les deux mesures, alors que 1 signifie une corrélation parfaite.
Si la corrélation est parfaite, connaître la valeur d’une mesure nous permet de connaître exactement la valeur de l’autre.

Coefficient de corrélation et covariance

Coefficient de corrélation linéaire:
faire un zoom sur l'équation Pour afficher une version de meilleure qualité et plus accessible aux assistants de lecture
On définit le coefficient de corrélation r par:

r = σxy / (σx σy)

où:
σx est l'écart-type de la variable X
σy est l'écart-type de la variable Y
et σxy est la covariance entre les variables X et Y


Le coefficient de corrélation est parfois remplacé par le coefficient de détermination qui est le carré du coefficient de corrélation; il est noté r² ou R². Il varie lui aussi de 0 à 1, mais il est toujours positif.

La variance mesure la dispersion moyenne autour de la moyenne de la variable. Sommer les écarts à la moyenne conduira toujours à une valeur nulle, puisque les écarts positifs équilibrent les écarts négatifs; on somme donc les carrés des écarts pour calculer la variance. L'écart-type (σ) en est la racine carrée. La covariance mesure si les dispersions des deux variables autour de leurs moyennes se produisent indépendamment (covariance nulle) ou si elles sont liées (positivement ou négativement).

En fait, covariance et corrélation sont deux notions soeurs. Toutefois, alors que la covariance possède des unités et, conséquemment, varie selon le choix des unités de mesure, la corrélation, elle, est sans unité, et est donc invariable face au choix des unités de mesure. Ainsi, la covariance est exprimée en unités qui varient en fonction des données, et n'est pas convertie sur une échelle standardisée de -1 à +1. Comme les données ne sont pas standardisées, vous ne pouvez pas utiliser les statistiques de la covariance pour évaluer l'importance de la relation linéaire.

La covariance est une mesure de la variance présente dans deux échantillons simultanément. L’idée étant que si les deux échantillons covarient, la covariance devrait être grande, alors que s’ils ne covarient pas, la covariance devrait être modérément faible.
L'absence de corrélation n'implique pas l'indépendance entre les variables. Elle implique uniquement l'absence de relation linéaire entre celles-ci. Par contre, l'indépendance entre les variables implique l'absence de corrélation.
L’existence d’une corrélation n’implique pas forcément que la variation d’une des deux variables est le résultat de la variation de l’autre (cause à effet). Il se peut, par exemple qu’il y ait une troisième variable non prise en compte qui soit à l’origine de la variation, directement ou indirectement des deux autres. Une variable particulièrement pernicieuse de ce point de vue est le temps. A peu près tout ce qu’on étudie en biologie est variable dans le temps. Et donc, bien souvent, il existe des corrélations entre des variables qui n’ont rien à voir l’une avec l’autre lorsqu’elles sont toutes deux mesurées à différents moments, ce qu’on appelle des séries temporelles ou chronologiques.

Interprétation de la corrélation

Une corrélation exprime une évolution parallèle de deux variables. Identifier une telle corrélation est utile pour:
  • substituer la mesure d'une propriété par une autre mesure plus aisée à réaliser
  • anticiper un résultat final en mesurant une propriété d'une matière première
  • identifier un mécanisme en mettant en évidence des comportements parallèles
  • ...
On peut être tenté de voir dans certaines corrélations une relation de cause à effet. La variation d'une des variables pourrait être responsable de la variation de l'autre.

"Corrélation n'est pas raison"

De nombreuses situations conduisent à des corrélations contre intuitives ou erronées:
  • si le système observé est régulé, la corrélation traduira l'action du régulateur au lieu du phénomène physique supposé. Par exemple l'observation de la corrélation entre le débit d'un fluide chauffant ajusté par un régulateur sur la température du fluide chauffé fera apparaitre que la température est plus élevée lorsque le débit du fluide chauffant est faible.
  • les variables corrélées peuvent être toutes deux sous l'influence d'une troisième non mesurée ou non prise en compte. C'est ainsi que des variables mesurées simultanément peuvent montrer une relation alors qu'elles sont toutes deux seulement fonction du temps

Régression linéaire entre deux variables

Une fois constatée l'existence d'un lien linéaire entre deux variables, on peut chercher à décrire l'équation de la droite ayant le meilleur ajustement possible au nuage de points.

Contrairement à la corrélation, qui est totalement symétrique, pour les besoins de la régression, on doit définir une variable "à expliquer" dite "dépendante" d'une variable "explicative" dite "indépendante", selon un modèle sous-jacent de la forme suivante:

yi = b0 + b1Xi + ei

où:
  • yi est la ième observation de la variable à expliquer,
  • xi est la ième observation de la variable explicative,
  • ei est le résidu entre la droite (estimée) et la valeur réellement observée (yi).
Dans cette équation, b0 et b1 représentent les paramètres (estimés) de la droite donnant le meilleur ajustement.
Le meilleur ajustement est obtenu lorsque la somme des carrés des écarts entre la valeur réelle et la valeur prédite de la variable expliquée (y), pour chaque valeur de la variable explicative (x) est la plus faible; c'est la droite des moindres carrés.

Régression linéaire multiple

La régression linéaire peut être généralisée pour chercher à expliquer une variable Y par un ensemble de variables X1, X2, ...Xp.
Soit une variable Y que l'on veut relier à p variables X par le modèle linéaire suivant:

Y = β0 + β1X1 + β2X2 + .....+ βp Xp + ε

L'équation d'une droite fait appel à deux paramètres. Ils sont déterminés d'après les coordonnées de deux points sur un graphe.
De même, l'équation d'une droite de régression simple nécessitera un minimum de deux points expérimentaux représentants deux points de fonctionnement du système.
Si seulement deux points sont utilisés, la droite de régression passera nécessairement par ces deux points. Un nombre supérieur de points expérimentaux est bien sûr hautement souhaitable. A cause des aléas des incertitudes de mesures la droite de régression ne pourra sans doute pas passer par tous les points, mais passera néanmoins aussi près que possible. C'est la droite des moindres carrés (des écarts).

Une régression linéaire multiple nécessitera à minima autant de points expérimentaux qu'il y a de paramètres à déterminer dans l'équation visée. Un nombre supérieur de points expérimentaux est toujours hautement souhaitable.

Pour qu'une régression multiple soit pertinente, il faut veiller à:

  • l'indépendance des variables explicatives: les variables explicatives ne doivent pas être corrélées entre elles.
  • l'homogènéïté de la variance (homoscédasticité): l'erreur sur la prédiction est sensiblement la même quelles que soit les valeurs des variables explicatives
  • l'alignement effectif des points sur une droite

Une régression linéaire multiple peut être menée sur des données archivées recueillies au cours de la vie naturelle d'un processus, ou à l'occasion d'expérimentations ciblées, programmées et maîtrisées. 
Les données issues de la vie naturelle du procédé sont souvent affectées de nombreux travers:

  • domaine de variation limité des paramètres 
  • variations chronologiquement parallèles
  • corrélation forte entre les paramètres

Les informations issues d'expérimentations maîtrisées seront souvent plus riches. On pourra choisir les expérimentations à réaliser selon une méthode de plan d'expérience.

Sélection de la meilleure régression

Il n'y a pas de bonne ou de mauvaise régression, il n'y a que des régressions qui représentent imparfaitement les variations de la variable à expliquer.
Une variable peut être mieux expliquée par une variable explicative que par une autre.
Une régression logarithmique peut être plus efficace qu'une régression linéaire.
Une régression multiple n'est justifiée que si elle représente mieux qu'une régression simple les variations de la variable expliquée.

Pour comparer les différentes régressions possibles, on analyse l'importance et la répartition du résidu. Point par point on peut calculer l'écart entre la valeur mesurée et la valeur calculée.

Représentation graphique des résidus d'une régression simple présentant une dispersion élevéeRéprésentation graphique de la fréquence d'apparition des résidus d'une régression simple présentat une dispersion élevée et une distribution non normale
ici la régression simple conduit à une dispersion élevée des résidus, avec une répartition sensiblement éloignée d'une répartion dite "normale" 
L'ensemble de ces écarts constitue une population dont:
  • la moyenne est proche de zéro
  • la dispersion est caractérisée par un écart-type
  • la répartition peut être comparée à une distribution suivant une "loi normale".
On privilègiera la régression conduisant au plus faible résidu (écart-type le plus faible), mais aussi celle dont la population de résidus suis au plus près une loi normale.

Représentation graphique des résidus d'une régression multiple présentant une dispersion réduiteRéprésentation graphique de la fréquence d'apparition des résidus d'une régression multiple présentat une dispersion réduite et une distribution normale
ici la régression multiple conduit à une dispersion réduite des résidus, avec une répartition proche d'une répartion dite "normale" 
Si la distribution des écarts s'écarte sensiblement d'une distribution normale, on peut légitimement soupçonner que la cause de ces écarts n'intervient pas au hazard et donc peut être une variable manipulée qu'il est utile de prendre en compte dans la régression..


Calcul dans les tableurs

Les fonctions à utiliser sont identiques pour les trois tableurs les plus répandus (LibreOffice, OpenOffice ou Excel)

Le coefficient de corrélation peut être calculé:

  • au moyen de fonctions:

COEFFICIENT.CORRELATION("série 1"; "série 2")

  • sur un graphique:
faire tracer la droite de régression puis demander l'affichage du coefficient de détermination R² (c'est le carré du coefficient de corrélation)

Les paramètres d'une droite de régression linéaire simple sont calculés par les fonctions:

ORDONNEE.ORIGINE("série Y"; "série X")

et

PENTE("série Y"; "série X")

Les paramètres d'une régression linéaire multiple sont calculées par la fonction:

DROITEREG("série Y"; "séries X")

La fréquence d'apparition selon une loi "normale" de valeurs comprisent entre deux bornes est calculée est calculée en faisant la différence des fonctions de répartition de la loi normale pour les deux bornes:

LOI.NORMALE("borne-sup";"moyenne";"écart-type"; 1) - LOI.NORMALE("borne-inf";"moyenne";"écart-type"; 1)

Représentations graphiques

La représentation graphique d'une régression multiple est possible jusqu'à deux variables explicatives en traçant une série de droites de régession paramètrées.
Représentation d'une regression multiple sur un graphe


Accueil | Contact | Auteur | Plan du site
©Copyright 2013-2020. Droits réservés