Avertissement au visiteur!

Corrélations et régressions

Sommaire de la page:

Corrélation entre deux variables
Coefficient de corrélation et covariance
Interprétation de la corrélation
Régression linéaire entre deux variables
Régression linéaire multiple
Sélection de la meilleure régression
Calcul dans les tableurs
Représentations graphiques

Voir aussi ...

Corrélation entre deux variables

La corrélation est une statistique qui caractérise l’existence ou l’absence d’une relation entre des valeurs de mesures de variables différentes.
Ces variables peuvent être des paramètres opératoires, des propriétés ou caractéristiques, ....

La meilleure façon de décrire la relation unissant deux variables est de porter les points sur un graphique dit en "nuage de points" (V₂ = f(V₁)). représentation graphique en nuage de points Ce diagramme renferme toute l'information sur le comportement conjoint des deux variables.
La relation entre deux variables peut suivre une loi linéaire mais aussi de toutes autres formes (logarithmique, exponentielle, quadratique, ...). Pour une raison de simplicité de calcul on recherche le plus souvent une relation linéaire.

Si un lien linéaire (pas nécessairement parfaitement linéaire) existe entre ces deux variables, on souhaitera le quantifier à l'aide d'une mesure numérique. Celle-ci permettra d'établir des comparaisons de la force des liens linéaires unissant diverses paires de variables.

La valeur qui permet de quantifier la force de ce lien linéaire est le coefficient de corrélation "r" ou "R".
Le coefficient de corrélation permet de quantifier cette relation grâce à:

le signe de la corrélation (positive et négative),
le degré de corrélation, qui se mesure sur une échelle de 0 à 1. Zéro signifie une totale absence de corrélation entre les deux mesures, alors que 1 signifie une corrélation parfaite.

Si la corrélation est parfaite, connaître la valeur d’une mesure nous permet de connaître exactement la valeur de l’autre.

Coefficient de corrélation et covariance

Coefficient de corrélation linéaire:

r = \frac{σ_{x y}}{σ_{x} σ_{y}}

σ_{x y} = \frac{1}{N} \sum_{i = 1}^{N} (x_{i} - \bar{x}) \cdot (y_{i} - \bar{y})

σ_{x} = \sqrt{\frac{1}{N} \sum_{i = 1}^{N} {(x_{i} - \bar{x})}^{2}}

σ_{y} = \sqrt{\frac{1}{N} \sum_{i = 1}^{N} {(y_{i} - \bar{y})}^{2}}

\bar{x} = \frac{1}{N} \sum_{i = 1}^{N} x_{i}

\bar{y} = \frac{1}{N} \sum_{i = 1}^{N} y_{i}

\begin{matrix} avec: \\ r & coefficient de corrélation linéaire entre x et y \\ σ_{x y} & covariance de x et y \\ σ_{x} & écart−type sur x \\ σ_{y} & écart−type sur y \\ \bar{x} & moyenne des x \\ \bar{y} & moyenne des y \end{matrix}

On définit le coefficient de corrélation r par:

r = σ_xy / (σ_x σ_y)

où:
σ_x est l'écart-type de la variable X
σ_y est l'écart-type de la variable Y
et σ_xy est la covariance entre les variables X et Y

Le coefficient de corrélation est parfois remplacé par le coefficient de détermination qui est le carré du coefficient de corrélation; il est noté r² ou R². Il varie lui aussi de 0 à 1, mais il est toujours positif.

La variance mesure la dispersion moyenne autour de la moyenne de la variable. Sommer les écarts à la moyenne conduira toujours à une valeur nulle, puisque les écarts positifs équilibrent les écarts négatifs; on somme donc les carrés des écarts pour calculer la variance. L'écart-type (σ) en est la racine carrée. La covariance mesure si les dispersions des deux variables autour de leurs moyennes se produisent indépendamment (covariance nulle) ou si elles sont liées (positivement ou négativement).

En fait, covariance et corrélation sont deux notions soeurs. Toutefois, alors que la covariance possède des unités et, conséquemment, varie selon le choix des unités de mesure, la corrélation, elle, est sans unité, et est donc invariable face au choix des unités de mesure. Ainsi, la covariance est exprimée en unités qui varient en fonction des données, et n'est pas convertie sur une échelle standardisée de -1 à +1. Comme les données ne sont pas standardisées, vous ne pouvez pas utiliser les statistiques de la covariance pour évaluer l'importance de la relation linéaire.

La covariance est une mesure de la variance présente dans deux échantillons simultanément. L’idée étant que si les deux échantillons covarient, la covariance devrait être grande, alors que s’ils ne covarient pas, la covariance devrait être modérément faible.
L'absence de corrélation n'implique pas l'indépendance entre les variables. Elle implique uniquement l'absence de relation linéaire entre celles-ci. Par contre, l'indépendance entre les variables implique l'absence de corrélation.
L’existence d’une corrélation n’implique pas forcément que la variation d’une des deux variables est le résultat de la variation de l’autre (cause à effet). Il se peut, par exemple qu’il y ait une troisième variable non prise en compte qui soit à l’origine de la variation, directement ou indirectement des deux autres. Une variable particulièrement pernicieuse de ce point de vue est le temps. A peu près tout ce qu’on étudie en biologie est variable dans le temps. Et donc, bien souvent, il existe des corrélations entre des variables qui n’ont rien à voir l’une avec l’autre lorsqu’elles sont toutes deux mesurées à différents moments, ce qu’on appelle des séries temporelles ou chronologiques.

Interprétation de la corrélation

Une corrélation exprime une évolution parallèle de deux variables. Identifier une telle corrélation est utile pour:

substituer la mesure d'une propriété par une autre mesure plus aisée à réaliser
anticiper un résultat final en mesurant une propriété d'une matière première
identifier un mécanisme en mettant en évidence des comportements parallèles
...

On peut être tenté de voir dans certaines corrélations une relation de cause à effet. La variation d'une des variables pourrait être responsable de la variation de l'autre.

"Corrélation n'est pas raison"

De nombreuses situations conduisent à des corrélations contre intuitives ou erronées:

si le système observé est régulé, la corrélation traduira l'action du régulateur au lieu du phénomène physique supposé. Par exemple l'observation de la corrélation entre le débit d'un fluide chauffant ajusté par un régulateur sur la température du fluide chauffé fera apparaitre que la température est plus élevée lorsque le débit du fluide chauffant est faible.
les variables corrélées peuvent être toutes deux sous l'influence d'une troisième non mesurée ou non prise en compte. C'est ainsi que des variables mesurées simultanément peuvent montrer une relation alors qu'elles sont toutes deux seulement fonction du temps

Régression linéaire entre deux variables

Une fois constatée l'existence d'un lien linéaire entre deux variables, on peut chercher à décrire l'équation de la droite ayant le meilleur ajustement possible au nuage de points.

Contrairement à la corrélation, qui est totalement symétrique, pour les besoins de la régression, on doit définir une variable "à expliquer" dite "dépendante" d'une variable "explicative" dite "indépendante", selon un modèle sous-jacent de la forme suivante:

y_i = b₀ + b₁X_i + e_i

où:

y_i est la i_ème observation de la variable à expliquer,
x_i est la i_ème observation de la variable explicative,
e_i est le résidu entre la droite (estimée) et la valeur réellement observée (y_i).

Dans cette équation, b₀ et b₁ représentent les paramètres (estimés) de la droite donnant le meilleur ajustement.
Le meilleur ajustement est obtenu lorsque la somme des carrés des écarts entre la valeur réelle et la valeur prédite de la variable expliquée (y), pour chaque valeur de la variable explicative (x) est la plus faible; c'est la droite des moindres carrés.

Régression linéaire multiple

La régression linéaire peut être généralisée pour chercher à expliquer une variable Y par un ensemble de variables X₁, X₂, ...X_p.
Soit une variable Y que l'on veut relier à p variables X par le modèle linéaire suivant:

Y = β₀ + β₁X₁ + β₂X₂ + .....+ β_p X_p + ε

L'équation d'une droite fait appel à deux paramètres. Ils sont déterminés d'après les coordonnées de deux points sur un graphe.
De même, l'équation d'une droite de régression simple nécessitera un minimum de deux points expérimentaux représentants deux points de fonctionnement du système.
Si seulement deux points sont utilisés, la droite de régression passera nécessairement par ces deux points. Un nombre supérieur de points expérimentaux est bien sûr hautement souhaitable. A cause des aléas des incertitudes de mesures la droite de régression ne pourra sans doute pas passer par tous les points, mais passera néanmoins aussi près que possible. C'est la droite des moindres carrés (des écarts).

Une régression linéaire multiple nécessitera à minima autant de points expérimentaux qu'il y a de paramètres à déterminer dans l'équation visée. Un nombre supérieur de points expérimentaux est toujours hautement souhaitable.

Pour qu'une régression multiple soit pertinente, il faut veiller à:

l'indépendance des variables explicatives: les variables explicatives ne doivent pas être corrélées entre elles.
l'homogènéïté de la variance (homoscédasticité): l'erreur sur la prédiction est sensiblement la même quelles que soit les valeurs des variables explicatives
l'alignement effectif des points sur une droite

Une régression linéaire multiple peut être menée sur des données archivées recueillies au cours de la vie naturelle d'un processus, ou à l'occasion d'expérimentations ciblées, programmées et maîtrisées.
Les données issues de la vie naturelle du procédé sont souvent affectées de nombreux travers:

domaine de variation limité des paramètres
variations chronologiquement parallèles
corrélation forte entre les paramètres

Les informations issues d'expérimentations maîtrisées seront souvent plus riches. On pourra choisir les expérimentations à réaliser selon une méthode de plan d'expérience.

Sélection de la meilleure régression

Il n'y a pas de bonne ou de mauvaise régression, il n'y a que des régressions qui représentent imparfaitement les variations de la variable à expliquer.
Une variable peut être mieux expliquée par une variable explicative que par une autre.
Une régression logarithmique peut être plus efficace qu'une régression linéaire.
Une régression multiple n'est justifiée que si elle représente mieux qu'une régression simple les variations de la variable expliquée.

Pour comparer les différentes régressions possibles, on analyse l'importance et la répartition du résidu. Point par point on peut calculer l'écart entre la valeur mesurée et la valeur calculée.

Représentation graphique des résidus d'une régression simple présentant une dispersion élevée

Réprésentation graphique de la fréquence d'apparition des résidus d'une régression simple présentat une dispersion élevée et une distribution non normale

ici la régression simple conduit à une dispersion élevée des résidus, avec une répartition sensiblement éloignée d'une répartion dite "normale"

L'ensemble de ces écarts constitue une population dont:

la moyenne est proche de zéro
la dispersion est caractérisée par un écart-type
la répartition peut être comparée à une distribution suivant une "loi normale".

On privilègiera la régression conduisant au plus faible résidu (écart-type le plus faible), mais aussi celle dont la population de résidus suis au plus près une loi normale.

Représentation graphique des résidus d'une régression multiple présentant une dispersion réduite

Réprésentation graphique de la fréquence d'apparition des résidus d'une régression multiple présentat une dispersion réduite et une distribution normale

ici la régression multiple conduit à une dispersion réduite des résidus, avec une répartition proche d'une répartion dite "normale"

Si la distribution des écarts s'écarte sensiblement d'une distribution normale, on peut légitimement soupçonner que la cause de ces écarts n'intervient pas au hazard et donc peut être une variable manipulée qu'il est utile de prendre en compte dans la régression..

Calcul dans les tableurs

Les fonctions à utiliser sont identiques pour les trois tableurs les plus répandus (LibreOffice, OpenOffice ou Excel)

Le coefficient de corrélation peut être calculé:

au moyen de fonctions:

COEFFICIENT.CORRELATION("série 1"; "série 2")

sur un graphique:

faire tracer la droite de régression puis demander l'affichage du coefficient de détermination R² (c'est le carré du coefficient de corrélation)

Les paramètres d'une droite de régression linéaire simple sont calculés par les fonctions:

ORDONNEE.ORIGINE("série Y"; "série X")

PENTE("série Y"; "série X")

Les paramètres d'une régression linéaire multiple sont calculées par la fonction:

DROITEREG("série Y"; "séries X")

La fréquence d'apparition selon une loi "normale" de valeurs comprisent entre deux bornes est calculée est calculée en faisant la différence des fonctions de répartition de la loi normale pour les deux bornes:

LOI.NORMALE("borne-sup";"moyenne";"écart-type"; 1) - LOI.NORMALE("borne-inf";"moyenne";"écart-type"; 1)

Représentations graphiques

La représentation graphique d'une régression multiple est possible jusqu'à deux variables explicatives en traçant une série de droites de régession paramètrées.
Représentation d'une regression multiple sur un graphe

Votre avis est précieux pour améliorer ce site.

Avez-vous trouvé cette page utile?