Séries statistiques doubles

-----------------------------------------------
icone Fiche
Tests
L'étude conjointe de deux variables statistiques sur une même population est fréquente dans le domaine des sciences exactes comme dans celui des sciences humaines. On cherche alors à déterminer s'il existe un lien entre ces deux variables et, le cas échéant, quelle est la nature de ce lien.
La première étape consiste à représenter sur un même graphique les deux variables statistiques. C'est ce que l'on appelle tracer un nuage de points. On regarde ensuite si ce nuage de points se rapproche d'une courbe connue, afin de déterminer la nature du lien éventuel entre les deux variables statistiques.
1. Quel vocabulaire utilise-t-on en statistique ?
Le vocabulaire utilisé en statistique est hérité de la démographie, premier domaine d'application de cette discipline. L'ensemble sur lequel on étudie une variable statistique est appelé population. Une population est composée d'individus. Sa taille est le nombre d'éléments de l'ensemble.
Au lycée, on étudie principalement des variables statistiques quantitatives, c'est-à-dire que, pour chaque individu, la valeur prise par la variable statistique est un nombre.
Test n°1Test n°2Test n°3
2. Comment calculer les paramètres d'une variable statistique ?
Suivant la taille de la population, le calcul des paramètres qui caractérisent la variable statistique diffère légèrement.
Soit X, une variable statistique étudiée sur une population de taille n.
• Premier cas : population de petite taille.
Dans ce cas, on écrit simplement la liste des valeurs prises par X : x_{1},\,x_{2},\,\ldots\,,\,x_{n}.
La moyenne de X est : \overline{X}=\frac{1}{n}(x_{1}+x_{2}+\cdots+x_{n})
La variance de X est : V(X)=\frac{1}{n}\left((x_{1}-\overline{X})^{2}+(x_{2}-\overline{X})^{2}+\cdots+(x_{n}-\overline{X}^{2}\right).
L'écart type de X est : \sigma{(X)}=\sqrt{V(X)}.
• Second cas : population de grande taille.
Dans ce cas, on regroupe les données sous forme d'un tableau à double entrée, dans lequel ni est l'effectif de xi, c'est-à-dire le nombre de fois où l'on observe la valeur xi.
X
x1
x2

xp
 
Effectif
n1
n2

np
n

La moyenne de X est : \overline{X}=\frac{1}{n}(n_{1}x_{1}+n_{2}x_{2}+\cdots+n_{p}x_{p}).
La variance de X est : V(X)=\frac{1}{n}\left(n_{1}(x_{1}-\overline{X})^2+n_{2}(x_{2}-\overline{X})^2+\cdots+n_{p}(x_{p}-\overline{X})^2\right).
L'écart type de X est : \sigma{(X)}=\sqrt{V(X)}.
Remarques
– Il existe d'autres paramètres d'une série statistique : le mode, la médiane, l'intervalle interquartile, etc. ; un petit retour sur le programme de première suffit à se rafraîchir la mémoire.
– Lorsque l'on a un intervalle au lieu d'avoir une valeur xi, les formules utilisées sont les mêmes. On y remplace seulement xi par le centre de l'intervalle.
Test n°4
3. Comment représenter une série statistique double ?
• Sur une population de taille n, on étudie simultanément deux variables statistiques X et Y. Pour chaque individu i, avec 1\leq{i}\leq{n}, on mesure la valeur xi de la variable X et la valeur yi de la variable Y.
• La suite des couples (x_{1}\,;\,y_{1}),(x_{2}\,;\,y_{2}),\cdots,(x_{n}\,;\,y_{n}) est appelée série statistique double des deux variables X et Y. Généralement, on représente cette série sous forme d'un tableau :
X
x1
x2

xn
Y
y1
y2

yn

On peut extraire de cette série double les deux séries simples X et Y, afin d'étudier séparément X et Y et de calculer leurs paramètres caractéristiques.
• Pour représenter cette série double, on place dans un repère les points \mathrm{M}_{1}(x_{1}\,;\,y_{1}),\,\mathrm{M}_{2}(x_{2}\,;\,y_{2}),\cdots,\mathrm{M}_{n}(x_{n}\,;\,y_{n}). L'ensemble de ces points Mi(xi ; yi), avec 1 inférieur ou égal i inférieur ou égal n, est le nuage de points représentant la série double (XY).
Remarques
– Le choix des unités sur les axes du repère est important. Il faut obtenir une représentation qui ne soit ni trop resserrée, ni trop grande.
– La forme de ce nuage de points est essentielle. Si les points sont proches d'une courbe d'équation y = f(x), cela peut sous-entendre que X et Y sont liées et que la valeur de X permet d'estimer celle de Y en lui appliquant la fonction f.
– On se limite souvent au cas de figure où le lien entre X et Y est « affine ». Si le nuage de points est à peu près aligné, on peut effectivement penser que X et Y sont liées par une fonction affine du type : y = ax + b.
Test n°5
4. Comment déterminer le point moyen d'un nuage de points ?
• Pour déterminer « autour » de quelles valeurs les séries statistiques simples X et Y se situent, on calcule leur moyenne \overline{X} et \overline{Y}.
On place alors le point G de coordonnées \left(\overline{X}\,;\,\overline{Y}\right) dans le repère utilisé pour tracer le nuage de points ; \mathrm{G}(\overline{X}\,;\,\overline{Y}) est le point moyen du nuage de points de la série double (XY).
Exemple
Pendant neuf jours, au marché de Brive-la-Gaillarde, on relève : X, le prix de la tête de salade et Y, le prix du kilo de tomates. On obtient :
X
0,80
0,95
0,83
1,12
1,20
1,05
0,92
1,17
0,97
Y
1,96
2,15
1,99
2,34
2,42
2,27
2,10
2,40
2,18

\overline{X}=\frac{1}{9}(0,\,8+0,95+\cdots+1,17+0,97)=\frac{1}{9}\times9,01\simeq1\,; \overline{Y}=\frac{1}{9}(1,96+2,15+\cdots+2,40+2,18)\,;
\overline{Y}=\frac{1}{9}\times19,81\simeq2,20.
D'où G (1 ; 2,20).
Traçons le nuage de points et plaçons le point G :
Test n°6
5. Comment calculer une covariance ?
• Pour étudier la dispersion d'une variable statistique simple, on calcule sa variance.
Ainsi, pour une série statistique double (xi ; yi), avec 1 inférieur ou égal i inférieur ou égal n, on peut calculer :
\mathrm{V}(X)=\frac{1}{n}\left(x_{1}^{2}+x_{2}^{2}+\cdots+x_{p}^{2}\right)-\overline{X}^{2} ;
\mathrm{V}(Y)=\frac{1}{n}\left(y_{1}^{2}+y_{2}^{2}+\cdots+y_{p}^{2}\right)-\overline{Y}^{2}.
• Pour étudier l'interaction entre X et Y, on calcule la covariance de X et de Y, notée \mathrm{cov}(X,\,Y) et définie par : \mathrm{cov}(X,\,Y)=\frac{1}{n}(x_{1}y_{1}+x_{2}y_{2}+\cdots+x_{n}y_{n})-\overline{XY}.
Exemple
Reprenons l'exemple précédent.
On a déjà calculé \overline{X}=\frac{9,01}{9} et \overline{Y}=\frac{19,81}{9}.
On a : \frac{1}{9}(0,\,8\times1,96+0,95\times2,15+\cdots+0,97\times2,18)=\frac{1}{9}\times20,025\,1.
D'où : \mathrm{cov}(X,\,Y)=\frac{1}{9}\times20,0251-\frac{9,01}{9}\times\frac{19,81}{9}\simeq{0\,021\,5}.
À retenir
• Soit X, une variable statistique simple.
La moyenne de X est : \overline{X}=\frac{1}{n}(x_{1}+x_{2}+\cdots+x_{n}) ;
la variance de X est : V(X)=\frac{1}{n}\left((x_{1}-\overline{X})^{2}+(x_{2}-\overline{X})^{2}+\cdots+(x_{n}-\overline{X})^{2}\right) ;
l'écart type de X est : \sigma(X)=\sqrt{V(X)}.
• Lorsque l'on étudie deux variables X et Y sur une même population et que l'on associe un couple de coordonnées (xi ; yi) à chaque individu de cette population, alors l'ensemble des couples forme une série statistique double à deux variables.
• Dans un repère orthogonal, l'ensemble des points Mi de coordonnées (xi ; yi), est le nuage de points de la série double.
Le point moyen de ce nuage est le point G de coordonnées (\overline{X}\,;\,\overline{Y}).
• La covariance de X et de Y permet d'étudier l'interaction qui existe entre X et Y. Elle est donnée par l'égalité : \mathrm{cov}(X,\,Y)=\frac{1}{n}(x_{1}y_{1}+x_{2}y_{2}+\cdots+x_{n}y_{n})-\overline{XY}.
------------------------------------------------------------
copyright © 2006-2018, rue des écoles