Statistiques

-----------------------------------------------
icone Fiche
Tests
Une étude statistique se déroule normalement en plusieurs étapes :
– collecte des données ;
– classement des données en un tableau ;
– représentation de cette série à l'aide d'un diagramme statistique ;
– caractérisation de la série à l'aide de paramètres.
1. Comment calculer une variance et un écart type ?
Soit la série statistique de taille n suivante :
X
x1
x2

xp
 
Effectif
n1
n2

np
n

On rappelle que la moyenne de X est le nombre : \overline X = \frac{1}{n}\left( {n_1 x_1 + n_2 x_2 + ... + n_p x_p } \right).
On appelle variance de la série statistique X, le nombre :
V\left( X \right) = \frac{1}{n}\left( {n_1 \left( {x_1 - \overline X } \right)^2 + n_2 \left( {x_2 - \overline X } \right)^2 + ... + n_p \left( {x_p - \overline X } \right)^2 } \right), qu'on réécrit ainsi :
V\left( X \right) = \frac{1}{n}\sum\limits_{i = 1}^p {n_i \left( {x_i - \overline X } \right)^2 }.
L'écart type de X est le nombre : {\rm{s}}\left( X \right) = \sqrt {V\left( X \right)}.
Exemple
On étudie X l'âge des employés d'une entreprise. On obtient :
Âge
[20 ; 25[
[25 ; 30[
[30 ; 35[
[35 ; 40[
[40 ; 45[
[45 ; 50[
[50 ; 55[
 
Effectif
150
300
600
750
450
600
150
3 000

La moyenne de X est :
\overline X = \frac{1}{{3~000}}\left( \begin{array}{l} 150 \times 22,5 + 300 \times 27,5 + 600 \times 32,5 + \\ 750 \times 37,5 + \cdots + 150 \times 52,5 \end{array} \right)
\overline X = 38,25.
La variance de X est :
V\left( X \right) = \frac{1}{{3~000}}\left( \begin{array}{l} 150\left( {22,5 - 38,25} \right)^2 + 300\left( {27,5 - 38,25} \right)^2 + \\ 600\left( {32,5 - 38,25} \right)^2 + \\ 750\left( {37,5 - 38,25} \right)^2 + \cdots + 150\left( {52,5 - 38,25} \right)^2 \\ \end{array} \right)
V\left( X \right) = 60,6875.
Et l'écart type de X est : {\rm{s}}\left( X \right) = \sqrt {60,6875} \approx 7,79.
Remarques
• La variance, l'écart type mesurent la façon dont les valeurs de X se dispersent autour de la moyenne. Ce sont des paramètres de dispersion (alors que la moyenne et la médiane sont des paramètres de position, ils précisent vers quelles valeurs se situe la série).
• On peut aussi calculer la variance à l'aide de la formule suivante :
V\left( X \right) = \frac{1}{n}\left( {n_1 x_1 ^2 + n_2 x_2 ^2 + .... + n_p x_p ^2 } \right) - \overline X ^2 = \frac{1}{n}\sum\limits_{i = 1}^p {n_i } x_i ^2 - \overline X ^2.
• Dans le cas où, au lieu d'avoir une valeur x_i, on a un intervalle, les formules sont les mêmes en remplaçant x_i par le centre de l'intervalle.
Test n°1Test n°2
2. Comment calculer la médiane d'une série statistique ?
La médiane, que l'on note me, est le nombre qui sépare la série ordonnée en valeurs croissantes en deux groupes de même effectif.
• Pour la trouver, on écrit la liste de toutes les valeurs de la série par ordre croissant, chacune d'elles étant répétée autant de fois que son effectif.
On distingue ensuite deux cas :
– si l'effectif total n est un nombre impair, la médiane est le terme de rang \frac{{n + 1}}{2} ;
– si l'effectif total n est un nombre pair, la médiane est le centre de l'intervalle formé par les termes de rang \frac{n}{2} et \frac{n}{2} + 1.
• Quand la série est regroupée par classes, on détermine la médiane soit graphiquement à partir du polygone des effectifs ou des fréquences cumulés, soit par interpolation linéaire.
Exemple
Reprenons l'exemple précédent. On étudie X l'âge des employés d'une entreprise. On a :
Âge
[20 ; 25[
[25 ; 30[
[30 ; 35[
[35 ; 40[
[40 ; 45[
[45 ; 50[
[50 ; 55[
 
Effectif
150
300
600
750
450
600
150
3 000
Effectif cumulé
150
450
1 050
1 800
2 250
2 850
3 000
 

Nous avons rajouté dans le tableau une ligne pour les effectifs cumulés. Ainsi, on peut y lire que 1 050 individus ont moins de 35 ans et que 1 800 individus ont moins de 40 ans.
La médiane me qui correspond à l'effectif cumulé 1 500, appartient à l'intervalle [35 ; 40[.
On a :
Notons A(35 ; 1 050) et B(40 ; 1 800).
On cherche me l'abscisse du point M de [AB] d'ordonnée 1 500.
\overrightarrow {{\rm{AM}}} \left( {m_e - 35{\rm{~;~}}1~500 - 1~050} \right) et \overrightarrow {{\rm{AB}}} \left( {40 - 35{\rm{~;~}}1~800 - 1~050} \right) sont colinéaires.
Par conséquent : \left( {m_e - 35} \right) \times 750 - 450 \times 5 = 0, d'où m_e = 35 + \frac{{450 \times 5}}{{750}} = 38.
Test n°3Test n°4
3. Comment déterminer les quartiles d'une série statistique ?
• Soit une série statistique X de taille n.
Le premier quartile Q1 est la plus petite valeur de la série telle qu'au moins 25 % des données soient inférieures ou égales à Q1.
Le troisième quartile Q3 est la plus petite valeur de la série telle qu'au moins 75 % des données soient inférieures ou égales à Q3.
L'intervalle interquartile est l'intervalle \left[ {Q_1 {\rm{~;~}}Q_3 } \right].
Le nombre I = Q_3 - Q_1 s'appelle l'interquartile.
• Pour déterminer les quartiles Q1 et Q3, on procède un peu comme pour la médiane.
On écrit la liste de toutes les valeurs de la série par ordre croissant, chacune d'elles étant répétée autant de fois que son effectif.
On distingue ensuite deux cas :
– si \frac{n}{4} est un entier p, Q1 est le terme de rang p et Q3 est le terme de rang 3p ;
– si \frac{n}{4} n'est pas un entier, Q1 est le terme de rang immédiatement supérieur à \frac{n}{4} et Q3 est le terme de rang immédiatement supérieur à 3\frac{n}{4}.
Quand la série est regroupée par classes, on détermine les quartiles soit graphiquement à partir du polygone des effectifs ou des fréquences cumulés, soit par interpolation linéaire.
Exemple
Reprenons l'exemple précédent. On étudie X l'âge des employés d'une entreprise. On a :
Âge
[20 ; 25[
[25 ; 30[
[30 ; 35[
[35 ; 40[
[40 ; 45[
[45 ; 50[
[50 ; 55[
 
Effectif
150
300
600
750
450
600
150
3 000
Effectif cumulé
150
450
1 050
1 800
2 250
2 850
3 000
 

25 % de 3 000 font 750. À l'aide des effectifs cumulés, on peut voir que Q1 appartient à [30 ; 35[. On a le graphique suivant :
Notons A(30 ; 450) et B(35 ; 1 050).
On cherche Q1 l'abscisse du point M de [AB] d'ordonnée 750.
\overrightarrow {{\rm{AM}}} \left( {Q_1 - 30{\rm{~;~}}750 - 450} \right) et \overrightarrow {{\rm{AB}}} \left( {35 - 30{\rm{~;~}}1~050 - 450} \right) sont colinéaires.
Par conséquent : \left( {Q_1 - 30} \right) \times 600 - 300 \times 5 = 0, d'où Q_1 = 30 + \frac{{300 \times 5}}{{600}} = 32,5.
75 % de 3 000 font 2 250. À l'aide des effectifs cumulés, on peut voir que 2 250 employés ont moins de 45 ans. D'où Q3 est égal à 45.
Test n°5Test n°6
4. Comment se transforment les paramètres d'une série lors d'un changement affine ?
• Soit la série statistique de taille n suivante :
X
x1
x2

xp
 
Effectif
n1
n2

np
N

On considère la série statistique Y = aX + b. C'est-à-dire la série :
Y
y1
y2

yp
 
Effectif
n1
n2

np
N

y_i = ax_i + b.
En reprenant nos notations, on a :
\overline Y = a\overline X + b ; V\left( Y \right) = a^2 V\left( X \right) ; {\rm{s}}\left( Y \right) = \left| a \right| {\rm{s}}\left( X \right).
• Si m_e ,\: Q_1 ,\: Q_2 sont la médiane, le premier quartile, le troisième quartile de X et si m_e ',\: Q_1 ',\: Q_2 ' sont la médiane, le premier quartile, le troisième quartile de Y, on a :
m_e ' = am_e + b ;
si a > 0, Q_1 ' = aQ_1 + b ; Q_3 ' = aQ_3 + b ;
si a < 0, Q_1 ' = aQ_3 + b ; Q_3 ' = aQ_1 + b.
Test n°7Test n°8
5. Comment tracer un diagramme en boîte ?
On construit un diagramme en boîte de la façon suivante :
– sur un axe vertical ou horizontal, on repère les valeurs de la série statistique ;
– on place le minimum et le maximum de la série, le 1er quartile, le 3e quartile et la médiane ;
– on construit le rectangle (la boîte), parallèle à l'axe, qui a pour longueur l'interquartile et une largeur arbitraire.
Ce diagramme en boîte est aussi appelé « diagramme à moustaches » ou « diagramme à pattes ».
Exemple
Reprenons l'exemple précédent, où l'on étudie l'âge des employés d'une entreprise.
Le maximum est 55, le minimum est 20. La médiane est 38, le 1er quartile est 32,5 et le 3e est 45. D'où le diagramme en boîte suivant :
À retenir
Soit X une série statistique.
• La variance de X est le nombre : V\left( X \right) = \frac{1}{n}\sum\limits_{i = 1}^p {n_i \left( {x_i - \overline X } \right)^2 = \frac{1}{n}\sum\limits_{i = 1}^p {n_i } x_i ^2 - \overline X ^2 }.
L'écart type de X est la racine carrée de la variance : {\rm{s}}\left( X \right) = \sqrt {V\left( X \right)}.
• Le premier quartile de X, noté Q1, est la plus petite valeur de la série telle qu'au moins 25 % des données soient inférieures ou égales à Q1.
Le troisième quartile de X, noté Q3, est la plus petite valeur de la série telle qu'au moins 75 % des données soient inférieures ou égales à Q3.
L'intervalle interquartile est l'intervalle \left[ {Q_1 {\rm{~;~}}Q_3 } \right].
------------------------------------------------------------
copyright © 2006-2018, rue des écoles