Statistiques descriptives

Le cours en pdf : Cours complet et Cours à trou
Plan de travail
Lien vers mathsguyon.fr

I
Vocabulaire :

Vidéo complémentaire 1: Bien comprendre :Population, caractère et effectifs
Vidéo complémentaire 2: Bien comprendre les notations

Une étude statistique commence par un recueil de données.
Prenons un exemple classique avec des notes :
Dans le tableau suivant sont regroupées les notes obtenues par les élèves d'une classe de seconde lors du contrôle n°1 :

A
Définitions fondamentales
$\quad\bullet\quad$ Série statistique : Ensemble des valeurs collectées.
Dans notre exemple, la série statistique est l'ensemble des notes collectées.
$\quad\bullet\quad$ Population : Ensemble sur lequel porte l'étude statistique.
Dans notre exemple, la population est l'ensemble des élèves de seconde .
$\quad\bullet\quad$ Individus : Éléments qui composent la population.
Dans notre exemple, les individus sont chacun des élèves de seconde .
$\quad\bullet\quad$ Caractère étudié : Propriété que l'on observe sur les individus.
Dans notre exemple, le caractère étudié est le résultat obtenu au contrôle n°1.
$\quad\bullet\quad$ Modalité :Les différentes valeurs obtenues sont appelées valeurs du caractère ou modalités, souvent notées $x_1$, $x_2,\ldots x_p$.
Dans notre exemple, les modalités sont les notes obtenues au contrôle n°1.
$\quad\bullet\quad$ Types de caractères:
$\quad\quad\diamond\quad$ Un caractère peut être qualitatif si on étudie une qualité des individus : (situation de famille, sexe, couleur des yeux, type d'habitations).
$\quad\quad\diamond\quad$ Un caractère peut être quantitatif si on mesure une quantité des individus :
$\quad\quad\quad\rightarrow\quad$ Dans ce cas, il est dit discret lorsqu'il ne prend que des valeurs isolées (nombre d'enfants, notes dans une classe...).
$\quad\quad\quad\rightarrow\quad$ Il est dit continu lorsqu'il peut prendre théoriquement toutes les valeurs d'un intervalle (taille, temps d'écoute...) ;
$\quad\quad\quad\quad\quad$dans ce cas, les valeurs sont regroupées en intervalles appelés des classes.
Dans notre exemple, le caractère est quantitatif discret.
$\quad\bullet\quad$ Effectif:
Pour une valeur du caractère (modalité ou classe), on appelle effectif le nombre d'individus de la population ayant cette valeur.
On note souvent $n_1$, $n_2,\ldots n_p$ les effectifs respectifs des modalités $x_1$, $x_2,\ldots x_p$.
Dans notre exemple, la valeur $x_1$ du caractère est $4$, la valeur $x_2$ du caractère est $5$, la valeur $x_3$ du caractère est $6$, etc..
Les effectifs correspondants sont $n_1=1$, $n_2=2$, $n_3=3$, etc..

$\quad\bullet\quad$ Effectif total:
Nombre total d'individus de la population (ou de l'échantillon).
Il est égal à $n_1+n_2+\ldots +n_p$, souvent noté $N$.
Dans notre exemple, l'effectif total est le nombre d'élèves de la classe, à savoir 34.
$\quad\bullet\quad$ Fréquence:
Pour une valeur du caractère , on appelle fréquence le quotient de l'effectif de cette valeur par l'effectif total.
$\text{fréquence}=\dfrac{\text{effectif de la valeur}}{\text{effectif total}}\quad\quad\quad$La fréquence peut être exprimée en pourcentage.

On note souvent $f_1$, $f_2,\ldots,\ f_p$ les fréquences respectives des modalités $x_1$, $x_2,\ldots x_p$, donc :
$ f_1=\dfrac{n_1}{N}~~~,~~~\ f_2=\dfrac{n_2}{N}~~~,~~~\ldots,~~~\ f_p=\dfrac{n_p}{N}$

On en déduit que : $~~~~~~0\leq f_1\leq 1~~~$, $~~~0\leq f_2\leq 1,\ldots,~~~$ $~~~0\leq f_p\leq 1$ et $f_1+f_2+\ldots f_p=1$
Dans notre exemple, pour une meilleure lisibilité et pour simplifier l'étude, on peut commencer par compter le nombre d'individus ayant obtenu chaque note :

On lit par exemple que $x_3=6$ , $n_3=3$ et $ f_3\approx 0,09$
Remarque 1 :
Dans le tableau précédent, la somme des fréquences est supérieure à 1 à cause des arrondis.
Pour s'évaluer :
Accès sans indentifiants
Accès avec indentifiants


Vidéo complémentaire 1: Bien comprendre les fréquences.
Vidéo complémentaire 2: Bien comprendre les fréquences et effectifs cumulés.

$\quad\bullet\quad$ Effectif cumulé
Pour une valeur $x$ d'une série statistique quantitative, l'effectif cumulé croissant (respectivement décroissant) de $x$ est la somme des effectifs des valeurs inférieures (respectivement supérieures) ou égales à $x$.
Dans notre exemple :


Les Effectifs Cumulés Croissants (ECC) permettent de déterminer le nombre d'individus ayant une valeur inférieure ou égale à une modalité :
On peut par exemple déduire que 9 élèves ont une note inférieure ou égale à 10.
La dernière valeur des ECC est l'effectif total, puisque toutes les modalités sont inférieures ou égales à la valeur maximum de la série.
$\quad\bullet\quad$ Fréquences cumulées :
Pour une valeur $x$ d'une série statistique quantitative, la fréquence cumulée croissante (respectivement décroissante) de $x$ est la somme des fréquences des valeurs inférieures (respectivement supérieures) ou égales à $x$.
Pour calculer les FCC, pn procède de la même manière que pour les ECC.

Exemple 1 :
Exemple d'une série continue}
On a interrogé en 2008 un échantillon de 4812 Français concernant la durée hebdomadaire d'écoute de la télévision (en heures).
Le caractère étudié, à savoir la durée d'écoute, est quantitatif continu : il peut prendre théoriquement toutes les valeurs de l'intervalle $[0~;~50]$.
Les données sont regroupées en classes $[0~;~10]$, [10~;~15[$, $[15~;~20[$, $[20~;~30[$ et $[30~;~50]$.


Pour s'évaluer :
Accès sans indentifiants
Accès avec indentifiants

II
Représentations graphiques de séries à caractère quantitatif discret :

A
Diagramme en bâtons :
Définition 1 :
Dans un diagramme en bâtons , on représente une série statistique discrète par des segments dont la hauteur est proportionnelle à l'effectif de la valeur qu'ils représentent.
Exemple 1 :

On continue à travailler avec les données de l'exemple sur les notes. Voici le diagramme en bâtons de cette série :


B
Diagramme circulaire :
Exemple 1 :
Dans une compétition d'athlétisme, quatre pays s'affrontent : la France, l'Allemagne, la Suède et la Norvège.
On note le pourcentage de médailles obtenues par chacun des pays :

Pour cela, nous avons besoin des angles ; nous les calculons par proportionnalité, sachant que 100% correspondent à 360° :



C
Nuage de points :
Définition 1 :
Dans un nuage de points, on représente une série statistique discrète par des points dont les abscisses sont les valeurs du caractère, et les ordonnées sont les effectifs correspondants, parfois reliés par des segments.
Exemple 1 :
On travaille toujours avec les données de l'exemple des notes au contrôle n°1 de début de cours :
Voici le nuage de points de cette série :


III
Représentations graphiques de séries à caractère quantitatif continu :
A
Histogramme :
Dans un histogramme, on représente une série statistique continue par des rectangles dont la largeur correspond
à l'amplitude de chaque classe et dont l'aire est proportionnelle à l'effectif de la classe.
Exemple 1 :
On travaille avec les données de l'exemple sur la durée d'écoute de la télévision. Voici l'histogramme de cette série :


Remarque 1 :
Lorsque les classes ont toutes la même amplitude, la hauteur de chaque rectangle est proportionnelle à l'effectif de la classe qu'il représente.
On dit alors que l'histogramme est à pas constant.
B
Polygone d'effectifs ou de fréquences cumulés :
$\quad\bullet\quad$ Le polygone des effectifs cumulés croissants (respectivement décroissants) d'une série statistique
continue est la ligne brisée qui joint les points du plan dont les abscisses sont les bornes de chaque classe et dont les ordonnées
sont les effectifs cumulés croissants (respectivement décroissants) de ces valeurs.
$\quad\bullet\quad$ Le polygone des fréquences cumulées croissantes (respectivement décroissantes) d'une série statistique
continue est la ligne brisée qui joint les points du plan dont les abscisses sont les bornes de chaque classe et dont les ordonnées sont
les fréquences cumulées croissantes (respectivement décroissantes) de ces valeurs.
Ces représentations donnent l'allure de la répartition des valeurs de la série.
Exemple 1 :
La situation est toujours celle de prise plus haut dans le cours sur le temps d'écoute de la télévision. Le tableau des
effectifs cumulés croissants est le suivant :

D'où le polygone des effectifs cumulés croissants :

Cela permet de répondre aux questions du type :Combien de personnes regardent moins 20 heures la télévision ?

Exemple 2 :
Traitons à présent le cas des fréquences cumulées décroissantes :

D'où le polygone des fréquences cumulées décroissantes :

Cela permet de répondre aux questions du type :Quel est le pourcentage de personnes regardant plus de 30 heures la télévision ?

Pour s'évaluer :
Accès sans indentifiants
Accès avec indentifiants

IV
Paramètres de position :
A
La Moyenne :

On considère une série statistique donnée par le tableau suivant :

Définition 1 :
La moyenne de cette série statistique est le réel noté $\overline{x}$ défini par
$$ \overline{x}=\dfrac{n_1x_1+n_2x_2+\ldots+n_px_p}{n_1+n_2+\ldots n_p}=\dfrac{n_1x_1+n_2x_2+\ldots+n_px_p}{N} $$
en notant $N=n_1+n_2+\ldots+n_p$ l'effectif total de la série.
Propriété 1 :
On peut également calculer la moyenne à l'aide des fréquences :
$$ \overline{x}=x_1f_1+x_2f_2+\ldots+x_pf_p. $$
Exemple 1 :
Dans un service de maintenance, on a répertorié le nombre d'interventions par jour sur un mois. On a obtenu la distribution suivante :

Le nombre moyen d'interventions par jour est :$\overline{x}=\dfrac{2 \times 3 + 4 \times 5 + 9 \times 6 + 6\times 7 + 3 \times 8 + 1 \times 9}{25} = 6,2$
ou en utilisant les fréquences :

$\overline{x}=0,08 \times 3 + 0,16 \times 5 + 0,36 \times 6 + 0,24\times 7 + 0,12 \times 8 + 0,04 \times 9 =6,2$

Pour s'évaluer :
Accès sans indentifiants
Accès avec indentifiants

B
La Médiane :

Définition 1 :
La médiane $M$ d'une série statistique est un réel qui partage cette série en deux parties telles que :
$\quad\bullet\quad$ Au moins 50 % des valeurs sont inférieures ou égales à la médiane ;
$\quad\bullet\quad$Au moins 50 % des valeurs sont supérieures ou égales à la médiane.
Méthode :
En pratique, on adopte la démarche suivante pour déterminer la médiane $M$ d'une série statistiques d'effectif total $N$ :
$\quad\bullet\quad$On range d'abord les $N$ valeurs du caractère par ordre croissant.
$\quad\quad\diamond\quad$ Si $N$ est pair, $M$ est la moyenne des deux valeurs centrales de la série.
$\quad\quad\diamond\quad$ Si $N$ est impair, $M$ est la valeur centrale de la série.
Illustration:
Exemple 1 :
Dans la série précédente sur le nombre d'interventions par jour du service de maintenance, l'effectif total $N=25$ donc l'effectif est impair.
La médiane est la valeur centrale de la série, celle du caractère de rang 13 soit $Me=6$.
Ce qui signifie qu'au moins la moitié du temps, le nombre d'interventions par jour est inférieur ou égal à 6.
Exemple 2 :
Dans l'exemple des notes du début du cours, l'effectif total est 34, c'est-à -dire pair.
La médiane est donc la moyenne des deux valeurs centrales de la série, à savoir les 17ème et 18ème valeurs.
Donc $M=\dfrac{13+13}{2}=13$, ce qui signifie qu'au moins la moitié des notes est inférieure ou égale à 12 (en réalité 18 notes),
et qu'au moins la moitié des notes est supérieure ou égale à 12 (en réalité 18 notes également).
Méthode :
Il ne faut pas confondre la valeur de la médiane et son rang.
Dans l'exemple sur les notes, le rang de la médiane est entre la 17ème et 18ème valeurs, mais sa valeur est 12.
On doit donc bien distinguer ces deux éléments pour la médiane:
On cherche d'abord le rang pour déterminer ensuite la valeur.
Pour s'évaluer :
Accès sans indentifiants
Accès avec indentifiants

C
Médiane ou moyenne ?

Propriété 1 :
La moyenne est très sensible à des valeurs extrêmes.
La série représente la répartition des salaires dans une entreprise :

Le salaire moyen dans l'entreprise est :
$\overline{x}=\dfrac{2 \times 1200 + 4 \times 1500 + 9 \times 1800 + 6\times 2000 + 3 \times 2200 + 1 \times 25000}{26} = 2728$
La moyenne à 2728€ est très sensible à la valeur extrême de 25 000€.
Il faut donc être prudent quand on interprète une moyenne, qui ne donne aucune information sur la répartition des valeurs.
La moyenne est un paramètre de position et ne doit être interprété que comme tel.
Dans cet exemple, la médiane est de 1800 € (On cherche la valeur de rang 13). Elle est moins sensible aux valeurs extrêmes.
C'est pour cela que pour caractériser la position des salaires d'un pays, le salaire médian est plus pertinent que le salaire moyen.
Mais la médiane est aussi un paramètre de position et ne permet pas d'étudier la dispersion des valeurs autour de sa valeur.

Pour s'évaluer :
Accès sans indentifiants
Accès avec indentifiants

D
Quartiles :

Définition 1 :
On considère une série statistique.
$\quad\quad\diamond\quad$Le premier quartile $Q_1$ est la plus petite valeur de la série telle qu'au moins 25 \% des données soient inférieures ou égales à $Q_1$.
$\quad\quad\diamond\quad$Le troisième quartile $Q_3$ est la plus petite valeur de la série telle qu'au moins 75 \% des données soient inférieures ou égales à $Q_3$.
Illustration:

Méthode :
Soit une série statistique d'effectif total $N$ :
En pratique, on calcule le quart de l'effectif, soit $\dfrac{N}{4}$, puis $\dfrac{3N}{4}$.
$\quad\quad\diamond\quad$Si quotient est un nombre entier, il donne respectivement le rang de $Q_1$ ou de $Q_3$, attention, pas sa valeur , son rang !!
$\quad\quad\diamond\quad$ Si le quotient n'est pas un nombre entier, le rang du quartile est arrondi par excès à son entier supérieur.
Exemple 1 :
On considère toujours les données de l'exemple des notes du début de cours :
$\quad\quad\diamond\quad \dfrac{34}{4}=8,5$ donc le rang de $Q_1$ est 9.
$\quad\quad\quad\quad$D'où $Q_1=10$, ce qui signifie qu'au moins un quart des notes sont inférieures ou égales à 10 .
$\quad\quad\diamond\quad\dfrac{3\times 34}{4}=25,5$ donc le rang de $Q_3$ est 26.
$\quad\quad\quad\quad$D'où $Q_3=16$, ce qui signifie qu'au moins trois quarts des notes sont inférieures ou égales à 16 .
Pour s'évaluer :
Accès sans indentifiants
Accès avec indentifiants

V
Paramètres de dispersion :
Méthode :
Pour étudier une série, il faut associer à un paramètre de position, un paramètre de dispersion.
$\quad\bullet\quad$On associe à la médiane, l'écart interquartile, qui est égal à la différence entre le troisième et le premier quartiles.
$\quad\bullet\quad$ On associe à la moyenne, l'écart-type dont la définition est donnée plus loin.
$\quad\bullet\quad$ C'est l'association de ce couple de paramètre position-dispersion, qui permet de caractériser le mieux une série statistique.
A
Ecart inter quartile :

Définition 1 :
On appelle écart interquartile la différence entre le troisième et le premier quartiles : $Q_3-Q_1$
Illustration:

Méthode :
En pratique, on associe l'écart inter quartile, paramètre de dispersion, à la médiane, paramètre de position.
B
Boîtes à moustaches
Il est commode d'illustrer la médiane et les quartiles d'une série par un diagramme, appelé diagramme en boîte, ou boîte à moustaches
Méthode :
Pour une catégorie donnée, on construit :
$\quad\bullet\quad$ Un axe permettant de repérer les valeurs de la variable étudiée,
$\quad\bullet\quad$ Un rectangle dont la longueur est égale à l'écart interquartile $Q_3 -Q_1$,
$\quad\bullet\quad$ Un trait représentant la médiane.
$\quad\bullet\quad$ Deux traits représentant les valeurs extrêmes de la série.
Exemple 1 :
Le tableau suivant donne la distribution du revenu salarial dans deux entreprises :



Remarque 1 :
Le fait que le partage théorique en 25 %, 50 % et 75 % de la série statistique à l'aide des indicateurs
$Q_1$, $M$ et $Q_3$ ne soit pas tout à fait exact provient du fait que la série comporte des valeurs identiques.
Ce phénomène a tendance à s'amoindrir lors d'une étude sur une population plus importante avec un caractère dont les modalités sont plus disparates.
Pour s'évaluer :
Accès sans indentifiants
Accès avec indentifiants

C
Variance et ecart-type :

Méthode :
L'idée est de définir un paramètre de dispersion, qui associé à la moyenne, permettrait de définir
un couple de paramètre pratique pour étudier une série statistiques.
Prenons les cas extrêmes de deux classes, une où tous les élèves ont $10/20$, l'autre ou la moitié à $0/20$
et l'autre moitié $20/20$.
Les deux classes ont la même moyenne de $10/20$ mais on comprend bien que la deuxième a une dispersion des notes
bien plus importante que la première.
Pour mesurer cette dispersion, l'idée est de calculer l'écart de chaque valeur avec la moyenne.
On calcule donc $x_i-\overline x$ pour chaque modalité.
On obtient $0-10=-10$ pour les élèves qui ont $0$, et $20-10=10$ pour les élèves qui ont $20$.
Si on ajoute les écarts à la moyenne, les valeurs positives vont compenser les valeurs négatives. On ne quantifiera donc pas la dispersion.
Pour éviter cela, une solution est de les élever au carré avant de les ajouter, pour n'avoir que des nombres positifs qui se cumulent.
Puis de diviser par l'effectif total pour se ramener à une valeur correspondant à un individu. C'est ce qu'on appelle la variance de la série.
Et enfin, pour rendre le résultat plus cohérent avec la série, pour compenser le fait qu'on ait élevé au carré,
on calcule la racine carrée du résultat. C'est ce qu'on appelle l'écart-type de la série.
Définition 1 :
La variance $V$ d'une série statistique de moyenne $\bar{x}$ dont les valeurs caractère sont $x_{1},~ x_{2},~ x_{3}, ~\ldots,~ x_{k}$
et les effectifs correspondants sont $n_{1},~ n_{2},~ n_{3}, ~\ldots,~ n_{k}$ est égale à $$ V=\dfrac{n_{1} \times\left(x_{1}-\bar{x}\right)^{2}+n_{2} \times\left(x_{2}-\bar{x}\right)^{2}+\cdots+n_{k} \times\left(x_{k}-\bar{x}\right)^{2}}{n_{1}+n_{2}+\cdots+n_{k}}$$
Définition 2 :
L'écart-type $\sigma$ d'une série statistique de variance V est égal à $: \sigma=\sqrt{V}$
Exemple 1 :
Dans l'exemple du service de maintenance, on avait calculé et le nombre moyen d'interventions par jour :
$\overline{x}= 6,2$
Rajoutons une ligne au tableau de valeurs :

\begin{align*}
V=&\dfrac{n_{1} \times\left(x_{1}-\bar{x}\right)^{2}+n_{2} \times\left(x_{2}-\bar{x}\right)^{2}+\cdots+n_{k} \times\left(x_{k}-\bar{x}\right)^{2}}{n_{1}+n_{2}+\cdots+n_{k}}\\
=&\dfrac{20,48 + 5,6 + 0,36 + 3,84 + 9,72 + 7,84 }{25}\\
=&\dfrac{42,84}{25}\\
=&1,7136
\end{align*}
\begin{align*}
\sigma=&\sqrt{V}\\
=&\sqrt{1,7136}\\
\approx &1,31
\end{align*}

Remarque 1 :
La variance n'est utilisée à notre niveau que comme un outil qui permet de calculer l'écart-type.
Son calcul étant fastidieux, pour les séries qui comportent trop de modalités, on se contente d'une valeur donnée à la calculatrice.
Pour s'évaluer :
Accès sans indentifiants
Accès avec indentifiants

VI
Préparer l'évaluation :
A
Calculer une moyenne
Exercice 1:

Calculer la durée de vie moyenne d’une ampoule.
Correction
Exercice 2:

Calculer le temps de transport scolaire quotidien des élèves de cette classe.
Correction
B
Déterminer une médiane :
Exercice 1 :
Déterminer une valeur médiane de cette série statistique : 8 ; 9 ; 10 ; 12 ; 14 ; 16 Correction
Exercice 2 :

1. Déterminer les effectifs cumulés de cette série. Correction
2. En déduire sa médiane. Correction
Exercice 3 :

Complète le tableau puis en déduire une médiane de cette série. Interpréter la médiane avec une phrase. Correction
Exercice 4 :

Déterminer les effectifs cumulés de cette série et en déduire sa médiane. Correction
C
Déterminer les quartiles d'une série :
Exercice 1 :
Voici le diagramme en bâtons des notes obtenues par une classe de Troisième de 24 élèves au dernier devoir de mathématiques.

a. Détermine les valeurs et du premier et troisième quartile de cette série statistique.
b. Quelle est la fréquence de la note 12 ?
Correction
Exercice 2 :
Déterminer la valeur de la médiane et des quartiles de la série suivante :
$9 ; 15 ; 8 ; 12 ; 17 ; 19 ; 6 ; 8 ; 5 ; 11 ; 13$ Correction
Exercice 3 :

Correction
Exercice 4 :
Un arboriculteur a mesuré la taille des fleurs d'une de ses serres. les résultats sont représentés à l'aide du polygone des fréquences cumulées ci-dessous.

1. Déterminer la populmation et le caractère étudié
2. Déterminer graphiquement, sans rédaction, mais en laissant des traces sur le graphique, des valeurs approchées des quartiles et de la médiane de la série.
Correction
E
Comparer deux séries :
Exercice 1:
Un enseignant a compilé les résultats d'une épreuve notée sur 20 pour deux
de ses classes avec un logiciel pour obtenir des diagrammes en boîtes
(boîtes à moustache).
Comparer brièvement, à partir de certains paramètres pertinents, les résultsts de ces deux classes.

Correction