Maîtriser les probabilités et la statistique

Pourquoi cette fiche ?

Le hasard est l'un des sujets où l'intuition trompe le plus souvent. Spontanément, on tend à juger toutes les issues d'une expérience « aussi probables », à confondre une fréquence observée sur quelques essais avec une probabilité, à juger une suite de résultats « plus probable » parce qu'elle ressemble au désordre que l'on imagine. Quant à la moyenne, c'est un nombre dont le sens reste flou pour beaucoup : ce n'est ni la valeur la plus fréquente, ni nécessairement une valeur observée.

Cette fiche aborde les probabilités et la statistique en démasquant ces intuitions trompeuses. Elle s'appuie sur deux idées clés : dénombrer explicitement les issues d'une expérience pour ne pas se contenter d'une équiprobabilité supposée ; simuler ou expérimenter pour observer la stabilisation des fréquences vers la probabilité théorique. Pour la moyenne, elle propose une approche par redistribution (« la valeur qui égalise ») plus robuste que la simple formule.

Expérience aléatoire et issues

Vocabulaire de base

Une expérience aléatoire est une expérience dont on ne peut prévoir le résultat avec certitude, mais dont on connaît tous les résultats possibles. Chacun de ces résultats possibles est appelé une issue. L'ensemble des issues est appelé l'univers de l'expérience.

Un événement est un sous-ensemble de l'univers (une « partie » des issues). On dit qu'un événement est réalisé si l'issue de l'expérience appartient à cet événement.

Probabilité d'un événement. La probabilité d'un événement $A$ est un nombre $p(A)$ compris entre $0$ et $1$. Si toutes les issues sont équiprobables, on a : $$ p(A) = \dfrac{\text{nombre d'issues qui réalisent } A}{\text{nombre total d'issues}}. $$

Exercice 1 — Lister les issues

Pour chaque expérience aléatoire, lister toutes les issues possibles, puis indiquer combien il y en a.

On lance une pièce de monnaie.
On lance un dé à six faces.
On tire une carte d'un jeu de $32$ cartes.
On lance deux pièces simultanément (et l'on note le résultat de chacune).

▶ Solution — Exercice 1

Issues : pile, face. Il y en a $2$.
Issues : $1$, $2$, $3$, $4$, $5$, $6$. Il y en a $6$.
$32$ issues (chaque carte est une issue distincte).
Issues : (P, P), (P, F), (F, P), (F, F). Il y en a $4$. Remarque : les issues (P, F) et (F, P) sont distinctes parce qu'on note séparément le résultat de chaque pièce.

Équiprobabilité : quand est-elle légitime ?

Le piège de l'équiprobabilité abusive

On appelle équiprobabilité la situation où toutes les issues d'une expérience ont la même probabilité. C'est un cas particulier, qu'il faut justifier (par la symétrie de l'objet, par exemple : dé non truqué, pièce équilibrée, urne avec boules indiscernables).

Erreur fréquente. L'élève suppose souvent l'équiprobabilité par défaut, même quand elle ne tient pas. Par exemple, il pense que « obtenir $7$ ou $12$ comme somme de deux dés » sont des événements équiprobables. Or il y a plusieurs façons d'obtenir $7$ (six couples : $(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)$) mais une seule façon d'obtenir $12$ (un seul couple : $(6,6)$). Les deux événements ne sont pas équiprobables.

Méthode sûre. Avant de calculer une probabilité, dénombrer explicitement les issues : faire un arbre, un tableau à double entrée, ou lister tous les couples.

Exercice 2 — Somme de deux dés

On lance deux dés équilibrés à six faces et l'on note la somme des résultats.

Combien y a-t-il d'issues possibles pour le couple (résultat du premier dé, résultat du second dé) ?
Compléter un tableau à double entrée donnant la somme pour chaque couple.
Combien d'issues réalisent l'événement « la somme vaut $7$ » ? Quelle est la probabilité de cet événement ?
Même question pour les sommes $2$, $6$, $9$, $12$.

▶ Solution — Exercice 2

$6 \times 6 = 36$ issues.
Les sommes vont de $2$ (couple $(1,1)$) à $12$ (couple $(6,6)$). Voici le tableau :

\hline + 1 2 3 4 5 6
\hline 1 2 3 4 5 6 7
\hline 2 3 4 5 6 7 8
\hline 3 4 5 6 7 8 9
\hline 4 5 6 7 8 9 10
\hline 5 6 7 8 9 10 11
\hline 6 7 8 9 10 11 12
\hline
Les couples donnant $7$ sont $(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)$ : $6$ couples. Probabilité : $\dfrac{6}{36} = \dfrac{1}{6}$.
Somme $2$ : $1$ couple, probabilité $\dfrac{1}{36}$. Somme $6$ : $5$ couples, probabilité $\dfrac{5}{36}$. Somme $9$ : $4$ couples, probabilité $\dfrac{4}{36} = \dfrac{1}{9}$. Somme $12$ : $1$ couple, probabilité $\dfrac{1}{36}$.

\hline +	1	2	3	4	5	6
\hline 1	2	3	4	5	6	7
\hline 2	3	4	5	6	7	8
\hline 3	4	5	6	7	8	9
\hline 4	5	6	7	8	9	10
\hline 5	6	7	8	9	10	11
\hline 6	7	8	9	10	11	12
\hline

Conclusion. Les sommes ne sont pas équiprobables : $7$ est six fois plus probable que $12$. L'erreur consistant à supposer une équiprobabilité conduirait à conclure que $p(\text{somme} = 7) = p(\text{somme} = 12)$, ce qui est faux.

Exercice 3 — Arbre et issues

On tire successivement et avec remise deux boules d'une urne contenant $3$ boules rouges et $2$ boules bleues.

Construire un arbre des issues possibles pour la couleur de la première boule, puis de la seconde.
En supposant que les boules sont indiscernables au toucher, donner la probabilité de tirer une boule rouge à chaque tirage.
En déduire la probabilité de tirer deux boules rouges.
Quelle est la probabilité d'avoir au moins une boule bleue ?

▶ Solution — Exercice 3

L'arbre comporte deux niveaux : au premier, deux branches (R, B) ; à chaque branche correspondent à nouveau deux branches au second niveau (R, B). Quatre chemins possibles : RR, RB, BR, BB.
À chaque tirage, $p(R) = \dfrac{3}{5}$ et $p(B) = \dfrac{2}{5}$.
$p(RR) = \dfrac{3}{5} \times \dfrac{3}{5} = \dfrac{9}{25}$.
L'événement contraire de « au moins une bleue » est « aucune bleue », c'est-à-dire deux rouges. $p(\text{au moins une bleue}) = 1 - p(RR) = 1 - \dfrac{9}{25} = \dfrac{16}{25}$.

Probabilité et fréquence

La loi des grands nombres

La fréquence d'un événement, calculée sur $n$ répétitions d'une expérience aléatoire, est le rapport $$ f = \dfrac{\text{nombre de fois où l'événement est réalisé}}{n}. $$

Sur peu d'essais, la fréquence peut s'écarter beaucoup de la probabilité théorique. Mais lorsqu'on multiplie les essais, la fréquence tend à se stabiliser vers la probabilité. C'est ce qu'on appelle la loi des grands nombres.

Conséquence pratique. Un événement de probabilité $0{,}01$ n'est pas « impossible » : en moyenne, il se produit une fois sur cent. À la cent-millième tentative, il se sera produit environ mille fois. Réduire les petites probabilités à zéro est une erreur fréquente, qui sous-estime systématiquement les événements rares.

Exercice 4 — Comparer fréquences observées et probabilité

Léa lance $20$ fois un dé équilibré et obtient les résultats suivants : $3, 1, 6, 4, 2, 5, 6, 3, 1, 4, 2, 5, 3, 6, 1, 2, 4, 5, 3, 6$.

Calculer la fréquence d'apparition de chaque face.
Comparer ces fréquences avec la probabilité théorique de chaque face.
Si Léa avait lancé $1\,000$ fois le dé, peut-on prévoir avec certitude le nombre exact d'apparitions de la face $6$ ? Et son ordre de grandeur ?

▶ Solution — Exercice 4

Comptage : $1 \to 3$ fois ; $2 \to 3$ ; $3 \to 4$ ; $4 \to 3$ ; $5 \to 3$ ; $6 \to 4$. Fréquences : $\dfrac{3}{20} = 0{,}15$ pour les faces $1$, $2$, $4$, $5$ ; $\dfrac{4}{20} = 0{,}20$ pour $3$ et $6$.
Probabilité théorique de chaque face : $\dfrac{1}{6} \approx 0{,}167$. Les fréquences observées s'écartent de cette valeur, mais elles en sont assez proches. Sur $20$ lancers, l'écart est normal.
On ne peut pas prévoir le nombre exact (le hasard reste). Mais l'ordre de grandeur est prévisible : environ $\dfrac{1\,000}{6} \approx 167$ apparitions de la face $6$. Sur $1\,000$ lancers, l'écart relatif à la probabilité théorique sera bien plus petit que sur $20$ : c'est la loi des grands nombres.

Démasquer le biais de représentativité

Le hasard ne ressemble pas toujours au hasard

Spontanément, on juge une suite de résultats « plus probable » quand elle ressemble à du hasard, c'est-à-dire qu'elle alterne ou ne montre pas de régularité apparente. Mais cette intuition est trompeuse.

Si l'on lance une pièce six fois, les deux suites suivantes sont exactement aussi probables : $$ \text{PFPPFP} \quad \text{et} \quad \text{PPPPPP}. $$ Chacune a une probabilité $\left(\dfrac{1}{2}\right)^6 = \dfrac{1}{64}$. Le fait que la première « ressemble » au hasard et que la seconde paraisse « ordonnée » n'a rien à voir avec leur probabilité. C'est ce qu'on appelle le biais de représentativité.

Exercice 5 — Vrai ou faux

Pour chaque affirmation, dire si elle est vraie ou fausse, en justifiant.

Si on lance $5$ fois une pièce équilibrée et qu'on obtient $5$ piles d'affilée, le sixième lancer a plus de chances d'être face que pile.
La suite PFFPFP est plus probable que la suite PPPPPP en six lancers.
Sur cinquante lancers, on obtient nécessairement environ $25$ piles et $25$ faces.
Plus on multiplie les essais, plus la fréquence de pile s'approche de $\dfrac{1}{2}$.

▶ Solution — Exercice 5

Faux. La pièce « n'a pas de mémoire ». À chaque lancer, $p(P) = p(F) = \dfrac{1}{2}$, indépendamment des lancers précédents. C'est une autre forme de biais (parfois appelé « erreur du joueur »).
Faux. Toute suite donnée de six lancers a pour probabilité $\dfrac{1}{64}$. Les deux suites sont équiprobables.
Faux. Sur cinquante lancers, on n'obtient pas nécessairement exactement $25$ / $25$. La répartition est aléatoire ; on attend en moyenne $25$ / $25$, mais l'écart $20$ / $30$ est tout à fait plausible.
Vrai. C'est la loi des grands nombres.

Comprendre la moyenne

La moyenne, ou « valeur qui égalise »

La moyenne d'une série de valeurs est définie par : $$ \overline{x} = \dfrac{x_1 + x_2 + … + x_n}{n}. $$

Cette formule cache une idée intuitive plus parlante : la moyenne est la valeur qui, si on la donnait à tout le monde, donnerait le même total. C'est la valeur qui « égalise » quand on redistribue.

Erreurs fréquentes.

Confondre la moyenne avec le mode (la valeur la plus fréquente). Les deux notions coïncident dans certaines séries (par exemple si toutes les valeurs sont égales), mais pas en général.
Croire que la moyenne doit être une valeur effectivement présente dans la série. Or la moyenne de la série $(2\,;\,4\,;\,6)$ est $4$, qui est dans la série, mais celle de $(1\,;\,2\,;\,4)$ est $\dfrac{7}{3}$, qui n'y est pas.

Exercice 6 — Calculer une moyenne

Calculer la moyenne de la série $(8\,;\,10\,;\,12\,;\,14\,;\,16)$.
Calculer la moyenne de la série $(2\,;\,5\,;\,5\,;\,7\,;\,11)$.
Une élève a obtenu $12$, $14$, $9$, $16$ aux quatre devoirs du trimestre, comptant respectivement coefficients $1$, $2$, $1$, $3$. Calculer sa moyenne pondérée.

▶ Solution — Exercice 6

Moyenne $= \dfrac{8 + 10 + 12 + 14 + 16}{5} = \dfrac{60}{5} = 12$.
Moyenne $= \dfrac{2 + 5 + 5 + 7 + 11}{5} = \dfrac{30}{5} = 6$. Remarque : la valeur $6$ n'apparaît pas dans la série, ce qui est normal pour une moyenne.
Moyenne $= \dfrac{1 \times 12 + 2 \times 14 + 1 \times 9 + 3 \times 16}{1 + 2 + 1 + 3} = \dfrac{12 + 28 + 9 + 48}{7} = \dfrac{97}{7} \approx 13{,}9$.

Exercice 7 — Démasquer la confusion moyenne/mode

Voici la liste des notes obtenues par les $10$ élèves d'un groupe : $5, 8, 8, 8, 10, 12, 13, 14, 17, 18$.

Calculer la moyenne de cette série.
Quelle est la valeur la plus fréquente (mode) de la série ?
La moyenne est-elle égale à la valeur la plus fréquente ?

▶ Solution — Exercice 7

Moyenne $= \dfrac{5 + 8 + 8 + 8 + 10 + 12 + 13 + 14 + 17 + 18}{10} = \dfrac{113}{10} = 11{,}3$.
La valeur la plus fréquente est $8$ (présente trois fois).
Non, la moyenne ($11{,}3$) et le mode ($8$) sont distincts. Confondre les deux est une erreur fréquente.

Exercice 8 — Effet d'une valeur extrême

Une classe de $10$ élèves a obtenu les notes suivantes au dernier devoir : $11, 12, 12, 13, 13, 13, 14, 14, 15, 15$. Calculer la moyenne. On apprend qu'il faut ajouter une onzième note : $0$ (un élève absent à qui la note $0$ a été attribuée).

Calculer la nouvelle moyenne.
De combien la moyenne a-t-elle diminué ? Comment expliquer cet effet ?

▶ Solution — Exercice 8

Moyenne initiale $= \dfrac{132}{10} = 13{,}2$. Nouvelle moyenne avec $0$ : $\dfrac{132 + 0}{11} = \dfrac{132}{11} = 12$.
La moyenne a diminué de $1{,}2$ point. La valeur extrême $0$, très éloignée des autres notes (qui se situent entre $11$ et $15$), tire fortement la moyenne vers le bas. La moyenne est sensible aux valeurs extrêmes : c'est l'une de ses limites.

Pour s'auto-évaluer

Cinq questions à se poser

Avant et pendant un calcul de probabilité ou de moyenne, prendre l'habitude de se poser ces cinq questions.

Ai-je dénombré explicitement toutes les issues, ou suis-je en train de supposer qu'elles sont équiprobables sans le justifier ?
Suis-je en train de confondre la fréquence (observée sur des essais) et la probabilité (valeur théorique) ?
Une suite de résultats « ordonnée » me semble-t-elle moins probable qu'une suite « en désordre » ? C'est une intuition trompeuse : deux suites de longueur fixe sont équiprobables.
Pour une moyenne, suis-je en train de la confondre avec le mode (la valeur la plus fréquente) ? Une valeur extrême peut-elle fausser la moyenne ?
Mon résultat est-il cohérent ? Une probabilité est toujours dans $[0\,;\,1]$ ; une moyenne est toujours comprise entre la plus petite et la plus grande valeur de la série.

← Retour aux fiches