Médiane Ou Moyenne?

Oct 11, 2020

6 mins read

L’application Rowing utilise la médiane pour le calcul de toutes les statistiques. Cela peut paraitre exotique mais en fait, cette métrique est bien plus adapté à l’aviron que les moyennes utilisées à peut prêt partout.

La médiane ?

Petite définition: la médiane est la valeur qui divise un échantillon en deux groupes égaux.

Pour faire le calcul, il est nécessaire d’ordonner les valeurs de manière croissante et ensuite de prendre la valeur au milieu. Si celle-ci n’existe pas, la valeur moyenne des deux valeurs autours est prise.

Prenons un exemple, voici la fréquence des coups d’aviron d’un sportif:

1 2 3 4 5 6 7 8 9 10
21.0 21.3 12.2 21.3 21.2 20.9 21.0 21.3 13.0 22.0

Il faut réordonner les valeurs dans l’ordre croissant et nous obtenons:

1 2 3 4 5 6 7 8 9 10
12.2 13.0 20.9 21.0 21.0 21.2 21.3 21.3 21.3 22.0

Nous avons en tout 10 mesures et la valeur médiane se trouve à mi-chemin entre la 5e et la 6e valeur.

$$ Médiane = \frac{21.0 + 21.2}{2} = 21.1 $$

Donc, notre sportif avait fait la moitié de ses coups d’aviron à une fréquence supérieure à 21.1. (et bien sûr, la moitié de ses fréquences de coups de rames étaient inférieure à 21.1)

On voit que ce calcul pose un problème de calculabilité: Il est nécessaire d’avoir en mémoire toutes les mesures pour en déduire la valeur. En plus, même s’il y a des techniques un peu plus performantes, il est nécessaire de maintenir un tableau de valeurs triées pour faire un calcul au fur et à mesure. Le nombre de données à traiter risque d’être rapidement trop important pour une montre de sport.

Pour remédier à ce problème au-delà de 25 mesures, l’application Rowing utilise une estimation1.

La moyenne ?

La moyenne est simplement la somme des valeurs divisées par le nombre de mesures. Dans notre exemple:

$$ Moyenne = \frac{21.0+21.3+…+22.0}{10} = 19.5 $$

Elle a un gros avantage au niveau calculatoire car on peut la calculer au fur et à mesure sans stocker l’ensemble des données. En effet, on peut utiliser la formule:

$$ M_n = \frac{ M_{n-1} \times (n-1) + x_n }{n} $$

Mn est la moyenne de l’échantillon composé de n valeurs x1, x2, …, xn.

Cette facilité de calcul fait qu’elle utilisée pratiquement partout au détriment de la médiane.

Où est le problème avec la moyenne?

Le problème principal est que la moyenne est sensible aux valeurs qui s’écarte d’elle de manière extrême.

Si nous reprenons notre exemple, notre sportif avait deux coups de rames qui étaient en dehors des clous avec une fréquence de 12.0 et 13.0. Il s’est simplement peut-être retourné pour voir si la voie était libre. Pour le reste du temps, il était presque toujours aux alentours de 21 coups de rames, la valeur médiane.
On voit que la moyenne est par contre bien plus basse (19.5) et ne reflète pas vraiment la fréquence qu’il aurait pu avoir en compétition où il peut se concentrer pleinement sur l’effort. (et donc ne pas se retourner)

L’aviron est un sport qui lorsqu’il est pratiqué pendant l’entrainement requiert souvent d’interrompre son mouvement pour prendre en compte son environnent. Et dans ces conditions, la médiane permet de filtrer les courtes pauses.

C’est la raison pour laquelle, l’application Rowing n’utilise pas de moyenne pour ses métriques.

Généralisation aux maximas et aux minimas

Au lieu de calculer les minimas et les maximas des valeurs, Rowing utilise une méthode dérivée de la médiane pour supprimer les valeurs incohérentes. On définit alors la valeur basse qui est la valeur au-dessus de laquelle 90% des mesures se trouvent. Cela permet de supprimer les valeurs extrêmement basses qui correspondent souvent à un arrêt momentané de l’effort. Dans notre exemple, ce serait la valeur qui se situe entre la 1ère et la 2e fréquence de coupe de rame:

$$ Fréquence Basse = \frac{12.2+13.0}{2} = 12.6 $$

De même, on définit une fréquence haute qui signifie que 90% des mesures se trouvaient en dessous de cette limite. Ce qui donne pour notre exemple la fréquence de coup de rame entre la 9e et 10e position:

$$ Fréquence Basse = \frac{21.3+22.0}{2} = 21.65 $$

Mesure de stabilité

La méthode utilisée pour le calcul de la médiane permet aussi de calculer l’écart interquartile qui est l’équivalent de l’écart type pour la moyenne.

Pour ce faire, on détermine le premier quartile qui n’est rien d’autre que la valeur au-dessus de laquelle les 3/4 des mesures se trouvent. Dans notre exemple, c’est la position entre le 2e et le 3e élément du tableau trié des fréquences. Ce qui nous donne:

$$ Quartile1 = \frac{13.0+20.9}{2} = 16.95 $$

On fait de même avec le dernier quartile. La position est ici entre le 7e et le 8e élément. Ce qui donne:

$$ Quartile2 = \frac{21.3+21.3}{2} = 21.3 $$

L’écart interquartile est alors la différence des deux:

$$ Écart = 21.3 - 16.95 = 4.35 $$

On peut alors quantifier la stabilité de la mesure de la manière suivante:

$$ Stabilité = \frac{Écart interquartile}{Médiane} \times 100 $$

Cette valeur en pourcentage est un indicateur de la variabilité des mesures. Si elle est nulle, un rythme très régulier est suivi, si par contre elle est importante, les mouvements sont plus chaotiques.

Dans notre exemple, on obtient:

$$ Stabilité = \frac{4.35}{21.1} \times 100 = 20\% $$

Utilisation

D’une manière générale, les statistiques ne font sens que si le nombre de sonnées sont suffisantes. Les valeurs hautes et basses ne sont calculables qu’à partir de 10 mesures. Mais, on considère qu’il faut au moins 3 à 4 fois plus de mesures pour aboutir à des calculs pertinents.
Un bon nombre de mesures collectées serait alors au moins 40.

Si on tient compte du fait que Rowing enregistre les données après chaque coup d’aviron, qu’un rameur adopte une cadence de 20 coups/min, il faut tenir compte des circuits d’au moins deux minutes pour avoir des données exploitables.

Les données sont consultables sur Garmin Connect dans le tableau sur les informations des circuits. L’interprétation est identique aux statistiques qu’on utilise habituellement (moyenne, écart type, maximum et minimum) mais elles filtrent les perturbations de course liées à l’environnement ce qui permet un meilleur suivi lors des entrainements.


  1. “The P-Square Algorithm for Dynamic Calculation of Percentiles and Histograms without Storing Observations”, Communications of the ACM, October 1985 by R. Jain and I. Chlamtac ↩︎


Partagez pour mieux faire connaître!