arthur.bebou

Le site arthur.bebou.netlib.re - retour accueil

git clone git://bebou.netlib.re/arthur.bebou
Log | Files | Refs |

index.sh (14897B)


      1 #! page
      2 title: Des données, des stats et un jeu sur les JO d\'été
      3 author: Arthur Pons
      4 description: L\'escrime ou le judo, quel est le meilleur sport pour la France aux JO d\'été ?
      5 publication: 2024-08-21
      6 
      7 sectionmd: main
      8 
      9 **Article vaguement relu**
     10 
     11 Avant toute chose je tiens à rappeler que l'édition 2024 Jeux Olympiques à Paris
     12 a provoqué l'expulsion ou servi de prétexte pour expulser de nombreuses
     13 personnes, dont la plupart sont vulnérables, de la capitale[^1]. La logique
     14 sécuritaire appliquée lors de l'évènement, mais déjà bien rodée depuis des
     15 années, a également mené des dizaines de militant·es en garde à vue
     16 abusives[^2][^3].
     17 
     18 Petit j'ai adoré regarder les JO et j'admets que mon éveil politique a rendu mon
     19 enthousiasme à ce sujet assez amer. Je pense que cette nostalgie m'empêche de
     20 prendre des positions et de modifier mes comportements à la hauteur de mes
     21 convictions. Là où il m'est très facile de ne plus manger de viande ou de me
     22 déplacer sans (directement) brûler de combustibles fossiles j'ai eu du mal à
     23 ne pas m'intéresser aux JO. Plus qu'à militer contre paradoxalement.
     24 
     25 Alors en attendant que les JO disparaissent ou que l'on parvienne à imaginer une
     26 manière de les faire qui ne génère plus systématiquement de nombreux impacts
     27 sociaux et environnementaux[^4], j'ai voulu regarder quelques statistiques à leurs
     28 propos.
     29 
     30 ## Les données
     31 
     32 J'ai cherché un jeu de données tabulaire comportant toutes les médailles
     33 remportées dans l'histoire des JO avec au moins l'édition, la couleur de la
     34 médaille, l'athlète, la date, le sport et l'épreuve. Il se trouve que je n'ai
     35 pas trouvé. En traînant dans ce monde on tombe souvent sur le site
     36 www.olympedia.org. Si l'on s'en tient aux résultats je pense que l'on retrouve
     37 plus ou moins la même chose sur wikipédia mais je n'ai jamais vraiment pris le
     38 temps d'apprendre à interroger wikidata. Le gros désavantage est que les
     39 personnes derrière ce site ont arrêté de renseigner la base de donnée. Les
     40 résultats post Tokyo 2020 n'y sont donc pas, ni les potentielles mise à jour
     41 suite à des contrôles positifs etc. Je ne garantis pas de n'avoir fait aucune
     42 erreur dans le scraping des données, notamment pour les premiers JO. Si vous en
     43 relevez n'hésitez pas à me le dire.
     44 
     45 Voici dans un seul fichier les 37 775 médailles délivrées aux JO d'été :
     46 [all.tsv.gz - ~535Ko](all.tsv.gz). Il peut être d'gzipé en un fichier de 5,7Mo avec `gunzip all.tsv.gz` ou, si vous n'avez pas la place, lu directement avec `zcat all.tsv.gz`.
     47 
     48 Le format est le suivant :
     49 
     50     1  id            : identifiant de la page de résultat du site olympedia.org
     51     2  date          : date de l'évènement. Actuellement dans un non standardisé, désolé
     52     3  location      : lieu de l'évènement
     53     4  edition       : année des JO (par ex : 2004 pour Athène)
     54     5  sport         : sport de l'évènement
     55     6  event         : épreuve pour lequel la médaille a été octroyé. Par exemple sport=athlétisme, event=saut en hauteur
     56     7  country       : pays de l'athlète
     57     8  athlete       : athlète médaillé
     58     9  color         : couleur de la médaille
     59     10 team          : est-ce que l'évènement se joue par équipe
     60     11  countrycode  : code IOC du pays de l'athlète[^8]
     61 
     62 ## Des statistiques
     63 
     64 Deux remarques avant de se lancer :
     65 
     66   1. Ne partez pas du principe qu'un évènement c'est trois athlètes qui se
     67      partagent l'or l'argent et le bronze. De nombreuses épreuves se jouent par
     68      par équipe voir distribuent plusieurs médailles d'une même couleur (le judo
     69      et la boxe donnent deux bronzes par exemple). Il existe même un évènement
     70      par équipe où les USA ont présenté plusieurs équipes ! Malheureusement il
     71      est difficile de faire la part des choses dans un TSV.
     72   2. Le TSV contient une ligne par personne qui a obtenue une médaille. Un
     73      évènement de handball représente donc toute une floppée de ligne même si,
     74      ramené au pays, cela ne représente qu'une seule médaille. Avant de faire
     75      des statistiques sur les médailles par pays ils faut donc écraser les
     76      résultats des évènements par équipe.
     77 
     78 Une fois le données récupérées je me suis rendu compte que j'étais très peu
     79 inspiré pour en faire des statistiques. La seule chose qui me soit venu à
     80 l'esprit a été de vérifier l'idée selon laquelle l'escrime est le sport
     81 qui pourvoi le plus de médailles à la France. A la lumière du point 2. il faut
     82 d'abord dédupliquer les médailles des évènements par équipe. Pour cela on retire
     83 le nom des athlètes et on retire les duplicats. Il ne reste plus qu'à filtrer
     84 sur la France, conserver le sport et les compter :
     85 
     86     $ cut -f8 --complement all.tsv | sort -u | #Retirer les athlètes
     87         grep -w FRA |                          #Filtrer sur la France
     88         cut -f5 |                              #Garder que les sports
     89         sort | uniq -c | sort -n               #Les compter
     90     [...]
     91     36	Rowing
     92     43	Swimming
     93     51	Sailing
     94     57	Judo
     95     62	Cycling Track
     96     68	Athletics
     97     120	Fencing
     98 
     99 Cela confirme qu'effectivement l'escrime est le plus grand pourvoyeur de médaille
    100 pour la France et de très loin. Cela dit, regardant les JO depuis 2004 j'avais
    101 l'intuition qu'il ne fournissait pas plus de deux fois plus de médailles que les
    102 autres sports. J'ai donc émit l'hypothèse que tout cela avait changé avec le
    103 temps. Vérifions. J'ai écrit un script qui récupère le nombre de médaille d'un
    104 pays par sport par année. Par exemple pour la France pour les cinq "meilleurs"
    105 sports :
    106 
    107 |year|Fencing|Athletics|Cycling Track|Judo|Sailing
    108 |---|---|---|---|---|---|
    109 1900|15|7|6|0|26|5|6|6|0|13|3|2|0|0|0
    110 1904|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0
    111 1908|4|2|5|0|1|0|0|2|0|3|1|0|0|0|0
    112 1912|0|2|0|0|1|0|0|2|0|0|1|5|0|0|0
    113 ...||||||
    114 |2008|4|3|2|4|3|6|2|1|3|1|2|0|3|0|1|
    115 |2012|0|3|3|7|1|7|1|2|0|0|1|2|1|0|2|
    116 |2016|3|6|1|5|3|3|2|2|6|1|0|0|0|0|2|
    117 |2020|5|1|2|8|3|1|2|1|0|0|0|0|0|0|0|
    118 
    119 On voit qu'effectivement la distribution des médailles dans le temps n'est pas
    120 uniforme. On a des années tout à fait exceptionnelle comme l'année 1900 avec les
    121 15 et 26 médailles respectivement en escrime et en voile. Le judo lui est top 4
    122 alors que la première médaille n'était possible qu'en 1964 :
    123 
    124     $ < all.tsv cut-f4,5 | sort -u | grep Judo
    125     1964	Judo
    126     1972	Judo
    127     1976	Judo
    128     1980	Judo
    129     1984	Judo
    130     [...]
    131 
    132 Reproduisons donc le même tableau en cumulé depuis 1964 et en y ajoutant à la
    133 main les résultats de 2024 :
    134 
    135 year|Fencing|Athletics|Cycling Track|Judo|Sailing
    136 |---|---|---|---|---|---
    137 1964|60|37|30|0|32
    138 1968|62|39|35|0|32
    139 1972|65|41|36|3|34
    140 1976|68|42|37|4|34
    141 1980|74|43|39|8|34
    142 1984|81|47|40|11|35
    143 1988|84|48|40|13|37
    144 1992|89|49|40|20|39
    145 1996|96|53|46|26|39
    146 2000|102|53|52|32|39
    147 2004|108|55|54|33|41
    148 2008|112|58|56|37|44
    149 2012|112|61|59|44|45
    150 2016|115|67|60|49|48
    151 2020|120|68|62|57|51
    152 2024|127|69|63|67|53
    153 
    154 On voit que la compétition entre le judo et l'escrime est bien plus serrée qu'il
    155 n'y paraît puisqu'en 15 éditions les deux sports ont remporté presque le même
    156 nombre de médailles, à un rythme deux fois plus élevé que l'athlétisme et le
    157 cyclisme sur piste. Sous forme de graph[^5] :
    158 
    159 ![Cumul des médailles en Escrime, athlé, cyclisme sur piste, judo et voile de la France de 1900 à 2024](cumul-medaille.png)
    160 
    161 Conclusion : bien qu'en absolu l'escrime mérite son statut de plus grand
    162 pourvoyeur de médaille cela s'explique principalement par une présence du sport
    163 depuis la toute première édition des JO modernes et une avance quelque peu
    164 injuste du fait des jeux un peu particulier de 1900. Depuis l'introduction du
    165 judo aux JO ce sport tient tête à l'escrime en tant que plus grand pourvoyeur
    166 de médaille. Il est en passe de devenir le second sport devant l'athlétisme qui
    167 lui est au ralenti sur les trois dernières éditions et est passé devant le
    168 cyclisme sur piste, autre sport reconnu comme très fort pour les français·e, à
    169 Paris.
    170 
    171 Cependant une analyse honnête ne devrait pas s'arrêter là. En effet, il n'est
    172 pas tout à fait juste de comparer les sport entre eux sans prendre en compte le
    173 nombre de médailles mises en jeux. On comprend aisément qu'il sera impossible
    174 pour le handball d'être un sport majeur selon cette métrique puisqu'une
    175 domination totale ne remporterait que deux médailles à un pays donné. A
    176 l'inverse, un très grand athlète dans une discipline telle que la natation
    177 peut rapporter à ellui seul·e quatre médailles d'or voir plus pour son pays. Cf.
    178 Marchand à Paris, Phelps à Pékin, Ledecky à Rio etc. La mesure de la domination
    179 d'un pays dans un sport se mesure donc plutôt au pourcentage de médailles mise
    180 en jeux qu'il remporte. La mesure comparative de la contribution d'un sport au
    181 total des médailles d'un pays devrait donc faire de même.
    182 
    183 Commençons par savoir combien de médailles ont été mises en jeu pour un sport
    184 donné :
    185 
    186     < data tail -n+2 | cut --complement -f8 | sort -u | grep "	team" | cut --complement -f7,8,9,10 | sort -u > t
    187     < data tail -n+2 | cut --complement -f8 | sort -u | grep "	notteam" | sort -u > nt
    188     cat t nt | cut -f5 | sort | uniq -c | sort -rn
    189 
    190     2854  Athletics
    191     1538  Swimming
    192     1353  Wrestling
    193     996   Boxing
    194     878   Artistic Gymnastics
    195     784   Shooting
    196     672   Weightlifting
    197     602   Judo
    198     526   Rowing
    199     516   Canoe Sprint
    200     466   Fencing
    201     [...]
    202 
    203 On constate bien que la natation et l'athlétisme sont sur-représentés, de même
    204 que les sports de combats avec leurs nombreuses catégories de poids. Les sports
    205 par équipe sont à l'inverse moins bien dotées. C'est d'autant plus vrai qu'il
    206 n'est pas possible pour un pays de remporter plusieurs médailles sur des
    207 compétitions par équipe puisqu'elle n'investit qu'une seule équipe[^6]. A
    208 l'extrême inverse il est possible, comme la Suisse l'a fait en VTT féminin en
    209 2020, de remporter *toutes* les médailles d'un évènement solo donné[^7]. Il suffit
    210 d'avoir au moins trois athlètes qualifié·es. Pour gérer cette exception on peut
    211 se baser sur la dernière colonne qui nous renseigne si l'épreuve est par équipe
    212 ou pas. Si elle l'est on ne compte qu'une seule ligne sur les n de dispos. Je
    213 n'ai pas de certitude que tout soit exact dans cette manière de procéder mais ça
    214 devrait être assez proche de la réalité.
    215 
    216 Information importante pour notre duel "escrime vs judo", il y a plus
    217 d'opportunités de médailles en judo qu'en escrime et ce malgré le fait que
    218 l'escrime soit un sport plus ancien. Cela suggère qu'il est possiblement plus
    219 remarquable que la France remporte autant de médailles en escrime qu'en Judo
    220 depuis 1948. Pour en avoir le coeur net calculons le top 10 des pourcentages de
    221 médailles remportées sur le nombre de médailles gagnables pour chaque sport
    222 pour la France :
    223 
    224     Croquet              100.0
    225     Cricket              100.0
    226     Equestrian Driving   66.6
    227     Equestrian Vaulting  50.0
    228     Motorboating         33.3
    229     Handball             26.9
    230     Rugby Sevens         25.0
    231     Fencing              25.7
    232     Tug-Of-War           20.0
    233     Polo                 20.0
    234 
    235 La France intouchable en croquet et en criquet. Ces résultats nous apprennent
    236 d'abord qu'il existait lors des premiers JO tout un tas de disciplines
    237 dorénavant disparues. La France remportant une part démesurées des médailles à
    238 cette époque là, les statistiques sont évidemment très favorables. En réalité le
    239 premier sport qui est notable ici est le handball pour lequel la France est
    240 montée sur 27% des podiums. Pour la suite ne prenons en compte que les sports
    241 pratiqués depuis 1944 :
    242 
    243     Handball               26.9
    244     Rugby Sevens           25.0
    245     Fencing                25.7
    246     Basketball             18.7
    247     Equestrian Jumping     16.3
    248     Canoe Slalom           16.6
    249     Sailing                15.2
    250     Cycling Track          15.6
    251     Archery                15.9
    252     Cycling Mountain Bike  14.2
    253     Equestrian Dressage    13.6
    254     Cycling Road           11.0
    255     Tennis                 9.21
    256     Judo                   9.46
    257     [...]
    258 
    259 On voit que le pourcentage de l'escrime est bien plus élevé que celui du judo.
    260 Autrement dit la France est effectivement plus dominante en escrime qu'en judo
    261 même si le second apporte peu ou prou le même nombre de médaille que le premier
    262 depuis son existence.
    263 
    264 Je mets d'autre stats sympas au fur et à mesure [ici](stats.html).
    265 
    266 ## Un jeu
    267 
    268 Toute personne qui regarde les JO, ou qui a lu cet article jusque là, sait que
    269 les podiums sont souvent assez stéréotypés. Des coréen·nes pour le tir à l'arc, des
    270 chinois·es pour le plongeon, des tchèques et des slovaques pour le canoë/kayak, des
    271 japonais·es et des français·es pour le judo. Il devrait donc être possible de
    272 deviner le sport en voyant les pays sur le podium. J'en ai fait [un
    273 jeu](oly).
    274 
    275 Pour qu'il fonctionne il faudra d'abord avoir téléchargé le gros TSV puis
    276 modifié la ligne `data=...` pour y mettre le chemin du TSV. Il est dommage
    277 d'avoir à télécharger +500Ko pour jouer, je vais faire un client de jeu qui
    278 requête les données à la volée sur le serveur pour ne pas avoir à le faire.
    279 Alternativement il est installé sur le serveur. Le lancer avec `oly`. Il n'a
    280 été testé que sous debian 12.
    281 
    282 [Consulter les highscores des membres du serveur](highscores)
    283 
    284 [^1]: https://lereversdelamedaille.fr/wp-content/uploads/2024/06/Rapport-1-an-de-nettoyage-social-le-revers-de-la-medaille.pdf
    285 [^2]: https://extinctionrebellion.fr/blog/2024/07/30/retour-sur-une-semaine-de-repression.html
    286 [^3]: https://www.mediapart.fr/journal/france/160824/huit-femmes-du-collectif-des-hijabeuses-ont-ete-placees-en-garde-vue-en-marge-des-jo
    287 [^4]: Parce que trois faits listés précédemment ne sont pas des faits isolés. Ce genre de choses (et parfois plus grave) surviennent systématiquement à tous les JO.
    288 [^5]: Réalisé avec [ce script](cumul.gp)
    289 [^6]: sauf au moins une exception que j'ai repéré dans des vieux JO des US qui avaient investis **13** équipes pour une compétition de gymnastiques.
    290 [^7]: Si ça vous intéresse c'est survenu 111 fois de 1948 à 2020. Vous pouvez avoir la liste en tapant cette magnifique commande : `< all.tsv awk -F'\t' '$4>1944' | cut -f1,7 | sort -u | cut -f1 | sort | uniq -c | sort -n | grep -E "^ *1 " | cut -f2 | xargs -I{} grep "^{}" all.tsv`. Evidemment c'est les Etats-Unis et l'URSS qui mènent la danse des cartons pleins avec respectivement 47 et 20 podiums complets chacun.
    291 [^8]: petite info marrante, plusieurs codes désignent plusieurs pays différents. GUI désigne la Guinée et la Guyane Britanique. ROC désigne le Comité Olympique Russe mais aussi la République de Chine. "Heureusement", il se trouve que pour chacune de ces ambiguité, l'un des deux "pays" n'a jamais remorté de médaille donc pas de confusion possible.