Le site arthur.bebou.netlib.re - retour accueil
git clone git://bebou.netlib.re/arthur.bebou
Log | Files | Refs |
index.sh (14897B)
1 #! page 2 title: Des données, des stats et un jeu sur les JO d\'été 3 author: Arthur Pons 4 description: L\'escrime ou le judo, quel est le meilleur sport pour la France aux JO d\'été ? 5 publication: 2024-08-21 6 7 sectionmd: main 8 9 **Article vaguement relu** 10 11 Avant toute chose je tiens à rappeler que l'édition 2024 Jeux Olympiques à Paris 12 a provoqué l'expulsion ou servi de prétexte pour expulser de nombreuses 13 personnes, dont la plupart sont vulnérables, de la capitale[^1]. La logique 14 sécuritaire appliquée lors de l'évènement, mais déjà bien rodée depuis des 15 années, a également mené des dizaines de militant·es en garde à vue 16 abusives[^2][^3]. 17 18 Petit j'ai adoré regarder les JO et j'admets que mon éveil politique a rendu mon 19 enthousiasme à ce sujet assez amer. Je pense que cette nostalgie m'empêche de 20 prendre des positions et de modifier mes comportements à la hauteur de mes 21 convictions. Là où il m'est très facile de ne plus manger de viande ou de me 22 déplacer sans (directement) brûler de combustibles fossiles j'ai eu du mal à 23 ne pas m'intéresser aux JO. Plus qu'à militer contre paradoxalement. 24 25 Alors en attendant que les JO disparaissent ou que l'on parvienne à imaginer une 26 manière de les faire qui ne génère plus systématiquement de nombreux impacts 27 sociaux et environnementaux[^4], j'ai voulu regarder quelques statistiques à leurs 28 propos. 29 30 ## Les données 31 32 J'ai cherché un jeu de données tabulaire comportant toutes les médailles 33 remportées dans l'histoire des JO avec au moins l'édition, la couleur de la 34 médaille, l'athlète, la date, le sport et l'épreuve. Il se trouve que je n'ai 35 pas trouvé. En traînant dans ce monde on tombe souvent sur le site 36 www.olympedia.org. Si l'on s'en tient aux résultats je pense que l'on retrouve 37 plus ou moins la même chose sur wikipédia mais je n'ai jamais vraiment pris le 38 temps d'apprendre à interroger wikidata. Le gros désavantage est que les 39 personnes derrière ce site ont arrêté de renseigner la base de donnée. Les 40 résultats post Tokyo 2020 n'y sont donc pas, ni les potentielles mise à jour 41 suite à des contrôles positifs etc. Je ne garantis pas de n'avoir fait aucune 42 erreur dans le scraping des données, notamment pour les premiers JO. Si vous en 43 relevez n'hésitez pas à me le dire. 44 45 Voici dans un seul fichier les 37 775 médailles délivrées aux JO d'été : 46 [all.tsv.gz - ~535Ko](all.tsv.gz). Il peut être d'gzipé en un fichier de 5,7Mo avec `gunzip all.tsv.gz` ou, si vous n'avez pas la place, lu directement avec `zcat all.tsv.gz`. 47 48 Le format est le suivant : 49 50 1 id : identifiant de la page de résultat du site olympedia.org 51 2 date : date de l'évènement. Actuellement dans un non standardisé, désolé 52 3 location : lieu de l'évènement 53 4 edition : année des JO (par ex : 2004 pour Athène) 54 5 sport : sport de l'évènement 55 6 event : épreuve pour lequel la médaille a été octroyé. Par exemple sport=athlétisme, event=saut en hauteur 56 7 country : pays de l'athlète 57 8 athlete : athlète médaillé 58 9 color : couleur de la médaille 59 10 team : est-ce que l'évènement se joue par équipe 60 11 countrycode : code IOC du pays de l'athlète[^8] 61 62 ## Des statistiques 63 64 Deux remarques avant de se lancer : 65 66 1. Ne partez pas du principe qu'un évènement c'est trois athlètes qui se 67 partagent l'or l'argent et le bronze. De nombreuses épreuves se jouent par 68 par équipe voir distribuent plusieurs médailles d'une même couleur (le judo 69 et la boxe donnent deux bronzes par exemple). Il existe même un évènement 70 par équipe où les USA ont présenté plusieurs équipes ! Malheureusement il 71 est difficile de faire la part des choses dans un TSV. 72 2. Le TSV contient une ligne par personne qui a obtenue une médaille. Un 73 évènement de handball représente donc toute une floppée de ligne même si, 74 ramené au pays, cela ne représente qu'une seule médaille. Avant de faire 75 des statistiques sur les médailles par pays ils faut donc écraser les 76 résultats des évènements par équipe. 77 78 Une fois le données récupérées je me suis rendu compte que j'étais très peu 79 inspiré pour en faire des statistiques. La seule chose qui me soit venu à 80 l'esprit a été de vérifier l'idée selon laquelle l'escrime est le sport 81 qui pourvoi le plus de médailles à la France. A la lumière du point 2. il faut 82 d'abord dédupliquer les médailles des évènements par équipe. Pour cela on retire 83 le nom des athlètes et on retire les duplicats. Il ne reste plus qu'à filtrer 84 sur la France, conserver le sport et les compter : 85 86 $ cut -f8 --complement all.tsv | sort -u | #Retirer les athlètes 87 grep -w FRA | #Filtrer sur la France 88 cut -f5 | #Garder que les sports 89 sort | uniq -c | sort -n #Les compter 90 [...] 91 36 Rowing 92 43 Swimming 93 51 Sailing 94 57 Judo 95 62 Cycling Track 96 68 Athletics 97 120 Fencing 98 99 Cela confirme qu'effectivement l'escrime est le plus grand pourvoyeur de médaille 100 pour la France et de très loin. Cela dit, regardant les JO depuis 2004 j'avais 101 l'intuition qu'il ne fournissait pas plus de deux fois plus de médailles que les 102 autres sports. J'ai donc émit l'hypothèse que tout cela avait changé avec le 103 temps. Vérifions. J'ai écrit un script qui récupère le nombre de médaille d'un 104 pays par sport par année. Par exemple pour la France pour les cinq "meilleurs" 105 sports : 106 107 |year|Fencing|Athletics|Cycling Track|Judo|Sailing 108 |---|---|---|---|---|---| 109 1900|15|7|6|0|26|5|6|6|0|13|3|2|0|0|0 110 1904|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0 111 1908|4|2|5|0|1|0|0|2|0|3|1|0|0|0|0 112 1912|0|2|0|0|1|0|0|2|0|0|1|5|0|0|0 113 ...|||||| 114 |2008|4|3|2|4|3|6|2|1|3|1|2|0|3|0|1| 115 |2012|0|3|3|7|1|7|1|2|0|0|1|2|1|0|2| 116 |2016|3|6|1|5|3|3|2|2|6|1|0|0|0|0|2| 117 |2020|5|1|2|8|3|1|2|1|0|0|0|0|0|0|0| 118 119 On voit qu'effectivement la distribution des médailles dans le temps n'est pas 120 uniforme. On a des années tout à fait exceptionnelle comme l'année 1900 avec les 121 15 et 26 médailles respectivement en escrime et en voile. Le judo lui est top 4 122 alors que la première médaille n'était possible qu'en 1964 : 123 124 $ < all.tsv cut-f4,5 | sort -u | grep Judo 125 1964 Judo 126 1972 Judo 127 1976 Judo 128 1980 Judo 129 1984 Judo 130 [...] 131 132 Reproduisons donc le même tableau en cumulé depuis 1964 et en y ajoutant à la 133 main les résultats de 2024 : 134 135 year|Fencing|Athletics|Cycling Track|Judo|Sailing 136 |---|---|---|---|---|--- 137 1964|60|37|30|0|32 138 1968|62|39|35|0|32 139 1972|65|41|36|3|34 140 1976|68|42|37|4|34 141 1980|74|43|39|8|34 142 1984|81|47|40|11|35 143 1988|84|48|40|13|37 144 1992|89|49|40|20|39 145 1996|96|53|46|26|39 146 2000|102|53|52|32|39 147 2004|108|55|54|33|41 148 2008|112|58|56|37|44 149 2012|112|61|59|44|45 150 2016|115|67|60|49|48 151 2020|120|68|62|57|51 152 2024|127|69|63|67|53 153 154 On voit que la compétition entre le judo et l'escrime est bien plus serrée qu'il 155 n'y paraît puisqu'en 15 éditions les deux sports ont remporté presque le même 156 nombre de médailles, à un rythme deux fois plus élevé que l'athlétisme et le 157 cyclisme sur piste. Sous forme de graph[^5] : 158 159 ![Cumul des médailles en Escrime, athlé, cyclisme sur piste, judo et voile de la France de 1900 à 2024](cumul-medaille.png) 160 161 Conclusion : bien qu'en absolu l'escrime mérite son statut de plus grand 162 pourvoyeur de médaille cela s'explique principalement par une présence du sport 163 depuis la toute première édition des JO modernes et une avance quelque peu 164 injuste du fait des jeux un peu particulier de 1900. Depuis l'introduction du 165 judo aux JO ce sport tient tête à l'escrime en tant que plus grand pourvoyeur 166 de médaille. Il est en passe de devenir le second sport devant l'athlétisme qui 167 lui est au ralenti sur les trois dernières éditions et est passé devant le 168 cyclisme sur piste, autre sport reconnu comme très fort pour les français·e, à 169 Paris. 170 171 Cependant une analyse honnête ne devrait pas s'arrêter là. En effet, il n'est 172 pas tout à fait juste de comparer les sport entre eux sans prendre en compte le 173 nombre de médailles mises en jeux. On comprend aisément qu'il sera impossible 174 pour le handball d'être un sport majeur selon cette métrique puisqu'une 175 domination totale ne remporterait que deux médailles à un pays donné. A 176 l'inverse, un très grand athlète dans une discipline telle que la natation 177 peut rapporter à ellui seul·e quatre médailles d'or voir plus pour son pays. Cf. 178 Marchand à Paris, Phelps à Pékin, Ledecky à Rio etc. La mesure de la domination 179 d'un pays dans un sport se mesure donc plutôt au pourcentage de médailles mise 180 en jeux qu'il remporte. La mesure comparative de la contribution d'un sport au 181 total des médailles d'un pays devrait donc faire de même. 182 183 Commençons par savoir combien de médailles ont été mises en jeu pour un sport 184 donné : 185 186 < data tail -n+2 | cut --complement -f8 | sort -u | grep " team" | cut --complement -f7,8,9,10 | sort -u > t 187 < data tail -n+2 | cut --complement -f8 | sort -u | grep " notteam" | sort -u > nt 188 cat t nt | cut -f5 | sort | uniq -c | sort -rn 189 190 2854 Athletics 191 1538 Swimming 192 1353 Wrestling 193 996 Boxing 194 878 Artistic Gymnastics 195 784 Shooting 196 672 Weightlifting 197 602 Judo 198 526 Rowing 199 516 Canoe Sprint 200 466 Fencing 201 [...] 202 203 On constate bien que la natation et l'athlétisme sont sur-représentés, de même 204 que les sports de combats avec leurs nombreuses catégories de poids. Les sports 205 par équipe sont à l'inverse moins bien dotées. C'est d'autant plus vrai qu'il 206 n'est pas possible pour un pays de remporter plusieurs médailles sur des 207 compétitions par équipe puisqu'elle n'investit qu'une seule équipe[^6]. A 208 l'extrême inverse il est possible, comme la Suisse l'a fait en VTT féminin en 209 2020, de remporter *toutes* les médailles d'un évènement solo donné[^7]. Il suffit 210 d'avoir au moins trois athlètes qualifié·es. Pour gérer cette exception on peut 211 se baser sur la dernière colonne qui nous renseigne si l'épreuve est par équipe 212 ou pas. Si elle l'est on ne compte qu'une seule ligne sur les n de dispos. Je 213 n'ai pas de certitude que tout soit exact dans cette manière de procéder mais ça 214 devrait être assez proche de la réalité. 215 216 Information importante pour notre duel "escrime vs judo", il y a plus 217 d'opportunités de médailles en judo qu'en escrime et ce malgré le fait que 218 l'escrime soit un sport plus ancien. Cela suggère qu'il est possiblement plus 219 remarquable que la France remporte autant de médailles en escrime qu'en Judo 220 depuis 1948. Pour en avoir le coeur net calculons le top 10 des pourcentages de 221 médailles remportées sur le nombre de médailles gagnables pour chaque sport 222 pour la France : 223 224 Croquet 100.0 225 Cricket 100.0 226 Equestrian Driving 66.6 227 Equestrian Vaulting 50.0 228 Motorboating 33.3 229 Handball 26.9 230 Rugby Sevens 25.0 231 Fencing 25.7 232 Tug-Of-War 20.0 233 Polo 20.0 234 235 La France intouchable en croquet et en criquet. Ces résultats nous apprennent 236 d'abord qu'il existait lors des premiers JO tout un tas de disciplines 237 dorénavant disparues. La France remportant une part démesurées des médailles à 238 cette époque là, les statistiques sont évidemment très favorables. En réalité le 239 premier sport qui est notable ici est le handball pour lequel la France est 240 montée sur 27% des podiums. Pour la suite ne prenons en compte que les sports 241 pratiqués depuis 1944 : 242 243 Handball 26.9 244 Rugby Sevens 25.0 245 Fencing 25.7 246 Basketball 18.7 247 Equestrian Jumping 16.3 248 Canoe Slalom 16.6 249 Sailing 15.2 250 Cycling Track 15.6 251 Archery 15.9 252 Cycling Mountain Bike 14.2 253 Equestrian Dressage 13.6 254 Cycling Road 11.0 255 Tennis 9.21 256 Judo 9.46 257 [...] 258 259 On voit que le pourcentage de l'escrime est bien plus élevé que celui du judo. 260 Autrement dit la France est effectivement plus dominante en escrime qu'en judo 261 même si le second apporte peu ou prou le même nombre de médaille que le premier 262 depuis son existence. 263 264 Je mets d'autre stats sympas au fur et à mesure [ici](stats.html). 265 266 ## Un jeu 267 268 Toute personne qui regarde les JO, ou qui a lu cet article jusque là, sait que 269 les podiums sont souvent assez stéréotypés. Des coréen·nes pour le tir à l'arc, des 270 chinois·es pour le plongeon, des tchèques et des slovaques pour le canoë/kayak, des 271 japonais·es et des français·es pour le judo. Il devrait donc être possible de 272 deviner le sport en voyant les pays sur le podium. J'en ai fait [un 273 jeu](oly). 274 275 Pour qu'il fonctionne il faudra d'abord avoir téléchargé le gros TSV puis 276 modifié la ligne `data=...` pour y mettre le chemin du TSV. Il est dommage 277 d'avoir à télécharger +500Ko pour jouer, je vais faire un client de jeu qui 278 requête les données à la volée sur le serveur pour ne pas avoir à le faire. 279 Alternativement il est installé sur le serveur. Le lancer avec `oly`. Il n'a 280 été testé que sous debian 12. 281 282 [Consulter les highscores des membres du serveur](highscores) 283 284 [^1]: https://lereversdelamedaille.fr/wp-content/uploads/2024/06/Rapport-1-an-de-nettoyage-social-le-revers-de-la-medaille.pdf 285 [^2]: https://extinctionrebellion.fr/blog/2024/07/30/retour-sur-une-semaine-de-repression.html 286 [^3]: https://www.mediapart.fr/journal/france/160824/huit-femmes-du-collectif-des-hijabeuses-ont-ete-placees-en-garde-vue-en-marge-des-jo 287 [^4]: Parce que trois faits listés précédemment ne sont pas des faits isolés. Ce genre de choses (et parfois plus grave) surviennent systématiquement à tous les JO. 288 [^5]: Réalisé avec [ce script](cumul.gp) 289 [^6]: sauf au moins une exception que j'ai repéré dans des vieux JO des US qui avaient investis **13** équipes pour une compétition de gymnastiques. 290 [^7]: Si ça vous intéresse c'est survenu 111 fois de 1948 à 2020. Vous pouvez avoir la liste en tapant cette magnifique commande : `< all.tsv awk -F'\t' '$4>1944' | cut -f1,7 | sort -u | cut -f1 | sort | uniq -c | sort -n | grep -E "^ *1 " | cut -f2 | xargs -I{} grep "^{}" all.tsv`. Evidemment c'est les Etats-Unis et l'URSS qui mènent la danse des cartons pleins avec respectivement 47 et 20 podiums complets chacun. 291 [^8]: petite info marrante, plusieurs codes désignent plusieurs pays différents. GUI désigne la Guinée et la Guyane Britanique. ROC désigne le Comité Olympique Russe mais aussi la République de Chine. "Heureusement", il se trouve que pour chacune de ces ambiguité, l'un des deux "pays" n'a jamais remorté de médaille donc pas de confusion possible.