arthur.bebou

Le site arthur.bebou.netlib.re - retour accueil

git clone git://bebou.netlib.re/arthur.bebou
Log | Files | Refs |

commit 64cc81563e76628efc6c552dee06158b930a10e6
parent 804efcc836794fdb2870fc8e99fcbfe60da8df3c
Auterice: Arthur Pons <arthur.pons@unistra.fr>
Date:   Wed, 21 Aug 2024 12:22:43 +0200

Relecture article jo

Diffstat:
Mcontents/jo-stats/index.sh | 73++++++++++++++++++++++++++++++++++++++-----------------------------------
1 file changed, 38 insertions(+), 35 deletions(-)

diff --git a/contents/jo-stats/index.sh b/contents/jo-stats/index.sh @@ -2,24 +2,25 @@ title: Des données, des stats et un jeu sur les JO d\'été author: Arthur Pons description: Des données, des statistiques et un jeu sur les JO d\'été -publication: 2024-09-01 +publication: 2024-08-21 sectionmd: main -**Article non relu** +**Article vaguement relu** Avant toute chose je tiens à rappeler que l'édition 2024 Jeux Olympiques à Paris -a provoqué ou servi de prétexte pour expulser de nombreuses personnes, dont -la plupart sont vulnérables, de la capitale[^1]. La logique sécuritaire -appliquée lors de l'évènement, mais déjà bien rodé depuis des années, a -également mené des dizaines de militant·es en garde à vue abusives[^2][^3]. +a provoqué l'expulsion ou servi de prétexte pour expulser de nombreuses +personnes, dont la plupart sont vulnérables, de la capitale[^1]. La logique +sécuritaire appliquée lors de l'évènement, mais déjà bien rodée depuis des +années, a également mené des dizaines de militant·es en garde à vue +abusives[^2][^3]. Petit j'ai adoré regarder les JO et j'admets que mon éveil politique a rendu mon enthousiasme à ce sujet assez amer. Je pense que cette nostalgie m'empêche de prendre des positions et de modifier mes comportements à la hauteur de mes -convictions. Là où il m'est très facile de ne plus manger de viande, de me -déplacer sans (direction) brûler de combustibles fossiles j'ai eu du mal à -mettre l'évènement de côté. Plus qu'à militer contre au fond. +convictions. Là où il m'est très facile de ne plus manger de viande ou de me +déplacer sans (directement) brûler de combustibles fossiles j'ai eu du mal à +ne pas m'intéresser aux JO. Plus qu'à militer contre paradoxalement. Alors en attendant que les JO disparaissent ou que l'on parvienne à imaginer une manière de les faire qui ne génère plus systématiquement de nombreux impacts @@ -30,12 +31,12 @@ propos. J'ai cherché un jeu de données tabulaire comportant toutes les médailles remportées dans l'histoire des JO avec au moins l'édition, la couleur de la -médaille, l'athlète, la date, le sport et l'évènement. Il se trouve que je n'ai +médaille, l'athlète, la date, le sport et l'épreuve. Il se trouve que je n'ai pas trouvé. En traînant dans ce monde on tombe souvent sur le site www.olympedia.org. Si l'on s'en tient aux résultats je pense que l'on retrouve plus ou moins la même chose sur wikipédia mais je n'ai jamais vraiment pris le temps d'apprendre à interroger wikidata. Le gros désavantage est que les -personnes derrière ce site on arrêté de renseigner la base de donnée. Les +personnes derrière ce site ont arrêté de renseigner la base de donnée. Les résultats post Tokyo 2020 n'y sont donc pas, ni les potentielles mise à jour suite à des contrôles positifs etc. Je ne garantis pas de n'avoir fait aucune erreur dans le scraping des données, notamment pour les premiers JO. Si vous en @@ -51,7 +52,7 @@ Le format est le suivant : 3 location : lieu de l'évènement 4 edition : année des JO (par ex : 2004 pour Athène) 5 sport : sport de l'évènement - 6 event : "évènement" pour lequel la médaille a été octroyé. Par exemple sport=athlétisme, event=saut en hauteur + 6 event : épreuve pour lequel la médaille a été octroyé. Par exemple sport=athlétisme, event=saut en hauteur 7 country : pays de l'athlète 8 athlete : athlète médaillé 9 color : couleur de la médaille @@ -62,21 +63,21 @@ Le format est le suivant : Deux remarques avant de se lancer : 1. Ne partez pas du principe qu'un évènement c'est trois athlètes qui se - partagent l'or l'argent et le bronze. De nombreux évènements se jouent par + partagent l'or l'argent et le bronze. De nombreuses épreuves se jouent par par équipe voir distribuent plusieurs médailles d'une même couleur (le judo et la boxe donnent deux bronzes par exemple). Il existe même un évènement par équipe où les USA ont présenté plusieurs équipes ! Malheureusement il est difficile de faire la part des choses dans un TSV. 2. Le TSV contient une ligne par personne qui a obtenue une médaille. Un évènement de handball représente donc toute une floppée de ligne même si, - ramené au pays, cela ne représente qu'une seule médaille. Avant de faire de - statistiques sur les médailles par pays ils faut donc écraser les résultats - des évènements par équipe. + ramené au pays, cela ne représente qu'une seule médaille. Avant de faire + des statistiques sur les médailles par pays ils faut donc écraser les + résultats des évènements par équipe. Une fois le données récupérées je me suis rendu compte que j'étais très peu inspiré pour en faire des statistiques. La seule chose qui me soit venu à l'esprit a été de vérifier l'idée selon laquelle l'escrime est le sport -qui pourvoi le plus de médaille à la France. A la lumière du point 2. il faut +qui pourvoi le plus de médailles à la France. A la lumière du point 2. il faut d'abord dédupliquer les médailles des évènements par équipe. Pour cela on retire le nom des athlètes et on retire les duplicats. Il ne reste plus qu'à filtrer sur la France, conserver le sport et les compter : @@ -96,10 +97,10 @@ sur la France, conserver le sport et les compter : Cela confirme qu'effectivement l'escrime est le plus grand pourvoyeur de médaille pour la France et de très loin. Cela dit, regardant les JO depuis 2004 j'avais -l'intuition qu'il ne fournissait pas plus de deux fois plus de médaille que les +l'intuition qu'il ne fournissait pas plus de deux fois plus de médailles que les autres sports. J'ai donc émit l'hypothèse que tout cela avait changé avec le temps. Vérifions. J'ai écrit un script qui récupère le nombre de médaille d'un -pays par sport par année. Par exemple pour la France pour les cinq meilleurs +pays par sport par année. Par exemple pour la France pour les cinq "meilleurs" sports : |year|Fencing|Athletics|Cycling Track|Judo|Sailing @@ -158,12 +159,13 @@ cyclisme sur piste. Sous forme de graph[^5] : Conclusion : bien qu'en absolu l'escrime mérite son statut de plus grand pourvoyeur de médaille cela s'explique principalement par une présence du sport -depuis les tous premiers JO et une avance quelque peu injuste du fait des jeux -un peu particulier de 1900. Depuis l'introduction du judo aux JO ce sport tient -tête à l'escrime en tant que plus grand pourvoyeur de médaille. Il est en passe -de devenir le second sport devant l'athlétisme qui lui est au ralenti sur les -trois dernières éditions et est passé devant le cyclisme sur piste, autre sport -reconnu comme très fort pour les français·e, à Paris. +depuis la toute première édition des JO modernes et une avance quelque peu +injuste du fait des jeux un peu particulier de 1900. Depuis l'introduction du +judo aux JO ce sport tient tête à l'escrime en tant que plus grand pourvoyeur +de médaille. Il est en passe de devenir le second sport devant l'athlétisme qui +lui est au ralenti sur les trois dernières éditions et est passé devant le +cyclisme sur piste, autre sport reconnu comme très fort pour les français·e, à +Paris. Cependant une analyse honnête ne devrait pas s'arrêter là. En effet, il n'est pas tout à fait juste de comparer les sport entre eux sans prendre en compte le @@ -182,7 +184,7 @@ donné : < data tail -n+2 | cut --complement -f8 | sort -u | grep " team" | cut --complement -f7,8,9,10 | sort -u > t < data tail -n+2 | cut --complement -f8 | sort -u | grep " notteam" | sort -u > nt - cat t nt | cut -f5 | occu + cat t nt | cut -f5 | sort | uniq -c | sort -rn 2854 Athletics 1538 Swimming @@ -210,12 +212,13 @@ ou pas. Si elle l'est on ne compte qu'une seule ligne sur les n de dispos. Je n'ai pas de certitude que tout soit exact dans cette manière de procéder mais ça devrait être assez proche de la réalité. -Information importante, il y a plus d'opportunités de médailles en judo qu'en -escrime et ce malgré le fait que l'escrime soit un sport plus ancien. Cela -suggère qu'il est possiblement plus remarquable que la France remporte autant de -médailleurs en escrime qu'en Judo depuis 1948. Pour en avoir le coeur net -calculons le top 10 des pourcentages de médailles remportées sur le nombre de -médailles gagnables pour chaque sport pour la France : +Information importante pour notre duel "escrime vs judo", il y a plus +d'opportunités de médailles en judo qu'en escrime et ce malgré le fait que +l'escrime soit un sport plus ancien. Cela suggère qu'il est possiblement plus +remarquable que la France remporte autant de médailles en escrime qu'en Judo +depuis 1948. Pour en avoir le coeur net calculons le top 10 des pourcentages de +médailles remportées sur le nombre de médailles gagnables pour chaque sport +pour la France : Croquet 100.0 Cricket 100.0 @@ -232,8 +235,8 @@ La France intouchable en croquet et en criquet. Ces résultats nous apprennent d'abord qu'il existait lors des premiers JO tout un tas de disciplines dorénavant disparues. La France remportant une part démesurées des médailles à cette époque là, les statistiques sont évidemment très favorables. En réalité le -premier sport qui est réellement notable ici est le handball pour lequel la -France est montée sur 27% des podiums. Ne prenons en compte que les sports +premier sport qui est notable ici est le handball pour lequel la France est +montée sur 27% des podiums. Pour la suite ne prenons en compte que les sports pratiqués depuis 1944 : Handball 26.9 @@ -267,7 +270,7 @@ deviner le sport en voyant les pays sur le podium. J'en ai fait [un jeu](oly). Pour qu'il fonctionne il faudra d'abord avoir téléchargé le gros TSV puis -modifier la ligne `data=...` pour y mettre le chemin du TSV. Il est dommage +modifié la ligne `data=...` pour y mettre le chemin du TSV. Il est dommage d'avoir à télécharger +500Ko pour jouer, je vais faire un client de jeu qui requête les données à la volée sur le serveur pour ne pas avoir à le faire. Alternativement il est installé sur le serveur. Le lancer avec `oly`. Il n'a