arthur.bebou

Le site arthur.bebou.netlib.re - retour accueil

git clone git://bebou.netlib.re/arthur.bebou

Log | Files | Refs |

commit 2670f328d2445fff99a5e4bc83a98b1d1d95a1b1
parent d925d5d1284b56944201a7de3be6bbedef2e8ede
Auteurice: Arthur Pons <arthur.pons@unistra.fr>
Date:   Fri, 25 Apr 2025 13:19:30 +0200

maj article crisco suite à ppp

Notamment pour s'aligner avec l'ajout de l'outil des

Diffstat:
Mcontents/crisco-des/index.sh | 62++++++++++++++++++++++++++++++++++++++++++++------------------
1 file changed, 44 insertions(+), 18 deletions(-)

diff --git a/contents/crisco-des/index.sh b/contents/crisco-des/index.sh @@ -6,21 +6,19 @@ publication: 2024-05-24 sectionmd: main -## Les résultats +Cet article a été partiellement réécrit suite aux demandes des participant·es +de PPPiraterie s'étant tenu à Cesure début avril 2025. Merci pour votre +enthousiasme ! + +## Les données [La base de données du DES en json - 6Mo](des.json.gz)\ [Un TSV du top 10 des synonymes pour chaque mot - 4Mo](data) -## Pourquoi ? +## L'outil pour les parcourir + -Parce que l'on veut pouvoir avoir des synonymes sans avoir besoin d'internet. -Cela favorise la résilience, la sobriété et l'interopérabilité des usages -numériques. Initialement je pensais que ce serait fatiguant à faire et/ou que -ça prendrait trop de place et/ou que ça n'était pas nécessaire au vu des -besoins (personne n'a besoin de la totalité des synonymes de la langue -française sous la main). Puis une amie m'a convaincu de l'inverse, notamment -que ça ne devrait pas représenter de grosses quantités de données, alors j'ai -essayé. Merci à elle ! +## Est-ce que c'est légale ? Sur la [page d'accueil] on retrouve ce texte : @@ -34,7 +32,7 @@ Sur la [page d'accueil] on retrouve ce texte : > requête automatique visant à collecter les données du DÉS est strictement > interdite. -Ce qui va suivre dans cet article est donc illégal 😲 +Ce qui va suivre dans cet article pourrait être illégal 😲 Pourtant le CRISCO est financé par de l'argent publique et rend déjà accessible la totalité des données du DES via son interface web. De plus le ministère de @@ -49,16 +47,44 @@ mal à comprendre pourquoi tracer une ligne rouge aux requêtes automatiques[^1] Je vais donc, l'esprit tranquille, procéder à utiliser une copie de cette base de donnée sans contrat de licence. Et sans faire de requête automatique. -## Comment ? +Par ailleurs la question se pose de savoir ce qu'est une requête une automatique +et comment le CRISCO pourrait les détecter. On comprend bien qu'une requête via +l'utilisation de leur interface web est autorisée, on comprend bien que l'esprit +du texte est d'interdire un script qui scrapperait toute la bdd mais quid d'une +requête `curl` individuelle, formée à la main au moment même du besoin ? + +Qui y'a-t-il de plus automatique dans le faite d'avoir un script comme celui-ci + + mot="$1" + curl -Ls "https://crisco4.unicaen.fr/des/synonymes/$1" | + grep -E "height:8px" | grep -Eo '/des/synonymes/[^"]+' | + cut -d'/' -f4 | tr '+' ' ' + +executé en écrivant `des manger` que dans le fait de faire construire la bonne +requête à firefox en écrivant dans une balise `input` et en cliquant sur le +bouton. C'est à mon sens strictement équivalent et l'on peut d'ailleurs trouver +des équivalences : l'argument passé à la commande est la balise `input` et son +contenu, l'appel à `curl` est le moteur de requête de firefox, le reste du code +est le moteur de rendu de firefox. + +Je pense donc que les mentions légales du CRISCO devraient insister sur +l'interdiction de récupérer la totalité de la base sans faire de distinction +basée sur la manière de requêter leur base. Sauf qu'il est précisé que la +reproduction des pages est permise ce qui implique que si l'on partage nos +requêtes nous pourrions peu à peu reformer la totalité de la base de donnée +sans pour autant l'aspirer dans sa totalité à l'échelle individuelle. C'est +compliqué tout ça. + +## Comment j'ai collecter les données Je pense que la première et bonne façon de faire aurait été d'envoyer un mail à l'équipe de recherche expliquant le besoin. Il est assez probable que l'équipe réponde favorablement. Cela dit j'avais à cœur de vérifier si c'était possible autrement, via un bête lien quelque part dans la documentation. -En l'occurrence je ne suis pas parvenu à trouver ce que je voulais ni sur la [page -d'accueil] ni [la page de présentation] ni [la page du dictionnaire elle-même]. -Je n'ai peut-être pas les yeux en face des trous. +En l'occurrence je ne suis pas parvenu à trouver ce que je voulais ni sur la +[page d'accueil] ni [la page de présentation] ni [la page du dictionnaire +elle-même]. Je n'ai peut-être pas les yeux en face des trous. Je suis toujours un peu tiraillé entre deux sentiments dans ce genre de cas. D'un côté je ne suis plus surpris de voir encore un service, une donnée, rendue @@ -88,9 +114,9 @@ dedans et on le pipe dans fzy dont la sortie sera ouverte dans vim : xargs -or vim Si vous êtes sur un ordi pas très puissant ça n'est probablement pas l'idée du -siècle mais passons. En cherchant un mot comme "machin" je trouve des occurrences -intéressantes dans le fichier `sortieDES.txt`, on le sélectionne pour l'ouvrir. -Effectivement on y trouve un gros objet json du type : +siècle mais passons. En cherchant un mot comme "machin" je trouve des +occurrences intéressantes dans le fichier `sortieDES.txt`, on le sélectionne +pour l'ouvrir. Effectivement on y trouve un gros objet json du type : { mot : {