conjugaison-light

Obtenir les terminaisons des verbes français - retour accueil

git clone git://bebou.netlib.re/conjugaison-light
Log | Files | Refs | README |

commit 3ad520e20f09cdcd0a7a91e65326a9f213d75ca8
parent 7a82512d64fd4da7fa2c4d98320883c25a4c2689
Auterice: arthur <arthur.pons@unistra.fr>
Date:   Fri,  4 Nov 2022 14:02:36 +0100

Simplification de verbe, documentation pour une idée de service

Aussi, ajout des verbes les plus fréquents, à voir si c'est utile

Diffstat:
MREADME | 45+++++++++++++++++++++++++++++++++++++++++++++
Afreq.txt | 421+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
Mverbe | 7++++---
3 files changed, 470 insertions(+), 3 deletions(-)

diff --git a/README b/README @@ -33,3 +33,48 @@ Un usage complet pourrait être ## Questions Est-ce qu'il existe une base hors ligne ? + +Je sais pas mais on peut en construire une. En se basant sur ce pdf des fréquences : +https://eduscol.education.fr/document/15661/download + +On peut constuire une liste des 421 verbes les lus fréquents (pdftotext a été utile) + +Par exemple pour construire les fichiers pour les trois verbes les plus +fréquentes dans un dossier data : + +head -n 3 freq.txt | xargs -I {} -n1 sh -c './verbe > data/.txt' -- {} + +Chaque fichier pèse environ 2Ko donc les 100 premiers verbes tiennent dans 200Ko + +On peut ensuite écrire une fonction du type + + conj() { + if [ -f ~/git/conjugaison-light/data/"$1".txt ] + then + data=$(cat ~/git/conjugaison-light/data/"$1".txt) + else + data=$(~/git/conjugaison-light/verbe $1) + fi + echo $data | ~/git/conjugaison-light/tabulate | ~/git/conjugaison-light/colorate | ~/git/conjugaison-light/filter $2 $3 $4 | column -nts ' ' + } + +Qui permet d'aller taper dans les verbes déjà téléchargés si le fichier existe +et de demander au site s'il n'existe pas. +On peut faire autrement en créant un nouveau fichier dans la "base" s'il +n'existait pas encore. Ainsi on s'économise le téléchargement de n pages au +préalable. On aurait donc aucun fichier à l'origine mais tout verbe requêté une +seconde fois ne passerait plus par conjugaisonfrancaise.com. Ca evite de +télécharger pleins de verbes en amont, même les plus fréquents, sans savoir +s'ils seront utilisés. + +Avec un petit CGI monter un service ? + +Les pages de conjugaisonfrancaise.com font environ 670Ko, 200Ko transférés +La version TSV avec la coloration des terminaisons fait environ 5,5Ko +Avec les filtres on peut s'arranger pour ne transférer que quelques octets + +Pour vérifier une terminaison on passerait donc de 200Ko transférés à 200Ko+~100o +la première fois et 100o les suivantes. Je ne sais pas à quel point un site +comme celui-ci est fréquenté mais sachant que le facteur par lequel on divise +les données transférées est de 2000 on est gagants même sur un nombre très +faible de requêtes. diff --git a/freq.txt b/freq.txt @@ -0,0 +1,421 @@ +être +avoir +faire +dire +pouvoir +aller +voir +vouloir +venir +devoir +prendre +trouver +donner +falloir +parler +mettre +savoir +passer +regarder +aimer +croire +demander +rester +répondre +entendre +penser +arriver +connaître +devenir +sentir +sembler +tenir +comprendre +rendre +attendre +sortir +vivre +entrer +reprendre +porter +chercher +revenir +appeler +mourir +partir +jeter +suivre +écrire +montrer +tomber +ouvrir +arrêter +perdre +commencer +paraître +marcher +lever +permettre +asseoir +écouter +monter +apercevoir +recevoir +servir +finir +rire +crier +jouer +tourner +garder +reconnaître +quitter +manger +courir +continuer +oublier +descendre +cacher +poser +tirer +présenter +ajouter +agir +retrouver +offrir +apprendre +tuer +retourner +rencontrer +envoyer +dormir +pousser +rappeler +lire +changer +essayer +compter +occuper +expliquer +frapper +travailler +obtenir +rentrer +pleurer +répéter +payer +apporter +exister +boire +sourire +coucher +causer +raconter +serrer +songer +manquer +nommer +conduire +saisir +demeurer +remettre +disparaître +battre +toucher +apparaître +souffrir +fermer +accepter +tendre +naître +sauver +avancer +traverser +souvenir +couvrir +gagner +former +plaire +embrasser +oser +empêcher +refuser +décider +produire +charger +mêler +espérer +cesser +ressembler +chanter +approcher +prier +échapper +glisser +briller +brûler +placer +juger +suffire +atteindre +annoncer +élever +acheter +mener +préparer +assurer +deviner +considérer +appartenir +représenter +tromper +vendre +craindre +emporter +exprimer +rouler +posséder +réveiller +aider +découvrir +choisir +prononcer +taire +rêver +appuyer +étendre +trembler +défendre +créer +maintenir +indiquer +promettre +relever +abandonner +ignorer +accompagner +adresser +observer +séparer +marier +prévoir +amener +obliger +éclairer +poursuivre +livrer +contenir +fuir +couler +proposer +éprouver +retenir +attacher +voler +entraîner +surprendre +briser +imaginer +diriger +parvenir +pénétrer +remarquer +éviter +établir +réussir +pencher +habiter +entourer +déclarer +étonner +dresser +durer +fixer +désirer +arracher +soutenir +couper +examiner +douter +retirer +promener +forcer +revoir +remplir +terminer +tenter +remonter +installer +soulever +allumer +imposer +respirer +baisser +souffler +attirer +prêter +amuser +éclater +réunir +traiter +engager +traîner +employer +marquer +prouver +importer +exiger +reposer +danser +saluer +accorder +achever +avouer +distinguer +emmener +agiter +hésiter +sonner +composer +enlever +rejoindre +ramener +étudier +partager +chasser +interrompre +éloigner +réduire +recommencer +éteindre +sauter +plaindre +préférer +révéler +subir +rapporter +coûter +réfléchir +remercier +déposer +fumer +affirmer +convenir +vêtir +accomplir +résoudre +plonger +détruire +intéresser +disposer +lisser +verser +obéir +lutter +prétendre +construire +soumettre +peser +troubler +répandre +résister +protéger +enfermer +creuser +grandir +enfoncer +envelopper +prévenir +inspirer +ramasser +endormir +inventer +presser +confier +effacer +reculer +user +nourrir +remplacer +souhaiter +signer +interroger +dominer +commander +supposer +dépasser +accuser +habiller +condamner +menacer +écraser +céder +écarter +réclamer +dessiner +conclure +lier +admettre +attaquer +respecter +pendre +supporter +figurer +profiter +accrocher +calmer +satisfaire +valoir +signifier +inquiéter +assister +inviter +déchirer +risquer +parcourir +rejeter +renoncer +veiller +transformer +tracer +contenter +mériter +précipiter +rompre +caresser +étouffer +animer +casser +fonder +franchir +abattre +discuter +fatiguer +consentir +regretter +joindre +vaincre +consulter +haïr +repousser +exécuter +exposer +voyager +renverser +rassurer +retomber +décrire +mentir +armer +étaler +essuyer +précéder +désigner +détacher +recueillir +croiser +entretenir +surveiller +réserver +confondre +dégager diff --git a/verbe b/verbe @@ -5,8 +5,8 @@ # On change les délimiteurs des terminaisons # On ne garde que le contenu entre les balises (ce qui s'affiche à l'écran en # théorie) -# Ménage : suppr les &nbsp; remplace les tab des retours à la ligne; suppr les -# blancs en début de lignes +# Ménage : suppr les &nbsp; remplace les tab des retours à la ligne; +# Supprime les blancs en début de ligne # On supprime les lignes vides # On supprime toutes les lignes contenant un "=" (suppr les scripts js) # On supprime les six première lignes que ne sont pas des conjugaisons @@ -14,7 +14,8 @@ curl -Ls -A "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:106.0) Gecko/20100101 Fi sed -En '/col-lg-7/,/col-lg-5/ p' | sed "s:<b>:{:g; s:</b>:}:g" | sed -E 's:<[^>]*>::g' | -sed -E 's:&nbsp;::g; s: :\n:g; s/^[[:blank:]]+//' | +sed -E 's:&nbsp;::g; s: :\n:g' | +sed -E 's:^ +::' | grep -v '^$' | grep -v "=" | sed -n '6,$ p'