md-vs-docx

Des notes au sujet de l'indexation pour la thèse - retour accueil

git clone git://bebou.netlib.re/md-vs-docx

Log | Files | Refs |

commit 08c7a1ce5a24b3403fb362719d2075c024340ba3
parent a1853cb988a5e95a0dad7799a94c66cbe3e37e3d
Auteurice: Arthur Pons <arthur.pons@unistra.fr>
Date:   Thu,  5 Jun 2025 20:25:32 +0200

Note sur l'absence de brainstorm.docx

Diffstat:
Mreadme.md | 6++++--
1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/readme.md b/readme.md @@ -153,13 +153,13 @@ Et parallelisé : On est donc pas sur quelque chose de trivial en puissance de calcul mais jouable si l'on migre un existant un bonne fois pour toute. Si l'on fait la conversion uniquement pour la recherche il faudrait le faire à chaque modif de -fichier. En prenant le fichier `brainstorm.docx` comme fichier d'exemple, en +fichier. En prenant le fichier `brainstorm.docx` comme fichier d'exemple[^1], en ayant en tête qu'il est assez long et complexe : markitdown brainstorm.docx > /dev/null 4.23s user 0.21s system 109% cpu 4.050 total La complexité du document semble avoir une incidence puisqu'avec un docx de 100 -pages mais très simple[^1] : +pages mais très simple : markitdown exemple.docx > /dev/null 1.59s user 0.14s system 127% cpu 1.353 total @@ -273,3 +273,5 @@ permettent aussi de revenir à une situation dans laquelle il n'est pas ou moins nécessaire d'avoir recours à des RAG pour faire des recherches plus facilement. C'est assez fascinant. +[^1]: il n'est aps dans le dépôt parce qu'il contient des informations + potentiellement confidentielles de Commown