Un outils en ligne (qui tourne entièrement dans le navigateur) pour extraire le texte d'images ou de PDF.
(Article de l'auteur : https://simonwillison.net/2024/Mar/30/ocr-pdfs-images/)
Vous pouvez même copier-coller une image, et il vous sort le texte.
A tester.
Via sebsauvage
1) Install pdftoppm
sudo apt install pdftoppm
2) Convertir
pdftoppm -jpeg document.pdf préfix_noms_images
Chaque page du pdf fait l'objet d'une image dont le nom est préfixé comme indiqué.
D'autres formats d'images sont dispo. Voir l'aide.
3) Convertir des images en PDF
Installer gscan2pdf et l'ouvrir
sudo apt install gscan2pdf
gscan2pdf &
Dans l'interface, charger les images. Les remettre dans l'ordre si besoin. Puis enregistrer au format PDF. (Détails)
Avec l'appli pdfarranger.
sudo apt-get install pdfarranger
Une application pratique et intuitive pour faire des opérations sur des PDF (concaténation, découpage ...).
Attention : il y a un problème avec les lib présentes dans les dépôts. Pour cette raison, il est recommandé de télécharger l'archive zip ("All Platforms") et de lancer l'application avec le script correspondant à sa platform (dans le répertoire bin).
Cette application nécessite Java8 minimum. Pour les curieux, la version Basic Edition (que j'utilise ici) est sous licence Affero GPL v3.
Pour convertir un fichier .pages (Microsoft Word) au format pdf.
Une étude sur le marché du travail allemand, sortie en juillet 2017. Ca parle des réformes Hartz, et des prétendus bienfaits pour l'économie allemande. En réalité, les pays de l'est sont devenus les vaches à lait de l'Allemagne, tout en maintenant les salaires bas dans le pays.