Comment extraire du texte d'un document PDF

Il peut être très frustrant d’essayer d’extraire le texte d’un fichier PDF pour l’utiliser dans une autre application.

Extraire le texte avec Acrobat Reader

Étape 1

Ouvrez le fichier dans Acrobat Reader. Sous Windows, sélectionnez "Fichier -> Exporter le document texte", nommez le document et enregistrez-le.

Étape 2

Sur un système d'exploitation Mac ou Linux, copiez le texte en accédant au menu "Affichage" et en sélectionnant "Continu" ou "Continu-Orientation". (La première option vous donnera le texte dans une colonne, tandis que la seconde formatera le texte en tant que pages côte à côte). Allez dans "Edition -> Tout sélectionner" puis "Edition -> Copier".

Étape 3

Utilisez l'outil Sélectionner si vous souhaitez uniquement extraire une partie du texte. Cliquez sur l'outil "Sélectionner le texte", puis choisissez les informations souhaitées. Dans un document avec plusieurs colonnes, vous devrez utiliser le premier outil "Sélection de colonnes". Allez dans "Edition -> Copier"

Convertir un PDF en HTML

Étape 1

Utilisez Gmail comme raccourci. Joignez le fichier PDF à un courrier électronique et envoyez-le sur votre compte Gmail. Lorsque vous ouvrez l'email, vous verrez une série d'options à côté de la pièce jointe. Sélectionnez l'option "View as HTML" et enregistrez le fichier qui s'ouvre dans une fenêtre séparée. Bien que vous ne puissiez pas voir les graphiques, le fichier HTML conserve le format du document texte.

Étape 2

Extrayez et convertissez les fichiers en ligne de commande. Les utilisateurs de Linux peuvent utiliser une commande de conversion de base qui transformera un fichier .pdf en un fichier .txt: "Pdftotext filename.pdf". Assurez-vous de changer le nom du fichier avec le nom du fichier PDF.

Étape 3

Téléchargez un programme de conversion de texte PDF. Un certain nombre de programmes open source et de programmes gratuits sont disponibles, tels que PDFBox et Easy PDF to Text Converter. Bon nombre de ces programmes peuvent également convertir des fichiers PDF en HTML.