pdftohtml |
PDF à HTML |
---|---|
Linux | Externe |
Syntaxe
pdftohtml [options] PDF-file [HTML-file XML-file] |
Paramètres
Nom | Description |
---|---|
-c | Ce paramètre permet de générer des sorties complexes. |
-enc string | Ce paramètre permet d'indiquer le nom d'encodage du texte de sortie. |
-f int | Ce paramètre permet d'afficher la première page. |
-fmt | Ce paramètre permet d'indiquer le format de fichier image pour la sortie binaire d'image (png ou jpg). Si le complexe est sélectionné mais -fmt n'est pas spécifié, le paramètre -fmt utilisera le format png. |
-fontfullname | Ce paramètre permet d'afficher le nom de la police de caractères sans substitution. |
-h | Ce paramètre permet d'afficher l'aide de la commande. |
-help | Ce paramètre permet d'afficher l'aide de la commande. |
-hidden | Ce paramètre permet de forcer l'extraction de texte caché. |
-i | Ce paramètre permet d'ignorer les images. |
-l int | Ce paramètre permet d'afficher la dernière page. |
-nodrm | Ce paramètre permet de remplacer les paramètres de DRM de document. |
-noframes | Ce paramètre permet de ne pas générer de cadres. Non pris en charge en mode de sortie complexe. |
-nomerge | Ce paramètre permet de ne pas fusionner les paragraphes. |
-opw string | Ce paramètre permet d'indiquer le mot de passe du propriétaire (pour les fichiers cryptés). |
-q | Ce paramètre permet de ne pas afficher de messages ou d'erreurs. |
-v | Ce paramètre permet d'afficher les informations de droit d'auteur et de version. |
-p | Ce paramètre permet d'échanger des liens .pdf avec .html. |
-s | Ce paramètre permet de générer du code HTML unique incluant toutes les pages. |
-stdout | Ce paramètre permet d'utiliser une sortie standard. |
-upw string | Ce paramètre permet d'indiquer le mot de passe de l'utilisateur (pour les fichiers cryptés). |
-wbt fp | Ce paramètre permet d'ajuster le seuil de rupture de mots en pourcentage. La valeur par défaut est 10. Un saut de mot se produit lorsque la distance entre deux caractères adjacents est supérieure à ce pourcentage de hauteur. |
-xml | Ce paramètre permet de sortie en post-traitement XML. |
-zoom fp | Ce paramètre permet d'agrandir le document PDF. La valeur par défaut est 1,5. |
Description
Cette commande permet de convertir un ou des fichiers PDF en format HTML, XML et des images de format PNG.
Remarques
- La commande pdftohtml a été développé par Gueorgui Ovtcharov et Rainer Dorsch. Cependant, il est basé essentiellement sur le paquet xpdf de Derek Noonburg.
- Le résultat permet de voir les images et le texte contenu dans le PDF et de séparer dans différents fichiers HTML le contenu du PDF, toutefois, la présentation, c'est à dire le positionnement et les styles ne sont pas exporter dans le fichier HTML. Il est donc loin de sortir un résultat aussi professionnel que Adobe Acrobat.
- Si vous souhaitez obtenir une image exacte de chacune des pages d'un PDF, vous devriez plutôt envisager d'utiliser la commande "convert" de ImageMagick.
Installation
La commande suivante permet d'installer la commande sous une distribution Linux AMI d'Amazon : :
sudo yum install pdftohtml |
En peut également installer la commande en installant la utilitaire Poopler (poppler-utils).
Exemple
L'exemple suivant permet de générer un fichier pour chaque page du PDF et de créer des images associé dans le dossier courant :
pdftohtml monpdf.pdf |
Dernière mise à jour : Mardi, le 12 août 2014