Kategorien
Randnotiz

PDF aus JPG für OCR und Mail

Eine Sache mit der man bis zur Verzweiflung „spielen“ kann: Eine handliche PDF aus gescannten Dokumenten erstellen. Handlich nenne ich, wenn die PDF generiert aus 5 x 2 MB großen JPG Dateien, nur 1-2 MB groß ist und trotzdem deutlich lesbar bleibt.

Falls diese dann auch noch mit OCR weiter verarbeitet werden sollen, ist eine Konvertierung in schwarz/weiss (NICHT grayscale) optimal.

Nun. Das Paket ImageMagick ist zu installieren.

img2pdf hat sich als „zu einfach“ dargetellt. Die schwarz/weiss Konvertierung wird für JPG Dateien verweigert; Kompression ist mangelhaft.

Besser: convert.

convert -quality 15 a.jpg b.pdf komprimiert so, dass auf Schriftstücken kaum ein Qualitätsverlust sichtbar ist.

convert -monochrome a.jpg b.pdf ohne Komprimierung ist eine optimale und echte schwarz/weiss Konvertierung für OCR Verarbeitung.

Spielen mag man noch mit den einzustellenden Schwellwerten für Schwarz, wenn der Scan oder Fotografie grenzwertig ist.