Agorum OCR Lösung

Einfache Konvertierung von nicht OCR fähigen PDF Dateien für die Indexierung im Agorum DMS System.

Einfache Scanner kopieren Belege als Bilddatei und sind damit nicht im Klartext lesbar. Nicht lesbar bedeutet, das ein Archivsystem nicht in der Lage ist, den Beleg ein zu sortieren oder wieder zu finden.

Ich selbst arbeite auch mit solch einem einfachen Scanner und statte meine Dateiablage mit einem kleinem Script aus, welches die PDF auf ihre Lesbarkeit hin überprüft und diese ggf. übersetzt.

In der Praxis hat es sich bewährt, Belege grundsätzlich zu paginieren – mit einer laufenden, einmaligen Zahl zu versehen. Sie lassen sich dann eindeutig in der Buchhaltung und im DMS System identifizieren und verknüpfen.

Den Code stelle ich zur Verfügung.

Mit dem Code muss gespielt werden, da das Ergebnis stark von der Qualität des Scanners abhängt. Mit meinem Scanner ist eine Auflösung von 300dpi mit einer Graustufentiefe von 8 optimal. Auch kann ich auf den Einsatz des Programms UNPAPER verzichten – dieses würde Schlieren und Streifen entfernen.

Die erkannten Texte lassen sich in die PDF, also nicht als anhängende Seiten, integrieren. Mit Absicht hänge ich den OCR Text aber an das original PDF um direkt eventuelle Ungenauigkeit zu erkennen und diese im Agorum durch hinzufügen von Notizen zu ergänzen.

Ein Gedanke zu „Agorum OCR Lösung“