-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1
Hallo Herr Ogando,
Mit einem Dokumentenscanner und der damit gelieferten Software können
Sie in vielen Fällen den Ablauf automatisieren. Wie Olafa ber bereits
sagte, für einen solchen Scanner werden üblicherweise Einzelblätter
benötigt.
Aus diesem Grunde wird bei der Digitalisierung und Texterkennung von
Büchern üblicherweise zweistufig gearbeitet. Zunächst werden die Bücher
eingescannt und zunächst als Tiffs abgelegt. Was Sie dafür verwenden,
hängt letztlich vom Buch, vom Workflow, von der Menge und letztlich auch
vom Geld ab.
So werden zum Beispiel alte, empfindliche Bücher über den Wolfenbüttler
Buchspiegel eingelesen, aus Geschwindigkeitsgründen wird inzwischen oft
die Digitalkamera dem Scanner vorgezogen oder es gibt spezielle
Buchscanner z.B. von Plustek...
Die zweite Stufe besteht in der OCR. Alle Tiff Daten, die in ein
Dokument sollen, werden in einen Ordner gepackt und dann gibt es
verschiedene OCR Software, die darauf ein PDF mit Schrifterkennung oder
ein Word Dokument macht. Der FineReader ist eines der Programme mit der
besten Schrifterkennung. Hier wird der ganze Ordner hinein geladen, die
Erkennung gestartet und nach ein paar Minuten können Sie das fertige PDF
abspeichern mit Text vor oder hinter dem Bild.
Sie können aber auch die Tiffs in eine Acrobat Vollversion laden und so
ein PDF daraus machen. Die in Acrobat vorhandene OCR erkennt in gesamten
Dokument ebenfalls die Schrift (wenngleich nach meiner Einschätzung
nicht so präzise wie der FeinReader).
Wenn die PDF Dateien sehr klein werden sollen, dann gibt es von LuraTech
eine interessante Lösung, die ein Bild in mehrere Ebenen aufteilt, bevor
die Texterkennung darüber läuft. Diese Lösung lohnt sich aber nur bei
entsprechenden Mengen.
Mit freundlichem Gruß
Dietmar Wueller
Image Engineering
Dietmar Wueller
Augustinusstr. 9d
50226 Frechen
Germany
phone +49 2234 912141
fax +49 2234 912142
d.wueller(a)ivent.de
www.image-engineering.de
ELOGANDO(a)aol.com schrieb:
Hallo,
diese Frage hat nicht wirklich etwas mit Farbmanagement zu tun.
Wegen des hier versammelten Fachwissens versuche ich es trotzdem mal.
Die Aufgabe:
Digitalisierng eines wissenschaftlichen Nachlasses, der überwiegend in Form
undigitalisierter Bücher vorliegt zu denen es keine Worddokumente gibt.
Dazu braucht man wohl eine sogenannte OCR-fähige Software um gescannte Bilddokumente in
Textdokumente zu verwandeln.
Mögliche Hardware:
Scanner Epson 4870
Software:
- Mit Silverfast geht es offenbar nicht.
- Bei der Epson-Software ist eine kostenlose Demoversion zu ABBYY Fine Reader enthalten
zu der man auch eine Vollversion kaufen kann. Leider habe ich keinerlei Überblick über
Softwares für einen Epson-Scanner und sinnvolle Workflowoptionen für diese
Aufgabenstellung.
Das Problem (voraussichtlich):
- Die Rechenzeit
- Stapelverarbeitungsfähigkeit für die OCR-Software von JPGs, Tiffs, EPS ( bzw.
anschließend in Photoshop PDF gewandelter Bilddaten)
Kommentar:
Die Handhabung z.B. der Version von ABBYY Sprint Reader, die beim Scanner beilag
erscheint mir nicht sehr viel versprechend zu sein - angesichts des Umfangs der Aufgabe
ein Straf-Job für jemand der "Vater und Mutter erschlagen hat". :-)
Frage:
- Hat jemand Erfahrung im Handling derlei Aufgabenstellungen im entsprechenden Umfang?
- Hat jemand Vorschläge für einen flüssigen Workflow für diese Aufgabe, so dass man sie
delegieren kann?
Für sinnvolle Antworten bin ich wirklich dankbar!
Mit freundlichen Grüßen
Ogando
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.5 (Darwin)
Comment: Using GnuPG with Mozilla -
http://enigmail.mozdev.org
iD8DBQFGXQ+l7Olj94xfLY4RAmJTAKCDXr6d88jb2+UvQSuf+1HRfGgO3QCgl3OC
RqZ5JGEpnAU7hXZYXM+zS6U=
=Zq8T
-----END PGP SIGNATURE-----