Texterkennung mit Microsoft Office

Werbung
Texterkennung mit Microsoft Office:
Manchmal hat man Texte oder auch nur Textteile, die man gerne digitalisieren möchte, die
aber als Foto vorliegen. Dabei könnte der Text per Scanner eingescannt worden sein oder
auch schlichtweg mit der Digicam einfach irgendwo abfotografiert worden sein. Solche Texte
liegen als Bilder/Fotos vor und darin kann man den Text nicht bearbeiten. Es ist also in solch
einem Fall nötig, diesen Text dann zu digitalisieren, also von einer Software als Text
erkennen zu lassen und dann diesen Text in eine Textverarbeitung z. B. Word zu übernehmen.
Dort kann er dann, wie ein normaler Text, bearbeitet werden. Für solche Fälle gibt es
spezielle Software, die außerordentlich gute Leistungen vollbringt und auch mit Layouten,
Tabellen und Bildern (z. B. bei gescannten Zeitschriftenseiten) umgehen kann.
„AbbyyFineReader“ oder „OmniPage“ sind da wohl die bekanntesten Vertreter. Diese
Programme sind nicht billig aber deren Arbeit ist bemerkenswert gut und die können auch
viele verschiedene Sprachen erkennen. Manchmal kann man die etwas älteren Versionen
dieser Software preiswerte erhalten, dann sollte man durchaus zugreifen. Bei Pearl oder
anderen kann man da fündig werden.
Wenn man nicht die aller höchsten Anforderungen stellt, dann kann man allerdings auch ganz
gut mit der Texterkennung, die dem Softwarepaket „Microsoft Office“ beigelegt ist,
klarkommen, denn dort ist eine nicht schlechte Texterkennung enthalten. Insbesondere, wenn
es sich um reinen Text dreht, also keine Tabellen, Bilder usw., dann funktioniert das ganz gut
damit. Notfalls muss man dann den Gesamttext in kleine „Häppchen“ aufteilen und die dann
nacheinander aufarbeiten. Die Schrift sollte möglichst auf weißem Papier sein und sich
kontrastreich vom Untergrund abheben. Ggf. sollte man den gescannten oder fotografierten
Text vorher mit einer Bildbearbeitung auf diesen Stand bringen. Scannt man einen Text extra
für die Texterkennung ein, dann kann man diese Texterkennungsverbesserung gleich im
Scannertreiber einstellen. Allerdings sollten Sie vorher einige Versuche starten, ob Sie mit
dem Scanner besser eine Tontrennung in reines schwarz-weiß vornehmen oder besser doch in
Graustufen das Dokument einscannen. Das sollten Sie vorher ausprobieren. Im Übrigen
müssen Sie dieses Programm ohnehin erst sich einmessen lassen. Es kalibriert sich dabei auf
Ihren Scanner ein, was dann auch bedeutet, dass die Texterkennung mit ihm besser
funktioniert, als mit einem Fotoapparat. Aber nach einer automatischen Texterkennung
müssen Sie Ihr Dokument ohnehin durchlesen, denn auch die beste Texterkennung kann sich
irren und Fehler machen.
Sollten Sie mit Ihrer Digicam Texte abfotografiert haben, dann werden die in der Regel als
sog. JPG-Dateien abgelegt. Das dem Officepaket beigelegte Texterkennungsprogramm kann
damit nichts anfangen. In dem Fall müssen Sie das Bild als sog. Tif-Datei neu abspeichern:
Ich beschreibe hier, wie Sie mit „IrfanView“ oder mit dem auf jedem Windows-PC
standardmäßig vorhandenem „Paint“ eine JPG-Datei (Bild) als eine Tif-Datei (Bild)
abspeichern (konvertieren).
Konvertierung vom JPG-Bild zum Tif-Bild mit IrfanView:
Öffnen Sie das betroffene Bild mit IrfanView. Klicken Sie mit links oben links im
Hauptfenster auf „Datei“ und im aufspringenden Menü mit links auf „Speichern unter…“:
1
Es öffnet sich der Win-Explorer:
Sie haben ja
ein JPG-Bild geöffnet, daher ist hier (vermutlich) der JPG-Dialog eingestellt (roter Pfeil).
Navigieren Sie zu dem Ordner, in den hinein Sie die neue Tif-Datei (Bild) speichern möchten.
Lassen Sie alle Einstellungen, wie sie sind. Klicken Sie mit links auf das kleine schwarze
Dreieck (roter Pfeil) und es öffnet sich ein Auswahlmenü:
Klicken Sie mit links ganz unten auf die Option „TIFTagged Image File Format“ und das Explorerfenster ändert sich in seinem rechten Anhängsel:
2
Nehmen Sie
dort am besten keine Einstellung vor, sondern klicken im linken Fenster auf „Speichern“. In
dem zuvor ausgewählten Ordner liegt jetzt das Bild als „Tif-Datei“ und kann vom
Texterkennungsprogramm gelesen werden.
Konvertierung vom JPG-Bild zum Tif-Bild mit Paint:
Öffnen Sie das JPG-Bild mit Paint. Machen Sie dazu einen Rechtsklick auf das Bild und es
erscheint das Kontextmenü:
Führen Sie
den Mauszeiger über „öffnen mit“ nach „Paint“ und klicken darauf mit links und das Bild
3
wird mit dem Programm „Paint“ geöffnet:
Klicken
Sie mit links ganz oben links in der Befehlszeile auf das hier blau unterlegte Symbol eines
Dokuments und es öffnet sich ein Menü:
Machen Sie einen
Linksklick auf „Speichern unter“ und es öffnet sich der Win-Explorer:
Navigieren Sie
zunächst zu dem Ordner, in den hinein Sie das ins „Tif-Format“ konvertierte Bild speichern
möchten. Klicken Sie auf das kleine schwarze Dreieck ganz hinten in der Zeile „Dateityp“
(roter Pfeil) und es öffnet sich ein Auswahlmenü:
Klicken Sie dort mit links
4
auf „Tiff (*tif;*tiff)“ und dann unten im Fenster auf „Speichern“. Das Bild liegt jetzt im zuvor
ausgewählten Ordner als „Tif-Bild“ vor.
Die eingescannten oder fotografierten Dokumente müssen von hoher Qualität sein, notfalls
müssen sie mit einer Bildbearbeitung nachbearbeitet werden.
Texte mit „Microsoft Office Document Scanning“ einscannen:
Die dem Microsoft Office Paket beiliegende Texterkennung wird bei der Installation mit
installiert. Sollten Sie sie dennoch nicht auf Ihrem PC finden, dann wurde sie explizit
während des Installationsprozesses ausgeschlossen. Legen Sie dann die InstallationsCD/DVD in das entsprechende Laufwerk Ihres PCs und installieren Sie diese Teile nach.
Die Texterkennung über das Einscannen von Dokumenten nennt sich „Microsoft Office
Document Scanning“ und wenn man bereits Bilder mit Texten, die eingelesen werden sollen,
besitzt, dann braucht man das Programm: „Microsoft Office Document Imaging”. Starten Sie
zunächst aber Ihren Scanner. Klicken Sie danach unten links auf den Startknopf von Windows
und in der kleinen Leiste unmittelbar über dem Startknopf im aufspringenden Fenster, in der
„Programme/Dateien durchsuchen“ steht, klicken Sie mit links einmal hinein. Tippen Sie
dann dort per Tastatur „scanning“ bzw. „imaging“ ein
und Windows sucht nach diesen beiden
Programmen. Sie erscheinen in der Suchliste (vermutlich) ganz oben.
Klicken Sie mit links auf den
Eintrag „Microsoft Office Document Scanning) und es öffnet sich das Programm.
Klicken Sie zunächst rechts unten im Fenster auf die
Schaltfläche „Scanner“, damit Sie sicher sein können, dass das Programm Ihren Scanner
gefunden hat. Wenn das Programm einen Scanner gefunden hat, dann kann das etwa so
5
aussehen:
Unter „1“ finden Sie Ihren angeschalteten
Scanner. Vor „2“ sollten Sie durch einen Linksklick in das weiße Viereck davor (dann
erscheint in dem Viereck ein Häkchen) diese Option aktivieren. Dann startet der Scan
zunächst mit dem Scannertreiber und Sie können dort noch bestimmte Einstellungen
vornehmen, sodass Ihr Scanner die Vorlage optimal scannt. Klicken Sie dann auf „OK“.
Wenn Sie die Standardeinstellungen behalten möchten, dann können Sie eigentlich gleich
loslegen, ansonsten gehen Sie in die sog. Voreinstellungen: Klicken Sie dann auf die
Schaltfläche „Voreinstellungsoptionen“ unter dem großen weißen Fenster links oben und es
öffnet sich folgendes Menü:
Klicken Sie mit links auf
den oberen Eintrag „Neue Voreinstellung erstellen“ und es öffnet sich ein kleines Fenster, in
das Sie per Tastatur einen beliebigen Namen für die Voreinstellung geben, z. B.
„Zeitungsscan“. Darauf können Sie dann später einfach durch einen Linksklick darauf
zurückkommen.
Klicken Sie mit links auf „OK“ und
es öffnet sich ein neues Fenster:
Lassen Sie hier
die Einstellungen, wie sie sind. Sollten sich später aber Probleme bei der Texterkennung
ergeben, dann versuchen Sie diese Voreinstellung erneut durchzuführen, klicken dann aber
hinter „Art des Scannens“ und hinter „Schwarzweiß“ auf das kleine nach unten zeigende
Dreieck und es öffnet sich da ein Auswahlmenü:
6
Versuchen Sie es dann dort genauso,
wie es gleich beschrieben wird, aber dann mit der Voreinstellung „Schwarzweiß auf farbiger
Seite“ oder mit „Graustufe“, in dem Sie mit links darauf klicken. Sie sollten hier also die Art
Ihrer Vorlage einstellen.
Anschließend klicken Sie auf den Reiter „Zielordner“ mit links und das Fenster verändert sich
in:
Das gescannte Objekt wird standardmäßig
im Ordner (hier) G:\Eigene Dateien\Dokumente\ gespeichert. Möchten Sie einen anderen
Speicherort, dann klicken Sie rechts auf „Ändern“, navigieren im sich öffnenden WinExplorer zu dem gewünschten Ordner, markieren den und klicken dann mit links auf „OK“.
Die anderen Einstellungen sind eigentlich ganz gut, aber bei Bedarf können Sie sie durch
einen Linksklick in den weißen Kreis davor aktivieren. Die restlichen verbleibenden
Einstellungen unter den Reitern „Seite“ und „Verarbeitung“ können so bleiben. Klicken Sie
dann in dem Fenster unten auf „OK“, die linke Schaltfläche der drei Schaltflächen ganz unten.
Es könnte sein, dass beim ersten Start, das Programm sich auf den Scanner einmessen möchte.
Der Vorgang ist einfach und es wird immer angezeigt, was Sie als Nächstes machen müssen.
Befolgen Sie dann genau den Anweisungen, bis der Kalibriervorgang abgeschlossen ist.
Haben Sie vorher ein Häkchen bei „Vor dem Scannen den Scannertreiberdialog anzeigen“
gesetzt, dann erscheint folgendes Fenster:
(sonst vier
Bilder tiefer weiter lesen). Die Hinweise sind eindeutig, klicken Sie mit links auf „OK“. Es
7
erscheint dann folgendes Fenster:
Setzen Sie hier die richtige Option durch einen Linksklick in den kleinen weißen Kreis. Sie
können die Qualität des Scans verbessern, klicken Sie dafür auf den unterstrichenen
Schriftzug „Qualität des gescannten Bildes verbessern“ unten links und es öffnet sich
folgendes Fenster:
Sie können die Schieber bei
„Helligkeit“ und „Kontrast“ verschieben. Führen Sie dazu die Maus genau auf einen der
Schieber, klicken mit links und halten die Maustaste gedrückt. Schieben Sie dann die Maus
nach rechts oder nach links. Im Vorschaubild links daneben wird gezeigt, was Sie mit dem
Schieber bewirken. Markieren Sie ggf. die „300“ bei „1“ (linker Mausklick dahinter, Taste
gedrückt halten und vor die „3“ ziehen, dann ist die Zahl markiert, dh. blau hinterlegt) und
verändern Sie durch mehrere Linksklicks auf die kleinen schwarzen Dreiecke bei „2“ oder
durch Eingabe per Tastatur eine andere Zahl. (Wenn sich die Texterkennung schwer tut,
versuchen Sie es hier mit einer höheren Zahl – aber je höher die Zahl, desto länger dauert der
Scan). Klicken Sie auf das kleine schwarze Dreieck bei „3“ und es öffnet sich ein Menü:
Wählen Sie dort den Bildtyp durch einen Linksklick
darauf. Beenden Sie diesen Dialog durch einen Linksklick auf „OK“. Sie werden dann im
Fenster eine Markierung vor „Benutzerdefinierte Einstellungen“ (drei Bilder höher) finden.
Klicken Sie dann auf „Scannen“, es geht dann mit dem übernächsten Bild weiter.
Wenn Sie vorher kein Häkchen bei „Vor dem Scannen den Scannertreiberdialog anzeigen“
gesetzt haben, dann beginnen Sie den Einscanvorgang durch einen Linksklick zunächst auf
8
den Eintrag „Schwazweiß“ im linken großen weißen Fenster, sodass er markiert ist, also blau
hinterlegt ist (sollte das Ergebnis mit „Schwarzweiß“ nicht zufriedenstellend sein, versuchen
Sie es erneut mit „Graustufe“ oder einer anderen Einstellung.) Hier müssen Sie also die Art
der Vorlage einstellen. Klicken Sie danach mit links auf die große Schaltfläche oben rechts
mit dem symbolisierten Scanner und den drei symbolisierten Textdokumenten:
Es
erscheint ein Fenster:
Es zeigt an, dass der Scanner vorbereitet
wird. Sobald die Lampe darin warm genug ist und der Scanner zu scannen beginnt erscheint
folgendes Fenster:
Wenn der Scanvorgang beendet ist,
übergibt das Scanprogramm automatisch die gescannte Seite an das
Texterkennungsprogramm weiter.
Texte im Bildformat mit Microsoft Office Document Imaging als Text
erkennen:
Wenn Sie ein Bild mit zu erkennendem Text bereits als „Tif-Datei“ vorliegen haben, dann
brauchen Sie diesen oben beschriebenen Scanvorgang nicht durchzuführen. Klicken Sie dann
mit links ganz unten links im Windows-Hauptfenster auf Start und geben dann in das
9
Suchfenster „Iamaging“ ein und klicken dann mit links auf den (vermutlich) obersten Eintrag
„Microsoft Office Document Imaging“:
Es startet dann das gleiche Programm, was nach dem Scanprogramm automatisch startet:
1. Vorschaufenster der gescannten Seiten (hier ist nur eine Seite gescannt, bei mehreren
gescannten Seiten ist deren Anzahl hier angezeigt – um sie alle zu sehen, erscheint dann u. U.
rechts in diesem Fensterteil eine Scrollleiste, mit Hilfe welcher Sie dann an alle Seiten
kommen können.). Die Seite, die dann im Arbeitsfenster rechts „2“ erscheinen soll, müssen
Sie dann dort aktivieren, indem Sie auf das entsprechende Vorschaufenster mit links klicken.
Das erscheint dann rechts im Hauptfenster. Wenn Sie das Bild mit dem Text darauf noch
10
öffnen müssen, dann klicken Sie oben links in der Symbolleiste (dritte Zeile) auf das
2.
3.
4.
5.
6.
geöffnete Ordnersymbol
und es öffnet sich der Win-Explorer. Navigieren Sie in
den Ordner, in dem das Bild liegt, markieren Sie es, sodass es blau hinterlegt ist, und klicken
unten mit links auf „Öffnen“ oder klicken Sie mit links einfach auf die zu öffnende Datei
(Bild).
Hauptfenster mit dem geöffneten Dokument. Es liegt hier noch als Bild vor, es kann also noch
nicht drin geschrieben werden.
Wenn Sie ein weiteres Dokument scannen möchten und anschließend dessen Text erkennen
möchten, dann müssen Sie nicht den Scandialog von vorher aufrufen, sondern können einfach
auf diese Schaltfläche mit links klicken.
Klicken Sie mit links auf „Extras“ und es öffnet sich ein Menü. Darauf werde ich gleich nach
dieser Aufzählung unter *) eingehen.
Mit einem Klick auf diese Schaltfläche setzen Sie den Texterkennungsvorgang in Gang.
Mit einem Klick auf diese Schaltfläche wird der erkannte Text nach Word übergeben.
*) Hiermit (4) kommen Sie zu Grundeinstellungen des Programms. Klicken Sie mit links auf
„Extras“, dann öffnet sich folgendes Menü:
links auf „Optionen“ und es öffnet sich folgendes Fenster:
Klicken Sie mit
Sie können mit einem Linksklick auf
die Schaltfläche „Schriftart“ eine andere als die voreingestellte Schrift „Tahoma“ in der
11
Größe „9pt“ :
Durch Scrollen in den
oberen drei Fenstern können Sie die Schrift genau formatieren, durch einen Linksklick in
einen der beiden Kreise vor den beiden angebotenen Effekten (links unten) aktivieren Sie die
und durch einen Linksklick auf das kleine schwarze Dreieck hinter „schwarz“ können Sie
durch einen Linksklick auf eine dort angebotene Farbe, die Schriftfarbe auswählen.
Unter den anderen Reitern lassen Sie am besten alles so, wie es eingestellt ist. Klicken Sie
dann auf „OK“.
Den reinen Texterkennungsvorgang starten Sie mit einem Linksklick auf „5“, also dem
Schaltknopf auf dem ein Auge und ein Textblatt symbolisiert ist. (Dieser Vorgang ist bei der
Übernahme vom Scannermodul in der Regel bereits automatisch durchgeführt). Klicken Sie
darauf und es erscheint ein Fortschrittsbalken
Die
Prozedur beenden Sie, indem Sie den erkannten Text an Word weiter reichen. Klicken Sie
dazu mit links auf die Schaltfläche „6“, also der Schaltfläche mit einem symbolisierten leeren
Blatt und unten rechts einem „W“ daran. Es erscheint ein neues Fenster:
Sie können eigentlich die Einstellungen so lassen.
Lediglich den Speicherort sollten Sie selbst festlegen. Klicken Sie auf „Durchsuchen“ (unten
rechts) und es öffnet sich der Win-Explorer. Navigieren Sie zu dem Ordner, in den hinein Sie
das an Word übergebene Dokument speichern möchten, markieren ihn und klicken unten auf
„OK“. Klicken Sie zum Erkennungsprozess weiter auf „OK“ unten links. Das Programm
übergibt jetzt den erkannten Text an Word, was einige Zeit dauern kann (Sie sehen dann eine
Eieruhr). Das Word-Dokument ist dann also in den vorher ausgewählten Ordner hinein
geschrieben und wird auch sofort geöffnet.
12
Lesen Sie den Text aufmerksam durch und aktivieren am besten die Word eigene
Rechtschreibekorrektur. Korrigieren Sie eventuelle Fehler und passen Sie Ihr Layout und die
Formatierung entsprechend an. Bedenken Sie unbedingt, dass die Word eigene
Rechtschreibekorrektur vielleicht 65 % aller Fehler nur findet. Machen Sie so etwas häufiger,
lohnt sich evtl. die Anschaffung des sog. DudenKorrektors. Aber auch der erkennt nicht
sicher alle Fehler, aber seine Erkennungsrate liegt weit über 90%.
Wenn viele Fehler auftreten, damit sind weniger Rechtschreibefehler als falsch gesetzte
Worte, ausgelassene Worte oder einfach Wortsalat im Dokument gemeint, dann sollten Sie
das Scanprogramm anders einstellen: Dazu gehören Versuche mit Graustufen oder vielleicht
doch farbig scannen. Stellen Sie ein, dass der Scannertreiber sich öffnet. Dann können Sie
dort die Scanqualität einstellen. Scannen Sie in einer höheren Auflösung – standardmäßig sind
300 DPI eingestellt, erhöhen Sie die Zahl stufenweise. Bearbeiten Sie das eingescannte Bild
mit einer Bildbearbeitung und erhöhen Sie dort den Kontrast. Die am Programm
vorgenommenen Einstellungen können Sie, wie oben beschrieben, in den Voreinstellungen
als ein eigenes Profil abspeichern. Wenn Sie einmal den optimalen Weg gefunden haben, wird
es leichter sein, folgende Texte zu erkennen, weil Sie genau wissen, was Sie machen müssen.
Sie können dann auch ganz einfach auf Ihr Profil zurückgreifen, indem Sie es einfach
anklicken.
Sollten Sie solch eine Texterkennung öfter machen müssen, dann sollten Sie sich über ein
anderes Texterkennungsprogramm Gedanken machen, denn z. B. die beiden oben genannten
Programme können sehr viel besser Texte erkennen, dafür ist dieses Programm eine
kostenlose Beigabe zum Office-Programm.
13
Herunterladen