DFG project G:(GEPRIS)393215159

Automatische Nachkorrektur historischer OCR-erfasster Drucke mit integrierter optionaler interaktiver Korrektur

CoordinatorProfessor Dr. Klaus U. Schulz
Grant period2018 - 2020
Funding bodyDeutsche Forschungsgemeinschaft
 DFG
IdentifierG:(GEPRIS)393215159

Note: Bei der Volltextdigitalisierung historischer Drucke mittels OCR besteht nach wie vor ein signifikanter Verbesserungsbedarf, der den allgemeinen Hintergrund der DFG-Ausschreibung ,,Skalierbare Verfahren der Text- und Strukturerkennung für die Volltextdigitalisierung historischer Drucke`` darstellt. In Modul 3 der Ausschreibung wird speziell die Notwendigkeit eines Systems zur Nachkorrektur OCR-erfasster historischer Texte begründet. In unserer Arbeitsgruppe wurde über mehrere Jahre hinweg ein sehr leistungsfähiges System ,,PoCoTo'' zur interaktiven Nachkorrektur OCR-erfasster historischer Drucke entwickelt. Für die Massendigitalisierung sollten jedoch aus offenkundigen Gründen zunächst alle Möglichkeiten einer vollautomatischen Korrektur ausgeschöpft werden. Das Hauptproblem bei der automatischen Korrektur besteht darin zu vermeiden, dass nicht im Korrekturlexikon erfasste, aber korrekte OCR-Tokens durch vermeintliche Korrekturen ersetzt werden. Zielsetzung des Antrags ist es, von PoCoTo ausgehend ein leistungsfähiges System zur vollautomatischen Korrektur zu entwickeln, das derartige ,,Verschlimmbesserungen`` weitestgehend vermeidet. Hierzu wird die vorhandene Technologie substantiell erweitert. Da man nicht erwarten kann, dass mit einer vollautomatischen Nachkorrektur immer die erforderlichen extrem hohen Qualitätsstandards erreicht werden, soll die vollautomatische Korrektur auch als Vorstufe einer optional nachgeschalteten semi-automatischen oder interaktiven Nachkorrektur nutzbar sein. Verfahren zur semi-automatischen oder interaktiven Nachkorrektur, die die während der automatischen Korrekturphase gewonnenen Daten und Einsichten ausnützen, sollen direkt im System integriert sein.
   

Recent Publications

There are no publications


 Record created 2023-01-31, last modified 2024-09-28