Volltextdigitalisierung

Das Wörterbuch lag zu Projektbeginn nicht in elektronischer Form vor und musste daher retrodigitalisiert werden. Aufgrund der mangelhaften Druckqualität vieler ¹DWB-Bände, der wechselnden Schriftarten und Schriftgrößen und der zahlreichen Sonderzeichen wäre eine OCR-Erfassung zu fehleranfällig gewesen. Daher wurden die rund 300.000.000 Zeichen des ¹DWB im Double-Keying-Verfahren von der Firma TQY Double Key in Nanjing/China erfasst.

Für die Erfassung in China sprachen vor allem ganz praktische Gründe: Muttersprachler lesen „verstehend“ und korrigieren dabei, was sie als „falsche“, d.h. von der normierten Standardsprache abweichende Schreibung wahrnehmen. Für eine zeichengetreue Wiedergabe der vielen historischen Belege im ¹DWB ist dies natürlich nicht gewünscht. Zudem sind die chinesischen Datentypisten von ihrer eigenen Schrift her daran gewöhnt, auf jedes noch so geringe Detail zu achten, weil es eine bedeutungstragende Funktion haben kann. Insbesondere bei der Erfassung der Etymologieteile des Wörterbuchs mit den zahlreichen Sonderzeichen, Diakritika oder griechischen Zeichen war diese Zeichensensibilität von großem Vorteil. Ein weiterer Vorzug des Double-Keying-Verfahrens bestand darin, dass alle typografischen und Layout-Merkmale mit eingegeben wurden, wodurch der späteren Datenauszeichnung in erheblichem Umfang vorgearbeitet werden konnte.

Das Wörterbuch wurde mit einem herkömmlichen Textverarbeitungsprogramm erfasst und sukzessive über das Internet nach Trier transferiert. Hier wurden beiden Eingabeversionen nach TUSTEP (TUebinger System von TExtverarbeitungsProgrammen) konvertiert und einem automatischen Abgleich unterzogen. Anhand der aus diesem Abgleich hervorgehenden Differenzprotokolle, die sämtliche Abweichungen zwischen den beiden Fassungen verzeichneten, wurden die Wörterbuchdaten korrigiert. Etwa 18 Monate nach Projektbeginn lagen auf diese Weise alle Bände des Wörterbuchs in einer elektronischen Fassung vor, die den gedruckten Bänden mit einer Genauigkeit von 99,997% entsprach.

weitere Informationen auf den Seiten des Kompetenzzentrums

Auswahl an SonderzeichenOpen

Auswahl an Sonderzeichen