Auszeichnung in XML

Die Erfassung der Wörterbuchbände war nur der erste Schritt auf dem Weg zur elektronischen Publikation. Entscheidend für die langfristige soft- und hardwareunabhängige Verfüg- und Benutzbarkeit der Daten ist die sich daran anschließende inhaltlich-strukturelle Erschließung des Basismaterials. Für die Erschließung des ¹DWB wurde die Metasprache XML (eXtensible Markup Language) eingesetzt, wobei die Richtlinien befolgt wurden, die die TEI in ihrem Modul „Dictionaries“ für die Abbildung der Makro- und Mikrostruktur von lexikografischen Ressourcen verschiedener Art vorschlägt.

Das Markup wurde überwiegend mit Hilfe automatisierter Verfahren in die Textdaten eingefügt. Aufbauend auf den in China eingebrachten und vor allem typografische Phänomene berücksichtigenden Vorcodierungen und der Dokumentstruktur wurden mittels TUSTEP-Routinen zunächst die größeren Texteinheiten und dann die jeweils darin geschachtelten kleineren Einheiten mit den entsprechenden Kennungen versehen. Problematisch wurde dieses Vorgehen in den Fällen, in denen einzelne typografische Merkmale für unterschiedliche Arten von Textelementen verwendet wurden, oder die Artikelstruktur nicht konsistent war. Halbautomatische Schritte mussten hier das automatisierte Verfahren ergänzen und die TEI-konforme Auszeichnung der Daten stufenweise verfeinern.

Als besonders aufwendig und zeitintensiv erwies sich etwa die Codierung der Artikelgliederung, da im ¹DWB z.B. eine „1)“ die dritte, zweite oder oberste Gliederungsmarke einleiten oder auch die Abfolge der Gliederungsmarke variieren kann. Auch die Identifizierung und Auszeichnung der in Reihen- und Nestartikeln angesetzten Stichwörter gestaltete sich schwierig, da die Lemmata in Kompositareihen aus Platzgründen vielfach auf das Grundwort reduziert werden und das automatisierte Ergänzen des Bestimmungswortes nicht einfach war.

Markiert sind in der derzeitigen Online-Version des ¹DWB Artikelanfang und -ende, Lemmata, Gliederungsmarke inkl. Hierarchiestufe, Verszitate, Autorennamen und Stellenangaben.

Die XML/TEI-konform codierte Version der Daten dient als Ausgangsbasis für den Datenbankaufbau und die Publikation des Wörterbuchs auf CD-ROM und im Internet.

Literatur zur TEI-konformen Auszeichnung

weitere Informationen auf den Seiten des Kompetenzzentrums

Typografische Unterschiede dienen der automatisierten AuszeichnungOpen

Typografische Unterschiede dienen der automatisierten Auszeichnung