CMO:Volltexterfassung und Datenstruktur

Aus CMO

Diese Seite erläutert Ziel, Aufbau und Umsetzung der Volltexterfassung in Christian-Morgenstern-Online (CMO). Sie beschreibt zugleich, wie die Texte in die Datenstruktur des Wikis eingebunden werden, um statistische und philologische Analysen zu ermöglichen. Die Volltexterfassung ergänzt die Werkseiten, schafft eine maschinenlesbare Textbasis und bildet die Grundlage für spätere Auswertungen mit Semantic MediaWiki.

Ziel und Hintergrund

In einem späteren Ausbauschritt sollen die Volltexte aller Gedichte, Briefe und anderer Werke Christian Morgensterns vollständig in die Datenstruktur eingebunden werden. Dadurch werden Analysen möglich wie:

  • Häufigkeit und Verteilung bestimmter Wörter oder Motive
  • Entwicklung sprachlicher und thematischer Merkmale über Zeiträume und Werkgruppen hinweg
  • Vergleich von Wortfeldern und Themen zwischen Gattungen
  • statistische Auswertung nach Datierung, Quelle oder Rezeption

Ziel ist nicht nur die Bereitstellung der Texte, sondern ihre maschinenlesbare Erschließung.

Rechtlicher Rahmen

Nicht alle Werke Morgensterns können als Volltext öffentlich angezeigt werden.

  • Gemeinfreie Texte (z. B. Werke aus der Stuttgarter Ausgabe) dürfen vollständig veröffentlicht werden.
  • Noch geschützte Texte (z. B. neu aufgefundene Briefe) dürfen nicht öffentlich zugänglich gemacht werden (§ 19a UrhG).

Zur Kennzeichnung dient in der Werkvorlage das Feld:

| Gemeinfrei_seit = ja / Jahr

So können spätere Abfragen klar zwischen freien und nicht freien Texten unterscheiden.

Konzept der Textunterseiten

Jedes Werk besteht aus zwei Ebenen:

  • Hauptseite – Metadaten, Kommentar, Scans
  • Unterseite – reiner Textkörper (Volltext)

Aufbau der Unterseite

Der Volltext wird auf einer Unterseite gespeichert, die stets /Volltext heißt:

[[Seitentitel/Volltext]]

Beispiel:

Christian Morgenstern - Augustnacht
Christian Morgenstern - Augustnacht/Volltext

Die Unterseite enthält ausschließlich den Werktext ohne Anmerkungen oder Formatierungen. Die Hauptseite zeigt die Metadaten über die Vorlage

Werkgruppe
Werkbereich
Zyklus
Zyklusnummer
Titel
Textanfang
Zitiert aus
Kommentar aus
Überlieferung
Datierung
Erstdruck
Gemeinfrei
Rezeptionen: künstlerisch
Rezeptionen: wissenschaftlich
Rezeptionen: Buchausgaben
Rezeptionen: weiteres
Kommentar
Volltexterfassung siehe Unterseite
ID


.

Vorteile dieser Trennung

  • Die Darstellung bleibt übersichtlich.
  • Texte können automatisiert ausgelesen und verarbeitet werden.
  • Das Wiki wird technisch nicht durch große Textmengen belastet.

Verbindung zwischen Werk und Text

Die Verknüpfung erfolgt über die Felder der Vorlage

Werkgruppe
Werkbereich
Zyklus
Zyklusnummer
Titel
Textanfang
Zitiert aus
Kommentar aus
Überlieferung
Datierung
Erstdruck
Gemeinfrei
Rezeptionen: künstlerisch
Rezeptionen: wissenschaftlich
Rezeptionen: Buchausgaben
Rezeptionen: weiteres
Kommentar
Volltexterfassung siehe Unterseite
ID


| ID = LYR-SA-01-01-0003
| Zitiert_aus = [[Christian Morgenstern - Werke und Briefe - Kommentierte Ausgabe - Bd. 1 - Lyrik 1887-1905 - Urachhaus 1988|Stuttgarter Ausgabe, Lyrik I]], [[:Datei:Sa1-0011.png|S. 11]], [[:Datei:Sa1-0012.png|S. 12]]
| Kommentar = [[Christian Morgenstern - Werke und Briefe - Kommentierte Ausgabe - Bd. 1 - Lyrik 1887-1905 - Urachhaus 1988|Stuttgarter Ausgabe, Lyrik I]], [[:Datei:Sa1-0748.png|S. 748]]
| Gemeinfrei_seit = ja

Der Link zur Unterseite /Volltext wird automatisch erzeugt und ist nur für angemeldete Benutzer sichtbar.

Beispielstruktur

Christian Morgenstern - Augustnacht
├── Augustnacht               → Hauptseite (sichtbar, mit Metadaten)
└── Augustnacht/Volltext      → Unterseite (reiner Text, maschinenlesbar)

Umgang mit nicht gemeinfreien Texten

  • Nicht gemeinfreie Werke werden erfasst, aber die Volltextseite bleibt verborgen oder wird lokal gespeichert.
  • Sie erhalten eine ID, Metadaten und Gemeinfrei_seit = nein.
  • Für interne Analysen kann der Text dennoch lokal archiviert und statistisch ausgewertet werden.
  • Nur Ergebnisse (z. B. Wortfrequenzen, Textlänge) dürfen wieder ins Wiki übernommen werden.

Geplanter technischer Ausbau (SMW)

Nach Aktivierung von Semantic MediaWiki werden zusätzliche Eigenschaften eingebunden:

| text_ref = [[Seitentitel/Volltext]]

Dies ermöglicht:

  • semantische Verknüpfung von Werk- und Textdaten
  • maschinelle Abfragen wie „alle Gedichte aus 1894 mit mehr als 20 Zeilen“
  • Export in Analyseformate (CSV, JSON, XML)

Interne Verarbeitung und Auswertung

Für interne, rechtlich unbedenkliche Analysen können alle Volltexte lokal zusammengeführt werden.

Beispiele:

  • Textkorpora im Format .txt, .csv oder .xml
  • Auswertung mit Python, R oder Voyant Tools
  • Speicherung statistischer Kennwerte (z. B. Wortzahl, häufigstes Wort) als SMW-Attribute

Aktueller Stand

  • Das Konzept ist vollständig vorbereitet, aber noch nicht umgesetzt.
  • Die Textüberprüfung (Orthographie, Varianten, Überlieferung) muss vor der Freigabe erfolgen.
  • Erst danach erfolgt die Einbindung in die Wiki-Datenstruktur.

Langfristige Perspektive

Langfristig entsteht ein zweistufiges System:

  • Offene Ebene: gemeinfreie Texte mit öffentlicher Anzeige
  • Interne Ebene: geschützte Texte mit lokaler Speicherung

Beide Ebenen sind über die eindeutige ID miteinander verknüpft und können gemeinsam ausgewertet werden. So entsteht ein digital-philologischer Gesamtkorpus Christian Morgensterns.

Typische Fehler vermeiden

Problem Beschreibung Lösung
Zeilennummern oder HTML-Reste im Volltext Der Text enthält Markup aus der Hauptseite. Auf der /Volltext-Seite nur reinen Fließtext einfügen – keine Zeilennummern, keine Hervorhebungen.
Doppelte Volltextseiten Unterseiten versehentlich mehrfach angelegt. Nur die Variante /Volltext verwenden – sie ist systemweit standardisiert.
Falsche Groß-/Kleinschreibung im Seitennamen /VollText oder /volltext wird als andere Seite behandelt. Immer exakt /Volltext (großes V, Rest klein) verwenden.
Nicht gemeinfreie Texte sichtbar Unterseite wurde öffentlich verlinkt. Keine Verlinkung oder Nutzung von Kommentar-Tags (<!-- Text -->).
Textverlust bei späteren Korrekturen Änderungen nur auf Hauptseite, nicht auf Unterseite. Beide Seiten synchron halten – Hauptseite für Darstellung, Unterseite für Daten.

Fazit

Die Volltexterfassung ermöglicht eine vollständige, rechtlich saubere und technisch auswertbare Erfassung von Morgensterns Werk. Sie verbindet bibliografische Präzision mit digitaler Analysefähigkeit.

Siehe auch


Diese Richtlinie wird nach Einführung von Semantic MediaWiki erweitert. Änderungen an Struktur und Umsetzung werden auf dieser Seite dokumentiert.