CMO:Volltexterfassung und Datenstruktur

Diese Seite erläutert Ziel, Aufbau und Umsetzung der Volltexterfassung in Christian-Morgenstern-Online (CMO). Sie beschreibt zugleich, wie die Texte in die Datenstruktur des Wikis eingebunden werden, um statistische und philologische Analysen zu ermöglichen. Die Volltexterfassung ergänzt die Werkseiten, schafft eine maschinenlesbare Textbasis und bildet die Grundlage für spätere Auswertungen mit Semantic MediaWiki.

Ziel und Hintergrund

In einem späteren Ausbauschritt sollen die Volltexte aller Gedichte, Briefe und anderer Werke Christian Morgensterns vollständig in die Datenstruktur eingebunden werden. Dadurch werden Analysen möglich wie:

Häufigkeit und Verteilung bestimmter Wörter oder Motive
Entwicklung sprachlicher und thematischer Merkmale über Zeiträume und Werkgruppen hinweg
Vergleich von Wortfeldern und Themen zwischen Gattungen
statistische Auswertung nach Datierung, Quelle oder Rezeption

Ziel ist nicht nur die Bereitstellung der Texte, sondern ihre maschinenlesbare Erschließung.

Rechtlicher Rahmen

Nicht alle Werke Morgensterns können als Volltext öffentlich angezeigt werden.

Gemeinfreie Texte (z. B. Werke aus der Stuttgarter Ausgabe) dürfen vollständig veröffentlicht werden.
Noch geschützte Texte (z. B. neu aufgefundene Briefe) dürfen nicht öffentlich zugänglich gemacht werden (§ 19a UrhG).

Zur Kennzeichnung dient in der Werkvorlage das Feld:

| Gemeinfrei_seit = ja / Jahr

So können spätere Abfragen klar zwischen freien und nicht freien Texten unterscheiden.

Konzept der Textunterseiten

Jedes Werk besteht aus zwei Ebenen:

Hauptseite – Metadaten, Kommentar, Scans
Unterseite – reiner Textkörper (Volltext)

Aufbau der Unterseite

Der Volltext wird auf einer Unterseite gespeichert, die stets /Volltext heißt:

[[Seitentitel/Volltext]]

Beispiel:

Christian Morgenstern - Augustnacht
Christian Morgenstern - Augustnacht/Volltext

Die Unterseite enthält ausschließlich den Werktext ohne Anmerkungen oder Formatierungen. Die Hauptseite zeigt die Metadaten über die Vorlage

Werkgruppe	–
Werkbereich	–
Zyklus	–
Zyklusnummer	–
Titel	–
Textanfang	–
Zitiert aus	–
Kommentar aus	–
Überlieferung	–
Datierung	–
Erstdruck	–
Gemeinfrei	–
Rezeptionen: künstlerisch	–
Rezeptionen: wissenschaftlich	–
Rezeptionen: Buchausgaben	–
Rezeptionen: weiteres	–
Kommentar	–
Volltexterfassung	siehe Unterseite
ID	–

.

Vorteile dieser Trennung

Die Darstellung bleibt übersichtlich.
Texte können automatisiert ausgelesen und verarbeitet werden.
Das Wiki wird technisch nicht durch große Textmengen belastet.

Verbindung zwischen Werk und Text

Die Verknüpfung erfolgt über die Felder der Vorlage

Werkgruppe	–
Werkbereich	–
Zyklus	–
Zyklusnummer	–
Titel	–
Textanfang	–
Zitiert aus	–
Kommentar aus	–
Überlieferung	–
Datierung	–
Erstdruck	–
Gemeinfrei	–
Rezeptionen: künstlerisch	–
Rezeptionen: wissenschaftlich	–
Rezeptionen: Buchausgaben	–
Rezeptionen: weiteres	–
Kommentar	–
Volltexterfassung	siehe Unterseite
ID	–

| ID = LYR-SA-01-01-0003
| Zitiert_aus = [[Christian Morgenstern - Werke und Briefe - Kommentierte Ausgabe - Bd. 1 - Lyrik 1887-1905 - Urachhaus 1988|Stuttgarter Ausgabe, Lyrik I]], [[:Datei:Sa1-0011.png|S. 11]], [[:Datei:Sa1-0012.png|S. 12]]
| Kommentar = [[Christian Morgenstern - Werke und Briefe - Kommentierte Ausgabe - Bd. 1 - Lyrik 1887-1905 - Urachhaus 1988|Stuttgarter Ausgabe, Lyrik I]], [[:Datei:Sa1-0748.png|S. 748]]
| Gemeinfrei_seit = ja

Der Link zur Unterseite /Volltext wird automatisch erzeugt und ist nur für angemeldete Benutzer sichtbar.

Beispielstruktur

Christian Morgenstern - Augustnacht
├── Augustnacht               → Hauptseite (sichtbar, mit Metadaten)
└── Augustnacht/Volltext      → Unterseite (reiner Text, maschinenlesbar)

Umgang mit nicht gemeinfreien Texten

Nicht gemeinfreie Werke werden erfasst, aber die Volltextseite bleibt verborgen oder wird lokal gespeichert.
Sie erhalten eine ID, Metadaten und Gemeinfrei_seit = nein.
Für interne Analysen kann der Text dennoch lokal archiviert und statistisch ausgewertet werden.
Nur Ergebnisse (z. B. Wortfrequenzen, Textlänge) dürfen wieder ins Wiki übernommen werden.

Geplanter technischer Ausbau (SMW)

Nach Aktivierung von Semantic MediaWiki werden zusätzliche Eigenschaften eingebunden:

| text_ref = [[Seitentitel/Volltext]]

Dies ermöglicht:

semantische Verknüpfung von Werk- und Textdaten
maschinelle Abfragen wie „alle Gedichte aus 1894 mit mehr als 20 Zeilen“
Export in Analyseformate (CSV, JSON, XML)

Interne Verarbeitung und Auswertung

Für interne, rechtlich unbedenkliche Analysen können alle Volltexte lokal zusammengeführt werden.

Beispiele:

Textkorpora im Format .txt, .csv oder .xml
Auswertung mit Python, R oder Voyant Tools
Speicherung statistischer Kennwerte (z. B. Wortzahl, häufigstes Wort) als SMW-Attribute

Aktueller Stand

Das Konzept ist vollständig vorbereitet, aber noch nicht umgesetzt.
Die Textüberprüfung (Orthographie, Varianten, Überlieferung) muss vor der Freigabe erfolgen.
Erst danach erfolgt die Einbindung in die Wiki-Datenstruktur.

Langfristige Perspektive

Langfristig entsteht ein zweistufiges System:

Offene Ebene: gemeinfreie Texte mit öffentlicher Anzeige
Interne Ebene: geschützte Texte mit lokaler Speicherung

Beide Ebenen sind über die eindeutige ID miteinander verknüpft und können gemeinsam ausgewertet werden. So entsteht ein digital-philologischer Gesamtkorpus Christian Morgensterns.

Typische Fehler vermeiden

Problem	Beschreibung	Lösung
Zeilennummern oder HTML-Reste im Volltext	Der Text enthält Markup aus der Hauptseite.	Auf der `/Volltext`-Seite nur reinen Fließtext einfügen – keine Zeilennummern, keine Hervorhebungen.
Doppelte Volltextseiten	Unterseiten versehentlich mehrfach angelegt.	Nur die Variante `/Volltext` verwenden – sie ist systemweit standardisiert.
Falsche Groß-/Kleinschreibung im Seitennamen	/VollText oder /volltext wird als andere Seite behandelt.	Immer exakt `/Volltext` (großes V, Rest klein) verwenden.
Nicht gemeinfreie Texte sichtbar	Unterseite wurde öffentlich verlinkt.	Keine Verlinkung oder Nutzung von Kommentar-Tags (`<!-- Text -->`).
Textverlust bei späteren Korrekturen	Änderungen nur auf Hauptseite, nicht auf Unterseite.	Beide Seiten synchron halten – Hauptseite für Darstellung, Unterseite für Daten.

Fazit

Die Volltexterfassung ermöglicht eine vollständige, rechtlich saubere und technisch auswertbare Erfassung von Morgensterns Werk. Sie verbindet bibliografische Präzision mit digitaler Analysefähigkeit.

Siehe auch

Vorlage:InformationLYR – technische Grundlage der Erfassung
CMO:ID- und Quellen-Systematik – gemeinsame Grundlage zur Identifizierung von Werken und zur Kodierung ihrer Quellenangaben
CMO:Struktur und Erfassungssystematik – Übersicht über die Erfassungslogik

Diese Richtlinie wird nach Einführung von Semantic MediaWiki erweitert. Änderungen an Struktur und Umsetzung werden auf dieser Seite dokumentiert.