CMO:Volltexterfassung und Datenstruktur
Diese Seite erläutert Ziel, Aufbau und Umsetzung der Volltexterfassung in Christian-Morgenstern-Online (CMO). Sie beschreibt zugleich, wie die Texte in die Datenstruktur des Wikis eingebunden werden, um statistische und philologische Analysen zu ermöglichen. Die Volltexterfassung ergänzt die Werkseiten, schafft eine maschinenlesbare Textbasis und bildet die Grundlage für spätere Auswertungen mit Semantic MediaWiki.
Ziel und Hintergrund
In einem späteren Ausbauschritt sollen die Volltexte aller Gedichte, Briefe und anderer Werke Christian Morgensterns vollständig in die Datenstruktur eingebunden werden. Dadurch werden Analysen möglich wie:
- Häufigkeit und Verteilung bestimmter Wörter oder Motive
- Entwicklung sprachlicher und thematischer Merkmale über Zeiträume und Werkgruppen hinweg
- Vergleich von Wortfeldern und Themen zwischen Gattungen
- statistische Auswertung nach Datierung, Quelle oder Rezeption
Ziel ist nicht nur die Bereitstellung der Texte, sondern ihre maschinenlesbare Erschließung.
Rechtlicher Rahmen
Nicht alle Werke Morgensterns können als Volltext öffentlich angezeigt werden.
- Gemeinfreie Texte (z. B. Werke aus der Stuttgarter Ausgabe) dürfen vollständig veröffentlicht werden.
- Noch geschützte Texte (z. B. neu aufgefundene Briefe) dürfen nicht öffentlich zugänglich gemacht werden (§ 19a UrhG).
Zur Kennzeichnung dient in der Werkvorlage das Feld:
| Gemeinfrei_seit = ja / Jahr
So können spätere Abfragen klar zwischen freien und nicht freien Texten unterscheiden.
Konzept der Textunterseiten
Jedes Werk besteht aus zwei Ebenen:
- Hauptseite – Metadaten, Kommentar, Scans
- Unterseite – reiner Textkörper (Volltext)
Aufbau der Unterseite
Der Volltext wird auf einer Unterseite gespeichert, die stets /Volltext heißt:
[[Seitentitel/Volltext]]
Beispiel:
Christian Morgenstern - Augustnacht Christian Morgenstern - Augustnacht/Volltext
Die Unterseite enthält ausschließlich den Werktext ohne Anmerkungen oder Formatierungen. Die Hauptseite zeigt die Metadaten über die Vorlage
| Werkgruppe | – |
| Werkbereich | – |
| Zyklus | – |
| Zyklusnummer | – |
| Titel | – |
| Textanfang | – |
| Zitiert aus | – |
| Kommentar aus | – |
| Überlieferung | – |
| Datierung | – |
| Erstdruck | – |
| Gemeinfrei | – |
| Rezeptionen: künstlerisch | – |
| Rezeptionen: wissenschaftlich | – |
| Rezeptionen: Buchausgaben | – |
| Rezeptionen: weiteres | – |
| Kommentar | – |
| Volltexterfassung | siehe Unterseite |
| ID | – |
.
Vorteile dieser Trennung
- Die Darstellung bleibt übersichtlich.
- Texte können automatisiert ausgelesen und verarbeitet werden.
- Das Wiki wird technisch nicht durch große Textmengen belastet.
Verbindung zwischen Werk und Text
Die Verknüpfung erfolgt über die Felder der Vorlage
| Werkgruppe | – |
| Werkbereich | – |
| Zyklus | – |
| Zyklusnummer | – |
| Titel | – |
| Textanfang | – |
| Zitiert aus | – |
| Kommentar aus | – |
| Überlieferung | – |
| Datierung | – |
| Erstdruck | – |
| Gemeinfrei | – |
| Rezeptionen: künstlerisch | – |
| Rezeptionen: wissenschaftlich | – |
| Rezeptionen: Buchausgaben | – |
| Rezeptionen: weiteres | – |
| Kommentar | – |
| Volltexterfassung | siehe Unterseite |
| ID | – |
| ID = LYR-SA-01-01-0003 | Zitiert_aus = [[Christian Morgenstern - Werke und Briefe - Kommentierte Ausgabe - Bd. 1 - Lyrik 1887-1905 - Urachhaus 1988|Stuttgarter Ausgabe, Lyrik I]], [[:Datei:Sa1-0011.png|S. 11]], [[:Datei:Sa1-0012.png|S. 12]] | Kommentar = [[Christian Morgenstern - Werke und Briefe - Kommentierte Ausgabe - Bd. 1 - Lyrik 1887-1905 - Urachhaus 1988|Stuttgarter Ausgabe, Lyrik I]], [[:Datei:Sa1-0748.png|S. 748]] | Gemeinfrei_seit = ja
Der Link zur Unterseite /Volltext wird automatisch erzeugt und ist nur für angemeldete Benutzer sichtbar.
Beispielstruktur
Christian Morgenstern - Augustnacht ├── Augustnacht → Hauptseite (sichtbar, mit Metadaten) └── Augustnacht/Volltext → Unterseite (reiner Text, maschinenlesbar)
Umgang mit nicht gemeinfreien Texten
- Nicht gemeinfreie Werke werden erfasst, aber die Volltextseite bleibt verborgen oder wird lokal gespeichert.
- Sie erhalten eine ID, Metadaten und
Gemeinfrei_seit = nein. - Für interne Analysen kann der Text dennoch lokal archiviert und statistisch ausgewertet werden.
- Nur Ergebnisse (z. B. Wortfrequenzen, Textlänge) dürfen wieder ins Wiki übernommen werden.
Geplanter technischer Ausbau (SMW)
Nach Aktivierung von Semantic MediaWiki werden zusätzliche Eigenschaften eingebunden:
| text_ref = [[Seitentitel/Volltext]]
Dies ermöglicht:
- semantische Verknüpfung von Werk- und Textdaten
- maschinelle Abfragen wie „alle Gedichte aus 1894 mit mehr als 20 Zeilen“
- Export in Analyseformate (CSV, JSON, XML)
Interne Verarbeitung und Auswertung
Für interne, rechtlich unbedenkliche Analysen können alle Volltexte lokal zusammengeführt werden.
Beispiele:
- Textkorpora im Format
.txt,.csvoder.xml - Auswertung mit Python, R oder Voyant Tools
- Speicherung statistischer Kennwerte (z. B. Wortzahl, häufigstes Wort) als SMW-Attribute
Aktueller Stand
- Das Konzept ist vollständig vorbereitet, aber noch nicht umgesetzt.
- Die Textüberprüfung (Orthographie, Varianten, Überlieferung) muss vor der Freigabe erfolgen.
- Erst danach erfolgt die Einbindung in die Wiki-Datenstruktur.
Langfristige Perspektive
Langfristig entsteht ein zweistufiges System:
- Offene Ebene: gemeinfreie Texte mit öffentlicher Anzeige
- Interne Ebene: geschützte Texte mit lokaler Speicherung
Beide Ebenen sind über die eindeutige ID miteinander verknüpft und können gemeinsam ausgewertet werden. So entsteht ein digital-philologischer Gesamtkorpus Christian Morgensterns.
Typische Fehler vermeiden
| Problem | Beschreibung | Lösung |
|---|---|---|
| Zeilennummern oder HTML-Reste im Volltext | Der Text enthält Markup aus der Hauptseite. | Auf der /Volltext-Seite nur reinen Fließtext einfügen – keine Zeilennummern, keine Hervorhebungen.
|
| Doppelte Volltextseiten | Unterseiten versehentlich mehrfach angelegt. | Nur die Variante /Volltext verwenden – sie ist systemweit standardisiert.
|
| Falsche Groß-/Kleinschreibung im Seitennamen | /VollText oder /volltext wird als andere Seite behandelt. | Immer exakt /Volltext (großes V, Rest klein) verwenden.
|
| Nicht gemeinfreie Texte sichtbar | Unterseite wurde öffentlich verlinkt. | Keine Verlinkung oder Nutzung von Kommentar-Tags (<!-- Text -->).
|
| Textverlust bei späteren Korrekturen | Änderungen nur auf Hauptseite, nicht auf Unterseite. | Beide Seiten synchron halten – Hauptseite für Darstellung, Unterseite für Daten. |
Fazit
Die Volltexterfassung ermöglicht eine vollständige, rechtlich saubere und technisch auswertbare Erfassung von Morgensterns Werk. Sie verbindet bibliografische Präzision mit digitaler Analysefähigkeit.
Siehe auch
- Vorlage:InformationLYR – technische Grundlage der Erfassung
- CMO:ID- und Quellen-Systematik – gemeinsame Grundlage zur Identifizierung von Werken und zur Kodierung ihrer Quellenangaben
- CMO:Struktur und Erfassungssystematik – Übersicht über die Erfassungslogik
Diese Richtlinie wird nach Einführung von Semantic MediaWiki erweitert. Änderungen an Struktur und Umsetzung werden auf dieser Seite dokumentiert.