CMO:Wie kommen die Gedichte in CMO?

Aus CMO

Scannen

ist der erste Schritt. Ich arbeite mit einem Plustek OpticBook 4800 mit folgenden Einstellungen

  • Graustufen
  • 300 oder 400 dpi
  • abgespeichert als PNG

Bücher werden mit dem Pfalz an die Seite der Scheibe gedrückt, was dazu führt, dass jede 2. Seite um 180° gedreht ist. Das kann die Scansoftware zwar automatisiert drehen, aber es ist kompliziert zu handhaben. das Drehen erledige ich dann mit IrfanView.

OCR

Optical Character Recognition, Zeichenerkennung mache ich mit Abbyy finreader. Die Software analysiert automatisch zuerst die Textform. Aber es muss jede Seite nachbearbeitet werden, damit wirklich alles erfasst wird. Die folgende Texterkennung bedingt, dass man die verwedneten Sprachen auch einstellt, an griechisch muss man also auch denken.

Nach der Texterkennung kann per Hand korrigiert werden. Hier such ich nicht nach Fehlern, sondern vereinheitliche die Optik - Geviertstriche — werden zu Munuszeichen - und die französische Anführungszeichen «», werden zu den regulären ". Ellipsen … werden aufgelöst zu drei einzelnen Punkten ... . Die Orthographie wird beibehalten.

Abgespeichert wird als pdf, wobei unter der Bilddatei der Text liegt.Die H Qualität der Bilddatei kann angepasst werden.

Hilfstabelle

Die Darstellung der Gedichte in CMO geschieht nach einem bestimmten Muster. Da dabei in unterschiedliche Felder diverse Werte eingetragen werden müssen, erfasse ich alle relevanten Teile einer Gedichtseite in einer Tabelle. Die Spaltenbezeichnungen entsprechen meißtens auch den Feldern der Vorlage zu den Metainformatione Vorlage:InformationLYR.

ID	~	Gedichttext	~	Werkgruppe	~	Werkbereich	~	Zyklus	~	Zyklusnummer	~	Titel	~	Textanfang	~	Zitiert_aus	~	Zitiert_aus_raw	~	Kommentar	~	Kommentar_raw	~	Überlieferung	~	Datierung	~	date_start	~	date_end	~	Datierung_Praezision	~	Datierung_Sicherheit	~	Datierung_Herkunft	~	Datierung_Grundlage	~	Erstdruck	~	Gemeinfrei_seit	~	Rezeptionen_künstlerisch	~	Rezeptionen_wissenschaftlich	~	Rezeptionen_Buchausgaben	~	Rezeptionen_weiteres	~	Kommentar_eigen	~	Ausrichtung

Die Tilden sind eigene Spalten und dienen als Feldtrenner um die Werte besser auslesen zu können. Weiteres hier: CMO:Volltexterfassung und Datenstruktur

Datenerfassung

Aus der pdf entnehme ich per copy'n'paste den Gedichttext und parke ihn kurz auf einem GoogleDoc. Dort kontrolliere ich die Zeilennummerierung (die manchmal fehlerhaft erkannt wird) und füge ein:

  • Leerzeile zur Stropheneinteilung (und ich schreibe LZ da rein, damit es später als Leerzeile erkannt wird)
  • eingerückte Zeilen werden mit  , also geschützten Leerzeichen, erzeugt.
  • wird ein Wort gesperrt dargestellt, so verwende ich Vorlage:Gesperrt

Vom GoogleDoc wird er dann in die Tabelle reinkopiert. Der Titel wird in das entsprechende Feld verschoben. Der Textanfang rüberkopiert. und es wird/werden die Seitennummer/n notiert.

Die Metadaten, wie Datierung, Erstdruck, Überlieferung wird den Kommentaren entnommen. Es werden notwendige Verlinkungen eingefügt. Auch die Kommentarseite/n wird/werden notiert.

Zuguterletzt noch die Gedichtausrichtung, ob linksbündig oder achszentriert.

Übersicht Werkbereich generieren

Zur Navigation innerhalb eines Gedichtbandes gibt es unter jdem Gedicht einen Block, der z.B. so aussieht:

Lyrik | Nachlese zu Ich und die Welt
Ihr müßt solche Verse nicht anders betrachten oT | O Kunst, du allerseligste Gewalt oT | Als ob ich nicht mit ahndevollem Flügel oT | Was bin ich selbst oT | Sieh, so bin ich oT | Wenn Cyrano des Kusses Süße singt oT | Nomen - Omen? | Nun pocht der Regen wieder oT | O laß mich trauern, stille Stunde oT | So stark empfand ich’s niemals oT | Die ganze Welt ward greis und grau oT | In den Dünen | Auf dem Meere meiner Seele oT | Glücklich, die wir auf der Zeiten oT | Meinem kleinen Christian Friedrich Kayssler | Homunkel | Immer wieder | Dies hatt’ ich fast von Kind auf oT | Ich stand oT | Ich liebe mir die überlegnen Geister oT | Ja, nun bist du da oT | Die Morgenröte (L’Aurora)

Der Blick: I Mir gegenüber oT | II Mir ahnt ein Einst oT | III Über uns allen oT


Jedes Gedicht mit einem Titel bekommt diesen als Seitentitel. Gibt es keinen Titel, wird der Textanfang genommen und mit oT ergänzt. Die Seitenlinks werden in Reihe gesetzt mit einer Pipe | optisch voneinander getrennt.

Gedichte, die einem Zyklus angehören oder eine Hauptüberschrift haben, werden nach einem Zeilenumbruch aufgeführt. Im Beispiel oben ist die Hauptüberschrift Der Blick. Die einzelnen Gedichte werden durch römische Nummern getrennt. Als Gedichtseite, wird der Gedichtanfang + oT genommen. Hauptüberschrift und römische Nummern werden in den Metadaten unmter Zyklus erfasst.

Gedichtseite generieren

Jede Gedichtseite hat folgenden Aufbau:

<poem>-Block, in welchem der Gedichttext steht. Die Zeilennummern werden mit Hilfe der [[:Vorlage:Zeile]] dargestellt
2 Leerzeilen
{{ÜbersichtLYR|Name des Werkbereiches}}
1 Leerzeile
Metadaten in {{InformationLYR}}
1 Leerzeile
[[Kategorie:Gedicht]]

Das Generieren geschieht mit https://claude.ai. Ich übergebe den Datensatz, indem ich eine Zeile aus der Tabelle kopiere und als Prompt übergebe:

LYR-SA-01-06-0010	~	"So stark empfand ich’s niemals noch denn eben,
als ich im Zug der Stadt entgegenfuhr,
wie wir kein einzig Ziel uns selber geben,
unfreie Kinder der Natur.
LZ
{{Gesperrt|Ich }}hätte mich in diesen Zug gesetzt - 5
aus freiem Willen, Vorsatz und Entschluß?
Nein, wenn ich’s nie gefühlt, ich fühlte jetzt:
Dies alles ist ein unergründlich Muß.
LZ
Wachstum ist alles, jeglicher Moment:
wir wolln nicht, handeln nicht, - wir wachsen, sprossen! 10
Und selbst der Augenblick, der dies erkennt,
ist mit in diesem Ring beschlossen.
"	~	Lyrik	~	Nachlese zu Ich und die Welt	~		~		~		~	So stark empfand ich’s niemals	~	301	~		~	880	~		~	{{TBl|1898-99-I|20}}. Einzelblatt, handschriftlich, im Nachlaß. 	~	1.6.1898	~		~		~	Tag	~	sicher	~	SA-Kommentar	~	Tagebuch	~	[[Mensch Wanderer (1927)]] S. 50.	~	ja	~		~		~		~		~		~	linksbündig	

Mit einer entsprechenden Anweisung (ein weiterer Prompt) wird alles transformiert.