CMO:Wie kommen die Gedichte in CMO?
Scannen
ist der erste Schritt. Ich arbeite mit einem Plustek OpticBook 4800 mit folgenden Einstellungen
- Graustufen
- 300 oder 400 dpi
- abgespeichert als PNG
Bücher werden mit dem Pfalz an die Seite der Scheibe gedrückt, was dazu führt, dass jede 2. Seite um 180° gedreht ist. Das kann die Scansoftware zwar automatisiert drehen, aber es ist kompliziert zu handhaben. das Drehen erledige ich dann mit IrfanView.
OCR
Optical Character Recognition, Zeichenerkennung mache ich mit Abbyy finreader. Die Software analysiert automatisch zuerst die Textform. Aber es muss jede Seite nachbearbeitet werden, damit wirklich alles erfasst wird. Die folgende Texterkennung bedingt, dass man die verwedneten Sprachen auch einstellt, an griechisch muss man also auch denken.
Nach der Texterkennung kann per Hand korrigiert werden. Hier such ich nicht nach Fehlern, sondern vereinheitliche die Optik - Geviertstriche — werden zu Munuszeichen - und die französische Anführungszeichen «», werden zu den regulären ". Ellipsen … werden aufgelöst zu drei einzelnen Punkten ... . Die Orthographie wird beibehalten.
Abgespeichert wird als pdf, wobei unter der Bilddatei der Text liegt.Die H Qualität der Bilddatei kann angepasst werden.
Hilfstabelle
Die Darstellung der Gedichte in CMO geschieht nach einem bestimmten Muster. Da dabei in unterschiedliche Felder diverse Werte eingetragen werden müssen, erfasse ich alle relevanten Teile einer Gedichtseite in einer Tabelle. Die Spaltenbezeichnungen entsprechen meißtens auch den Feldern der Vorlage zu den Metainformatione Vorlage:InformationLYR.
ID ~ Gedichttext ~ Werkgruppe ~ Werkbereich ~ Zyklus ~ Zyklusnummer ~ Titel ~ Textanfang ~ Zitiert_aus ~ Zitiert_aus_raw ~ Kommentar ~ Kommentar_raw ~ Überlieferung ~ Datierung ~ date_start ~ date_end ~ Datierung_Praezision ~ Datierung_Sicherheit ~ Datierung_Herkunft ~ Datierung_Grundlage ~ Erstdruck ~ Gemeinfrei_seit ~ Rezeptionen_künstlerisch ~ Rezeptionen_wissenschaftlich ~ Rezeptionen_Buchausgaben ~ Rezeptionen_weiteres ~ Kommentar_eigen ~ Ausrichtung
Die Tilden sind eigene Spalten und dienen als Feldtrenner um die Werte besser auslesen zu können. Weiteres hier: CMO:Volltexterfassung und Datenstruktur
Datenerfassung
Aus der pdf entnehme ich per copy'n'paste den Gedichttext und parke ihn kurz auf einem GoogleDoc. Dort kontrolliere ich die Zeilennummerierung (die manchmal fehlerhaft erkannt wird) und füge ein:
- Leerzeile zur Stropheneinteilung (und ich schreibe LZ da rein, damit es später als Leerzeile erkannt wird)
- eingerückte Zeilen werden mit  , also geschützten Leerzeichen, erzeugt.
- wird ein Wort gesperrt dargestellt, so verwende ich Vorlage:Gesperrt
Vom GoogleDoc wird er dann in die Tabelle reinkopiert. Der Titel wird in das entsprechende Feld verschoben. Der Textanfang rüberkopiert. und es wird/werden die Seitennummer/n notiert.
Die Metadaten, wie Datierung, Erstdruck, Überlieferung wird den Kommentaren entnommen. Es werden notwendige Verlinkungen eingefügt. Auch die Kommentarseite/n wird/werden notiert.
Zuguterletzt noch die Gedichtausrichtung, ob linksbündig oder achszentriert.
Übersicht Werkbereich generieren
Zur Navigation innerhalb eines Gedichtbandes gibt es unter jdem Gedicht einen Block, der z.B. so aussieht:
Jedes Gedicht mit einem Titel bekommt diesen als Seitentitel. Gibt es keinen Titel, wird der Textanfang genommen und mit oT ergänzt. Die Seitenlinks werden in Reihe gesetzt mit einer Pipe | optisch voneinander getrennt.
Gedichte, die einem Zyklus angehören oder eine Hauptüberschrift haben, werden nach einem Zeilenumbruch aufgeführt. Im Beispiel oben ist die Hauptüberschrift Der Blick. Die einzelnen Gedichte werden durch römische Nummern getrennt. Als Gedichtseite, wird der Gedichtanfang + oT genommen. Hauptüberschrift und römische Nummern werden in den Metadaten unmter Zyklus erfasst.
Gedichtseite generieren
Jede Gedichtseite hat folgenden Aufbau:
<poem>-Block, in welchem der Gedichttext steht. Die Zeilennummern werden mit Hilfe der [[:Vorlage:Zeile]] dargestellt
2 Leerzeilen
{{ÜbersichtLYR|Name des Werkbereiches}}
1 Leerzeile
Metadaten in {{InformationLYR}}
1 Leerzeile
[[Kategorie:Gedicht]]
Das Generieren geschieht mit https://claude.ai. Ich übergebe den Datensatz, indem ich eine Zeile aus der Tabelle kopiere und als Prompt übergebe:
LYR-SA-01-06-0010 ~ "So stark empfand ich’s niemals noch denn eben,
als ich im Zug der Stadt entgegenfuhr,
wie wir kein einzig Ziel uns selber geben,
unfreie Kinder der Natur.
LZ
{{Gesperrt|Ich }}hätte mich in diesen Zug gesetzt - 5
aus freiem Willen, Vorsatz und Entschluß?
Nein, wenn ich’s nie gefühlt, ich fühlte jetzt:
Dies alles ist ein unergründlich Muß.
LZ
Wachstum ist alles, jeglicher Moment:
wir wolln nicht, handeln nicht, - wir wachsen, sprossen! 10
Und selbst der Augenblick, der dies erkennt,
ist mit in diesem Ring beschlossen.
" ~ Lyrik ~ Nachlese zu Ich und die Welt ~ ~ ~ ~ So stark empfand ich’s niemals ~ 301 ~ ~ 880 ~ ~ {{TBl|1898-99-I|20}}. Einzelblatt, handschriftlich, im Nachlaß. ~ 1.6.1898 ~ ~ ~ Tag ~ sicher ~ SA-Kommentar ~ Tagebuch ~ [[Mensch Wanderer (1927)]] S. 50. ~ ja ~ ~ ~ ~ ~ ~ linksbündig
Mit einer entsprechenden Anweisung (ein weiterer Prompt) wird alles transformiert.