Austrian Baroque Corpus

Zur Erstellung originalnaher Transkriptionen wurden die Druckvorlagen mit XML und verwandten Technologien zu maschinenlesbarem Text verarbeitet und gemäß international empfohlener Standards (TEI – Text Encoding Initiative, Version P5) erschlossen. Die zugrundeliegende TEI Customization ist im ODD-Format (XML, HTML Dokumentation) bzw. als Relax NG-Schema verfügbar.

Die digitalen Daten bilden die jeweilige Druckvorlage seiten-, zeilen-, und zeichengetreu ab. Sie haben mehrfache Kollationierungsgänge durchlaufen, sind hinsichtlich ihrer Qualität sorgfältig überprüft und geben den historischen Sprachstand der Texte unverändert wieder.

Die Typografie des Originals wurde weitgehend beibehalten, d.h. u und v sowie i und j bleiben ebenso erhalten wie Kapitälchen, Initialen oder der Wechsel von Fraktur- und Antiquadruck beziehungsweise Fett- und Kursivdruck – ausgenommen sind Ligaturen, für die es keinen Unicode gibt. Das e über a, o und u wurde mit den Unicodes der entsprechenden Umlaute wiedergegeben (zB: ü für ü); auf eine Differenzierung von rundem s und Schaft-s wurde verzichtet. Längenstriche sind durch den Unicode U+305 repräsentiert, der dem jeweiligen Buchstaben nachgestellt ist. Abkürzungen im Text sind nicht aufgelöst, aber bei der Lemmatisierung berücksichtigt. Das tironische Et im Wortgruppenlexem et cetera ist – dem damaligen Druckbild entsprechend – als kursiviertes r dargestellt.

Silbentrennungen wurden im elektronischen Text zusammengeführt, sodass eine Suche uneingeschränkt möglich ist. Substantivkomposita mit Mittelstrichschreibung wie Schutz=Engel werden mit Istgleichzeichen dargestellt, weil es dem damaligen Druckbild am nächsten kommt. Für die Virgel wurde der Schrägstrich mit Spatien verwendet, vgl. etwa: Ein Teuffel / von dem sich ein jeder gern lasst holen.

In den Texten wurden außerdem historische, biblische und mythologische Personennamen sowie Ortseigennamen annotiert und kategorisiert, die in der Edition als einzelne Register und mit Frequenzangaben versehen aufbereitet sind.

Die Kodierung ist nicht nur dokumentarisch, weil sie den Druckvorlagen auf das genaueste folgt, sondern auch textkritisch, indem sie offensichtliche Textfehler ausweist und kommentiert: Editorische Anmerkungen wurden im elektronischen Text durch rote, hochgestellte Klammern dargestellt, die sich mit dem jeweiligen Korrekturvorschlag öffnen, sobald BenutzerInnen mit dem Cursor in deren Nähe kommen.

Die Annotation betrifft erstens eindeutige Fehler des Setzers wie etwa ausgelassene Wörter (Aber bey dem unersättlichen Todt nichts frey statt Aber bey dem unersättlichen Todt ist nichts frey) oder ausgelassene Buchstaben mit oder ohne Spatium (Sillschweigen statt Stillschweigen) sowie überflüssige Buchstaben, wie sie in Blättter oder Schnittter vorkommen. Häufig ist auch die Verwechslung von Buchstaben (d.h. Pharoanischen statt Pharaonischen), besonders von „n“ und „u“: Gefängnnß statt Gefängnuß oder umgekehrt Gottseligeu statt Gottseligen. Weiters wurden fehlerhafte Wortgrenzen (nich tviel statt nicht viel) im Kommentar korrigiert. Ausgezeichnet und mit einer Berichtigung versehen wurden zweitens fehlerhafte Zahlenangaben bei Kapitelnummerierungen, Seitenpaginierungen und -verweisen, aber auch im Fließtext – ein Beispiel dafür wäre die Aussage: Seth war 112. Jahr alt und starb, bei der die Altersangabe auf 912 korrigiert werden musste. Auch die zahlreichen Bibelstellenangaben mit Kapitel- und Verszahlen wurden überprüft und gegebenenfalls korrigiert. Drittens haben wir inhaltliche Irrtümer mit einem Vorschlag richtiggestellt – so etwa den Verweis einer Vorrede der „Todten-Capelle“ auf das Werk Mercks Wienn, mit dem eigentlich nur Auff, auff, ihr Christen gemeint sein kann.

Unter Berücksichtigung des historischen Sprach- und Schreibstandes ist grundsätzlich zu überlegen, wie tolerant HerausgeberInnen bei der Einschätzung von Fehlern sein sollen. Allein im Fall von „Mercks Wienn“ hat Werner Welzig bislang den Versuch unternommen, ein Register von Fehlern anzulegen (vgl. Deutsche Neudrucke, Reihe Barock, Band 31 1983, Nachwort S. 13*f.), das bei der Annotation vorliegender Online-Ausgabe in die Überlegungen mit einbezogen worden ist.

Für die Linguistische Basisannotation wurde zuerst der Zeichenstrom der Rohtexte in einem automatischen Verarbeitungsschritt auf Wortebene segmentiert. Historische Konventionen der Zusammen- und Getrenntschreibung erschweren die Tokenisierung und machen eine manuelle Nachbearbeitungen erforderlich (etwa bei Belegen wie Capellan Stell, Sonnen Uhr oder Galgen Vogel beziehungsweise kontrahierten Formen wie auffs oder wirdʼs, verachstu oder mustu).

In einem nächsten Verarbeitungsschritt wurde jedes einzelne Token mit Hilfe der Software TreeTagger automatisch einer morphosyntaktischen Wortklasse zugewiesen (Part-of-Speech Tagging). Als Klassifikationssystem wurde das 54-teilige Stuttgart-Tübingen-TagSet (STTS) herangezogen, das von der ABaC:us-Projektgruppe zur Annotation kontrahierter Formen mit neuen, kombinierten Kategorien (etwa KOUSPER für wanns oder obs bzw. VVFINPPER für beweists, gibts oder kommts) erweitert wurde.

Bei der Lemmatisierung wurde für jedes Token eine normalisierte Grundwortform angesetzt und der Duden sowie das Deutsche Wörterbuch von Jacob und Wilhelm Grimm als Referenzwerke herangezogen. Die mehr als 1000 im Untersuchungskorpus vorkommenden Wortformen, zu denen es in den beiden genannten Referenzwerken keinen entsprechenden Wörterbucheintrag gibt, wurden als sogenannte „out-of-vocabulary“-words in der Lemmaliste mit Stern gekennzeichnet und auf eine naheliegende Grundform zurückgeführt – Beispiele hierfür sind Lexeme wie vernunftselig, schlechtbeherzt, Tigergemüt, Butterkind oder Weltzärtling u.v.m. Zweifelsfälle – etwa Wortkreationen wie GehWeck=Silber (für Quecksilber) oder Doch=Toren (für Doktoren) wurden nach Gesichtspunkten der Handhabbarkeit bzw. der Nutzerbedürfnisse entschieden. Lateinische Wörter (FM) wurden ebenfalls lexikalisch identifiziert. Geht man in der Browseransicht mit dem Cursor auf ein einzelnes Wort, werden linguistische Informationen (Lemma und Wortart) angezeigt.

Der Wert des linguistisch annotierten und manuell überprüften Korpus liegt in der Wiederverwendbarkeit von bereits erarbeitetem Wissen über den Text, d.h. die Projektgruppe selbst, aber auch künftige NutzerInnen der Korpusdaten werden die Annotationen zeitsparend, zweckmäßig und gewinnbringend für ihre Erkenntnisinteressen einsetzen können (vgl. Nutzbarkeit).