Entdecken Sie Millionen von E-Books, Hörbüchern und vieles mehr mit einer kostenlosen Testversion

Nur $11.99/Monat nach der Testphase. Jederzeit kündbar.

Korpusgestützte Textanalyse: Grundzüge der Ebenen-orientierten Textlinguistik
Korpusgestützte Textanalyse: Grundzüge der Ebenen-orientierten Textlinguistik
Korpusgestützte Textanalyse: Grundzüge der Ebenen-orientierten Textlinguistik
eBook446 Seiten8 Stunden

Korpusgestützte Textanalyse: Grundzüge der Ebenen-orientierten Textlinguistik

Bewertung: 0 von 5 Sternen

()

Vorschau lesen

Über dieses E-Book

Viele Arbeitsgebiete der Linguistik haben in den letzten Jahren von einer Hinwendung zu empirischen Daten profitiert: Allgemein verfügbare Korpora erlauben die nachvollziehbare Prüfung von Hypothesen. Der vorliegende Band geht diesen Weg für die Textlinguistik. Die wesentlichen Ebenen der Textanalyse werden systematisch erläutert und Textualität als das Ergebnis der Interaktion dieser Ebenen gedeutet. Anhand einer linguistischen Datenbank und eines auf mehreren Ebenen annotierten Textkorpus können praktische Recherchen durchgeführt und die Mechanismen der Textkohärenz gründlicher untersucht werden als bisher sowohl qualitativ als auch quantitativ. Die 2. Auflage wurde vollständig überarbeitet und an vielen Stellen ergänzt, u.a. um ein eigenständiges Kapitel zur Argumentationsstruktur. Zudem steht jetzt für die Korpusrecherche das Potsdamer Kommentarkorpus online bereit und ist in die Übungsaufgaben des Buches integriert.
Stimmen zum Buch:
"... eine uneingeschränkte Empfehlung für alle, die sich mit moderner Textanalyse in praktischer Hinsicht befassen wollen." Info DaF 36, 2/3 (2009)
"Studierende der Sprachwissenschaft im allgemeinen und der Textlinguistik sowie der Computerlinguistik im besonderen werden dieses Buch als ein gutes Lernmittel erleben" ZfS 26 (2007)
SpracheDeutsch
Erscheinungsdatum29. Okt. 2018
ISBN9783823301547
Korpusgestützte Textanalyse: Grundzüge der Ebenen-orientierten Textlinguistik

Ähnlich wie Korpusgestützte Textanalyse

Ähnliche E-Books

Literaturkritik für Sie

Mehr anzeigen

Ähnliche Artikel

Rezensionen für Korpusgestützte Textanalyse

Bewertung: 0 von 5 Sternen
0 Bewertungen

0 Bewertungen0 Rezensionen

Wie hat es Ihnen gefallen?

Zum Bewerten, tippen

Die Rezension muss mindestens 10 Wörter umfassen

    Buchvorschau

    Korpusgestützte Textanalyse - Manfred Stede

    Vorworte

    Vorwort zur 2. Auflage

    Als im Jahr 2006 die erste Ausgabe dieses Buches entstand, waren korpusbasierte Ansätze in der Linguistik bereits recht weit verbreitet, doch für die Beschreibungsebene Text gab es nur wenige Korpora, die mit textlinguistisch relevanten Phänomenen annotiert waren – zumal für die deutsche Sprache. Das lag in erster Linie daran, dass diese Phänomene (wie etwa die Koreferenz zwischen Nominalphrasen oder die Gliederung eines Textes in seine Diskursstruktur) einerseits für eine automatische Analyse zu schwierig waren und andererseits eine manuelle Annotation mit hohem Aufwand verbunden war. Insofern war der Titel Korpusgestützte Textanalyse seinerzeit vor allem als programmatisch zu verstehen. Seither hat sich das Forschungsfeld jedoch kräftig weiter entwickelt: Auch für das Deutsche sind eine ganze Reihe interessanter Korpora entstanden, annotiert mit vielfältigen textlinguistischen Phänomenen, sowie leistungsfähige Software-Werkzeuge, die eine komfortable Recherche in diesen Korpora ermöglichen. Die vorliegende Neuauflage greift diese Entwicklungen auf und berichtet an vielen Stellen über die Möglichkeiten des Erkenntnisgewinns mit Hilfe solcher Werkzeuge. Insbesondere steht nun das frei zugängliche Potsdamer Kommentarkorpus, implementiert in der linguistischen Datenbank ANNIS3, mit seiner Mehrebenen-Annotation für praktische Übungen zur Verfügung; hier danke ich Peter Bourgonje und Thomas Krause für die technische Unterstützung.

    Darüber hinaus sind alle Kapitel gründlich durchgesehen und teilweise ergänzt worden, um neuere Entwicklungen der Textanalyse zu integrieren.

    Potsdam, im Juni 2018 Manfred Stede

    Vorwort zur 1. Auflage

    Dieses Buch nähert sich der Aufgabe Textanalyse aus zwei verschiedenen Richtungen: Das grundsätzliche Anliegen, Strukturen in Texten aufzudecken und nach der Entstehung von Kohärenz zu fragen, ist das der Textlinguistik. Auch die Idee, dafür eine Reihe unterschiedlicher Ebenen heranzuziehen, wird von verschiedenen Autor/innen der Textlinguistik vertreten. Sie ist jedoch ebenso in der Computerlinguistik prominent, und damit geht der Versuch einher, die Aufteilung in Ebenen und die Untersuchung ihrer Zusammenwirkung möglichst systematisch zu betreiben. Hinzu kommt die Betonung der Rolle eines datenorientierten Vorgehens, das (neben der Korpuslinguistik, per definitionem) gleichfalls in der Computerlinguistik seit vielen Jahren gründlich verankert ist. Während meiner Beschäftigung mit der Thematik fiel mir auf, wie merkwürdig separat die Disziplinen Textlinguistik und Computerlinguistik allerdings nebeneinander zu existieren scheinen: Die Textlinguistik nimmt kaum einmal die durchaus interessanten Ergebnisse der textbezogenen Computerlinguistik auf. Und in der Computerlinguistik werden mitunter Räder neu erfunden, die vor vielen Jahren in der Textlinguistik bereits bekannt waren, wenn auch möglicherweise noch nicht hinreichend formalisiert. Diese Entwicklung ist bedauerlich, und es erscheint mir wichtig, die beiden Disziplinen stärker aufeinander aufmerksam zu machen. Sollte das Buch dazu einen Beitrag leisten, so wäre ein Ziel erreicht.

    Das Buch möchte Studierenden einen Überblick über die verschiedenen Ebenen der linguistischen Textanalyse vermitteln. Weil am Ende die Einsicht in das Zusammenwirken der unterschiedlichen Ebenen stehen soll, ist das Unterfangen relativ „breit" angelegt – wir behandeln eine ganze Reihe recht unterschiedlicher Themen. Dies bedingt, dass bei der Diskussion der Einzelebenen einiges nur kursorisch besprochen wird, was von Fall zu Fall unbefriedigend erscheinen mag. Ich habe jedoch versucht, am Ende jedes Kapitels Hinweise auf geeignete weiterführende Lektüre zur jeweiligen Ebene anzugeben.

    Das Buch entstand im Verlauf dreier Veranstaltungen des Proseminars Textstrukturen an der Universität Potsdam. Allerlei Anregungen aus den Diskussionen mit Seminarteilnehmer/innen flossen in die Überarbeitungen ein. Besonders bedanken möchte ich mich bei Eva Breindl, Christian Chiarcos, Stefanie Dipper, Michael Grabski, Alexander Mehler und Georg Rehm für ihre wertvollen Hinweise zur Verbesserung früherer Versionen einzelner Kapitel. Andreas Peldszus half bei einigen technischen Problemen und der Gestaltung von Abbildungen. Doch wie immer gilt: Für alle verbleibenden Fehler ist allein der Autor verantwortlich.

    Potsdam, im März 2007 Manfred Stede

    Teil I Einführung und Grundbegriffe

    1 Einleitung und Übersicht

    1.1 Motivation

    Texte sind vielschichtige Objekte. Lesen wir einen, so geschehen vielerlei Dinge mit uns: Unter anderem rufen wir die einzelnen Wörter oder Phraseme (Mehrworteinheiten) in unserem mentalen Lexikon ab; analysieren wir seine Sätze und ihre Bestandteile mit Hilfe unseres grammatischen Wissens; machen uns ein Bild von der Bedeutung der Sätze; stellen dazu Zusammenhänge zu anderen Sätzen her (z.B. beim Verstehen eines Pronomens); setzen auch die einzelnen Satzbedeutungen zueinander in Beziehung (z.B. beim Herstellen eines Kausalzusammenhangs, der nicht explizit ausgedrückt ist); stellen fest, „worum es geht und registrieren Themen-Wechsel an bestimmten Textstellen; nehmen den Stil des Textes wahr: auf welche Weise spricht die Autorin oder der Autor mit uns; identifizieren wir gelegentlich versteckte Präsuppositionen und interpretieren unscheinbare Andeutungen; erkennen wir (oder glauben zu erkennen), was man uns mit diesem Text wirklich sagen will, welchen Zweck der Text erfüllen soll. All dies und mehr geschieht sehr schnell und zur gleichen Zeit – der Text geht nicht wie ein Computerprogramm „Schritt für Schritt vor und serviert uns solcherlei Informationseinheiten und Verarbeitungsanweisungen in sauberer Reihenfolge, sondern lässt uns in hohem Maße parallel arbeiten, also rezipieren und konstruieren. Ein Blick auf die Etymologie des Wortes Text, wie ihn etwa Mistrik (1973, S. 10) vornahm, verdeutlicht die Komplexität:

    Das Verständnis dieses Begriffes wird uns durch den Rückgriff auf die ursprüngliche Bedeutung des lateinischen Verbums texo, texere und des lateinischen Substantivums textus erleichtert: texo, texere heißt weben, flechten, zusammenfügen, bauen; textus heißt Gewebe, Geflecht, Zusammenhang, Gefüge. Ein Text ist also ein kompaktes Ganzes, dessen Inneres auf eine bestimmte Weise geflochten, d.h. aus der Fügung sprachlicher Elemente entstanden ist. Er ist eine in sich geschlossene sprachliche Äußerung im allgemeinen Sinne.

    Mistrik betont hier auch, dass bei aller Komplexität ein (guter) Text am Ende die verschiedenen Fäden wieder zusammen laufen lässt, den Eindruck der Abgeschlossenheit vermittelt. Nach der Lektüre kann der Leser mit der Autorin übereinstimmen oder nicht, kann feststellen, dass vielleicht einige inhaltliche Fragen offen geblieben sind; doch das Lese-Erlebnis als solches ist erfolgreich beendet, wenn sich das Gefühl einstellt, das Anliegen des Textes insgesamt verstanden zu haben.

    Wie aber „funktioniert" ein solch komplexes Lese-Erlebnis? Wie gelingt es dem Text, uns ein solches Erlebnis zu verschaffen? Aus linguistischer Sicht ist dies bislang nur in einzelnen Ansätzen verstanden. Es gibt relativ gut ausgearbeitete Modelle für bestimmte Aspekte (z.B., wie finden wir ein Antezedens für ein Personalpronomen), aber es gibt keine umfassende Erklärung für das Zusammenwirken der verschiedenen Teilaufgaben, die wir beim Lesen bearbeiten. Dass man sich für die Suche nach einer solchen Erklärung auf ganz unterschiedliche Beschreibungsebenen begeben muss, dürfte heute weitgehend unstrittig sein. Bereits im Modell von Grosz u. Sidner (1986) ist von drei verschiedenen Strukturen die Rede (die allerdings nicht gleichermaßen ausgearbeitet wurden): einer intentionalen, einer aufmerksamkeitssteuernden (attentional) und einer linguistischen Struktur. Ähnlich unterscheidet Nussbaumer (1991) eine funktional-illokutive Ebene (Handlungsstruktur), eine inhaltlich-propositionale Ebene, sowie eine sprachlich-ausdrucksseitige Ebene. Sehr reichhaltig ist das Programm der Untersuchung dieser Vielfalt in dem Band Ebenen der Textstruktur (Motsch, 1996) artikuliert. Auch Brinker (2005) betont, dass künftige Forschung die einzelnen Ebenen zunächst isolieren und dann systematisch miteinander verbinden müsse. Allein fehlt bis heute eine Theorie, die auf der Grundlage sorgfältig ausgearbeiteter Einzelebenen dann genau das Zusammenwirken dieser Ebenen erklären könnte. Dieses Ziel wurde vor einiger Zeit bereits sehr eingängig von Brandt u. Rosengren (1992, S. 9, Hervorh. durch MS) formuliert:

    Einigkeit besteht heute darüber, dass Texte multidimensionale Gebilde sind (…) In (Motsch 1990a) liegt ein Versuch vor, die einzelnen Ebenen zu identifizieren. Diese kurze Übersicht zeigt, dass die vielen theoretischen Ansätze, die oft neben- und unabhängig voneinander konzipiert wurden und häufig auch nur einen Aspekt des Textes beleuchten, in einem generellen Modell zueinander in Bezug gesetzt und an authentischem Material überprüft werden müssen. Ein solches Modell kann nicht auf Anhieb ausgearbeitet werden.

    Auch heute ist dieses Modell noch nicht in Sicht; bei der Feststellung, dass es „nicht auf Anhieb" entwickelt werden kann, dürfte es sich mithin um eine milde Formulierung handeln. Eine andere Untersuchung, die sich ebenfalls diesem Ziel verschreibt, ist die von Schröder (2003), der formuliert (S. 1, Hervorh. im Original):

    Entscheidend ist, dass die multidimensionale Textstruktur als ein Zusammenspiel aus verschiedenartigen Ebenen begriffen wird. Daraus folgt, dass die unterschiedlichen Ebenen der Textstrukturierung nicht nur getrennt und sozusagen ‚nebeneinander‘ existieren, sondern dass sie sich gegenseitig auch beeinflussen und untereinander in einem Verhältnis wechselseitiger Abhängigkeiten stehen.

    Für Schröder steht dann speziell die Handlungsstruktur im Mittelpunkt der Betrachtung, während es uns hier darum geht, nicht eine bestimmte Ebene vertieft zu behandeln, sondern mehrere Ebenen gleichermaßen zur Sprache zu bringen, und die Aufmerksamkeit auf die besagten wechselseitigen Abhängigkeiten zu richten. Um einen Beitrag zu dem eher langfristigen Ziel der Modellierung des Zusammenwirkens zu leisten, schlagen wir zwei, ihrerseits miteinander verwobene, Wege ein:

    Wir versuchen, für eine Reihe interessanter Beschreibungsebenen den jeweiligen „Stand der Kunst" darzustellen, also Material zusammen zu tragen, das für die Ebene grundlegend ist und auf dessen Basis die Entwicklung präziserer Modelle möglich sein sollte.

    Wir betonen die wichtige Rolle von Daten als Grundlage der Erkenntnissuche und der Theoriebildung. Für die Untersuchung des linguistischen Objekts Satz sind Korpora und insbesondere mit syntaktischer Information angereicherte (sog. ‚annotierte‘) Daten in Gestalt von ‚Baumbanken‘ heute bereits zu einer sehr wichtigen Informationsquelle für viele Syntaktiker geworden. Für den Text ist dieser Perspektivenwechsel bisher – zumindest was die Arbeit mit annotierten Daten betrifft – noch weniger vorangeschritten.

    So wie bestimmte Satz-Baumbanken für Computerlinguisten, aber auch für weniger Computer-orientierte Syntaktiker, die gemeinsame Datenbasis darstellen, anhand derer Hypothesen geprüft, weiterentwickelt und miteinander verglichen werden können, kann auch die Untersuchung von Texten erheblich von annotierten Korpora profitieren, anhand derer sich Phänomene aufzeigen lassen, die dann eben auch von Dritten nachvollzogen und weiter intepretiert werden können. Voraussetzung dafür ist freilich, dass die Annotationen einerseits nachvollziehbar und andererseits nützlich sind. Für die Textanalyse bedeutet das – und damit schließt sich unser Kreis – gut motivierte, voneinander getrennte Analyse-Ebenen, die einerseits in sich selbst schlüssig begründet sein müssen und andererseits dann das Auffinden von Korrelationen zwischen diesen Ebenen ermöglichen. Wenn, wie von den oben zitierten (und weiteren) Autoren richtigerweise betont, das Wechselspiel zwischen verschiedenen Ebenen letztlich die Textualität hervorbringt, dann setzt eine systematische Untersuchung dieser Phänomene eine geeignete Datengrundlage voraus: Texte, die gleichzeitig auf unterschiedlichen Ebenen annotiert sind. Dass die Arbeit mit solchen Text-Daten heute möglich ist, verdanken wir den korpus- und computerlinguistischen Entwicklungen der letzten Jahre. Die technische Seite wird in diesem Buch öfters zur Sprache kommen, sie ist aber auch kein zwingender Bestandteil der Lektüre: Die zentrale Diskussion der einzelnen Beschreibungsebenen wird rein inhaltlicher Natur sein.

    Unser Untersuchungsgegenstand sind allein geschriebene Texte, und wir treffen hier auch die oft übliche Einschränkung auf sog. Gebrauchstexte. Um dem komplexen „Funktionieren von Texten auf die Spur zu kommen, sollte man einerseits mit „richtigen Texten arbeiten und nicht allein mit handgefertigten Beispielen, andererseits aber die Komplexität auch begrenzen: Wie etwa Dichtung oder spielerische Werbetexte funktionieren, werden wir hier nicht untersuchen. Sämtliche multimedialen Aspekte bleiben ebenfalls von der Betrachtung ausgeschlossen. Bedingt durch das unseren eigenen Untersuchungen meist zugrunde liegende Korpus, das Potsdamer Kommentarkorpus, gibt es darüber hinaus einen gewissen Schwerpunkt auf Phänomenen in argumentativen Texten; doch die meisten Kapitel und Abschnitte sind unabhängig von dieser Wahl und gleichermaßen für andere Texttypen gültig.

    1.2 Arbeit mit Textkorpora: Software-Werkzeuge für Annotation und Recherche

    Im Folgenden gehen wir kurz auf die technische Seite einer korpusgestützen Textanalyse ein. Eine Reihe der Übungsaufgaben in den folgenden Kapiteln basieren auf den hier besprochenen Software-Werkzeugen. Es sei aber noch einmal betont, dass das Buch ggf. auch vollständig ohne die Komponente der Korpus-Recherche gelesen und bearbeitet werden kann.

    Die Arbeit mit Textkorpora kann im Prinzip beginnen, sobald eine Sammlung von Textmaterial, das nach bestimmten Kriterien ausgewählt wurde, zusammengestellt ist.¹ Mit geeigneten Software-Werkzeugen lassen sich dann Untersuchungen der Wortfrequenz, von Kollokationen etc. durchführen (Hinweise auf solche Werkzeuge finden sich auf der Homepage zum Buch).

    Für viele Zwecke entsteht allerdings ein eherblicher Mehrwert, wenn die Texte nicht nur „roh vorliegen, sonden mit linguistischer Information annotiert sind. Unter Annotation verstehen wir die Anreicherung von „Primärdaten (in unserem Fall: Texten) mit Informationen, die aus linguistischer Interpretation hervorgehen. Dabei kann es sich um ganz unterschiedliche Arten von Information handeln: part-of-speech tags, Syntax-Bäume, Sprechakte uvm. Der eigentliche Annotationsvorgang geschieht für manche Informationsarten vollautomatisch, wie üblicherweise bei der morphologischen Analyse und dem part-of-speech tagging (der Annotation mit Wortart-Information). Diese automatische Bearbeitung ermöglicht es den großen deutschsprachigen online-Korpussammlungen cosmas² (IDS Mannheim) und DWDS³ (BBAW), Abfragemöglichkeiten anzubieten, die verschiedene Flexionsformen zum eingegebenen Wort finden, typische Wortkookkurrenzen berechnen, oder Wortsuche bei zusätzlicher Angabe der Wortart (zur Desambiguierung) ausführen.

    Wenn eine Annotationsaufgabe so schwierig ist, dass sie einstweilen nicht oder nur mit ungenügender Ergebnisqualität automatisierbar ist, dann muss sie manuell durch geschulte Annotatoren ausgeführt werden. Dies ist bei allen in diesem Buch besprochenen Ebenen der Fall, auch wenn für einige davon bereits automatische Lösungen mit durchaus beachtlicher – aber eben nicht perfekter – Qualität existieren. Auch für die manuelle Annotation sind aber geeignete Software-Werkzeuge erforderlich, die vor allem diese zwei Zwecke erfüllen:

    Das Werkzeug kann den jeweiligen Typus der Annotation durch eine geeignete Visualisierung und ein zugeschnittenes Bedienungskonzept optimal unterstützen und dadurch hohe Effizienz ermöglichen.

    Die entstehenden Daten können in geeigneten Formaten abgespeichert werden, die eine einfache Weiterverarbeitung erlauben.

    Mit anderen Worten: Linguistische Annotation sollte in aller Regel nicht mit dem gebräuchlichen Textverarbeitungs- oder Tabellenkalkulationsprogramm erfolgen. In den späteren Kapiteln gehen wir jeweils am Ende auf die konkrete Annotationsaufgabenstellung ein, nennen geeignete Werkzeuge, und geben weitere Hinweise auf der Homepage.

    Aufwändige Annotationen entfalten ihre Wirkung freilich erst, wenn man nach ihnen auch recherchieren kann. Für die Syntax bedeutet dies vor allem die Suche in Datenbanken, die speziell auf Baumstrukturen zugeschnitten sind. Ebenso gibt es aber auch Korpora, die auf der Text-Ebene annotiert sind, beispielsweise für die Koreferenz zwischen Nominalphrasen (siehe Kap. 4). Auch dafür benötigt man dann spezielle Abfrage- und Auswertungswerkzeuge, um aus den Daten Erkenntnisse zu ziehen. (In manchen Fällen gestattet bereits das Annotationswerkzeug auch die Recherche, oft ist das aber nicht der Fall.)

    Von besonderem Interesse ist es nun, wenn dieselben Primärdaten mit einer Reihe von ganz unterschiedlichen Annotationen versehen sind, aus deren Kombination sich dann – sei es durch manuelle Recherche oder durch statistische Auswertung – neue Erkenntnisse gewinnen lassen. Dies entspricht dem oben (S. 14) wiedergegebenen Zitat von Brandt u. Rosengren (1992), wonach Ebenen zueinander in Beziehung gesetzt werden, indem man sie an authentischem Material prüft. Möchte man dies an einigermaßen umfangreichem Textmaterial tun, so ist eine Automatisierung mittels einer Datenbank unerlässlich.

    Damit dieses Szenario der Mehrebenenannotation (engl. multi-level annotation) funktioniert, muss eine gewisse Systematik eingehalten werden, damit diese Ebenen einerseits separat recherchiert und ggf. auch verändert werden können. Um andererseits Korrelationen zwischen einzelnen Annotationsebenen aufdecken zu können, müssen alle Annotationen technisch mit den Primärdaten in derselben Weise verbunden sein. Dies wird durch eine sogenannte standoff-Annotation erreicht, bei der sowohl der Primärtext als auch jede Analyse-Ebene jeweils in einer einzelnen Datei gespeichert und die Verbindungen zwischen den Ebenen durch „Zeiger" realisiert werden. Eine technische Grundlage dafür ist XML (‚eXtensible Markup Language‘) als standardisiertes Austauschformat für Daten zwischen verschiedenen Software-Systemen. Der große Vorteil ist, dass man für die verschiedenen Analyse-Ebenen jeweils spezielle Werkzeuge benutzen kann, die auf die zugrunde liegenden Strukturen zugeschnitten sind und damit ein möglichst effektives Arbeiten erlauben.

    Abbildung 1.1:Architektur der Daten-Annotation mit ANNIS

    Annotiert man nun jeweils denselben Text mit verschiedenen Werkzeugen auf verschiedenen inhaltlichen Ebenen, müssen anschließend alle resultierenden Annotationen wieder zusammengefügt werden. Dies geschieht in einer linguistischen Datenbank, die dann die Recherche erlaubt. Abb. 1.1 illustriert diese Konzeption: Die Annotationswerkzeuge auf der linken Seite (die dort genannten werden im Verlauf des Buches kurz angesprochen werden) erzeugen jeweils eigene XML-Dateien, die dann in einem geeigneten Austauschformat (wie zum Beispiel PAULA, Dipper (2005)) zusammengeführt und in die Datenbank (wie zum Beispiel ANNIS; siehe unten) eingespeist werden. Zusätzlich können weitere Werkzeuge für die statistische Auswertung der Daten benutzt werden; dieses Thema werden wir in diesem Buch aber nicht weiter besprechen.

    Eine Alternative besteht darin, ein universelleres Annotationswerkzeug zu benutzen, mit dem sich unterschiedliche Typen von Information annotieren lassen; in diesem Fall entfällt die Zusammenführung der verschiedenen Annotationsformate. Es sollte aber stets abgewogen werden, ob dieser Vorteil nicht dadurch gemindert wird, dass das Werkzeug für einige der Annotationsschritte möglicherweise nur bedingt geeignet ist oder eine umständliche Handhabung mit sich bringt.

    ANNIS

    Weil die Datenbank in der Lage sein muss, für dieselben Primärtexte ganz unterschiedliche Annotationsschemata recherchierbar bereitzustellen und die Suchergebnisse angemessen zu visualisieren, sind Standard-Textdatenbanken für unseren Zweck nicht verwendbar. Die für dieses spezielle Szenario konzipierte linguistische Datenbank ANNIS entstand in einer ersten Version in den frühen 00er Jahren an der Universität Potsdam⁴ (Dipper u.a., 2004) und wurde später an der Humboldt Universität zu Berlin ausgiebig weiterentwickelt (Krause u. Zeldes, 2016). Es handelt sich um eine open-source software, die in der aktuellen Version ANNIS3 von der Webseite ‚corpus-tools.org‘ bezogen werden kann.⁵

    Abbildung 1.2:Bildschirmabzug von ANNIS3 (Ausschnitt)

    ANNIS zeigt die verschiedenen Annotationsebenen zu einem Text jeweils in einer Form, die dem Annotationstyp entspricht. In dem Bildschirmabzug in Abbildung 1.2 (der nur einen Ausschnitt der Benutzeroberfläche zeigt) sind für denselben Textausschnitt die morphosyntaktischen Informationen, Syntax-Bäume, sowie die Koreferenz-Markierungen (vgl. Kap. 4) angezeigt. Weitere Annotationsebenen können nach Wunsch aufgeklappt werden.

    Die Suchfunktion von ANNIS gestattet die Formulierung von Anfragen, die mehrere Annotationsebenen miteinander verbinden. Angenommen, zu den gespeicherten Texten liegen Annotationen zur Syntax, zum Informationsstatus der Diskursgegenstände und zur rhetorischen Struktur vor, so ist es beispielsweise möglich, alle Textstellen zu finden, in denen

    eine Präpositionalphrase am Satzanfang steht,

    der in der dort eingebetteten NP denotierte Diskursgegenstand brand-new ist, und

    die PP als Satellit der Kohärenzrelation Concession verwendet wird.

    Ein entsprechender Satz könnte lauten: Trotz einer Verwarnung durch die Schiedsrichterin ging Leonie weiter mit großem Elan in die Zweikämpfe. Wie die Suchsprache AQL (‚ANNIS Query Language‘) benutzt wird, ist in den Hilfeseiten beschrieben, die in ANNIS integriert sind. Einführende Hinweise für den Start finden sich auch auf der Homepage zu diesem Buch (unter www.narr-studienbuecher.de), wo auch die URL einer öffentlich nutzbaren ANNIS-Installation angegeben ist, mit der das Potsdamer Kommentarkorpus bearbeitet werden kann.

    1.3 Das Potsdamer Kommentarkorpus

    In der Entstehungszeit von ANNIS wurde auch das ‚Potsdamer Kommentarkorpus‘ (PCC) als exemplarisches Korpus für die Mehrebenen-Annotation entwickelt (Stede, 2004). Es besteht aus 174 Texten aus der Märkischen Allgemeinen Zeitung (MAZ), die ursprünglich auf den Ebenen Satzsyntax, nomnale Koreferenz und Rhetorische Struktur annotiert wurden. In der aktuellen Version PCC 2.0¹ (Stede u. Neumann, 2014) sind Konnektoren und ihre Argumente hinzugekommen. Die der Annotation zugrunde liegenden Richtlinien sind in dem online frei zugänglichen Band (Stede, 2016a) zusammengefasst. Alle Texte stammen von den Kommentarseiten der MAZ aus den frühen 00er Jahren und sind etwa 12–14 Sätze lang. Das PCC ist in ANNIS3 online verfügbar und kann für Korpusabfragen zu den meisten der in Teil II des Buches diskutierten Annotationsebenen verwendet werden. Eine ausführlichere Darstellung der Hintergründe des Korpus und der zugrunde liegenden Design-Entscheidungen beim PCC findet sich in (Stede, 2016b).

    1.4 Übersicht über das Buch

    Der Teil I ‚Einführung und Grundbegriffe‘ wird im folgenden Kapitel mit einer Diskussion der Schlüsselbegriffe Kohäsion und Kohärenz fortgesetzt, die üblicherweise als die zentralen Merkmale der Textualität verstanden werden. Anschließend stellen wir Konzeptionen zu den miteinander verwandten Begriffen Textfunktion, Textsorte und Texttyp vor und betonen hier auch die wichtige Rolle von Korpora für den Erkenntnisgewinn (Kap. 3).

    Teil II des Buches widmet sich den verschiedenen Ebenen der Textanalyse. Zunächst geht es um die Referenzielle Struktur (Kap. 4), dann um die Thematische Struktur und die Verbindung zur Informationsstruktur von Sätzen (Kap. 5). Nach einem Blick auf Temporale Struktur (Kap. 6) wenden wir uns den Sprechakten und der daraus hervorgehenden Konzeption einer Illokutionsstruktur zu (Kap. 7). Den Abschluss bildet eine genauere Betrachtung des Typus der argumentativen Texte und ihrer Struktur (Kap. 8).

    Teil III untersucht exemplarisch einen Ansatz, der sich nicht nahtlos in die Ebenen-Darstellung integrieren lässt, weil er einen umfassenderen Anspruch auf „die" linguistisch motivierte Textstrukur erhebt. Hiernach kann ein Text in seine strukturell-relevanten minimalen Einheiten zerlegt werden (Kap. 9), die dann durch sogenannte Kohärenzrelationen zu einer Rhetorischen Struktur zusammengefügt werden (Kap. 10).

    Am Schluss fasst Kapitel 11 dann das zentrale Anliegen noch einmal zusammen, weist exemplarisch auf Wechselwirkungen zwischen einzelnen Ebenen hin, und nimmt im Lichte der in Teil II und III diskutierten Fragen abermals die Frage nach der Kohäsion, der Kohärenz und der Textstruktur(en) unter die Lupe.

    Die einzelnen Kapitel sind so konzipiert, dass sie zwar nach einer gewissen Logik aufeinander folgen, doch sie lassen sich recht problemlos auch einzeln bearbeiten, wenn sich das Lese-Interesse auf ausgewählte Themen richtet.

    Abschließend zwei Hinweise zur Terminologie: (i) Die Frage der Verwendung geschlechts/un/spezifischer Bezeichnungen behandeln wir in diesem Buch durch zufälligen Wechsel zwischen maskuliner und femininer Form. (ii) Die „handelnden Personen" rund um den Text bezeichnen wir meistens als ‚Autorin‘ oder ‚Verfasser‘ und ‚Leser‘, doch mitunter (etwa bei der Diskussion von Sprechhandlungen) verwenden wir auch andere Begriffe wie ‚Sprecher‘, ‚Hörerin‘, ‚Adressat‘ oder ‚Rezipientin‘, ohne damit jeweils wichtige theoretische Unterscheidungen zu verbinden.

    1.5 Übungsaufgabe

    Wählen Sie aus dem Online-Angebot einer Tageszeitung einen nicht zu langen Kommentar (10–15 Sätze) aus und speichern Sie ihn in einer „plain text" Datei. Der Kommentar sollte nicht allzu schwierig sein in dem Sinne, dass er eher arm an komplexen syntaktischen Konstruktionen sein und möglichst keine wiedergegebene wörtliche Rede enthalten sollte. Dieser Text wird die Arbeitsgrundlage für viele der Übungsaufgaben der nachfolgenden Kapitel sein. Falls Sie planen, den technischen Anregungen zu folgen und spezielle Software-Werkzeuge für die Annotation Ihres Kommentars einzusetzen, können Sie in Ihrem Text Umlaute und Sonderzeichen ersetzen, um etwaige ärgerliche und zeitraubende Zeichensatz- und Konvertierungs-Probleme von vornherein zu vermeiden. Aber auch, wenn Sie sich mit spezieller Software nicht befassen wollen, werden Sie vielleicht die verschiedenen Anmerkungen zu Ihrem Kommentar speichern und wiederfinden wollen. In diesem Fall brauchen Sie eine Datei und nicht nur einen Papier-Ausschnitt.

    2 Kohäsion, Kohärenz und Textualität

    Dieses Kapitel wirft zunächst einen Blick auf die Wurzeln der Textlinguistik und beleuchtet dann in Kürze die wesentlichen Phänomene der Kohäsion und Kohärenz. (Diese werden in den nachfolgenden Kapiteln dann vertieft dargestellt.) Weitere Phänomene der Textualität werden angesprochen und Beispiele für die Untersuchung annotierter Korpora genannt.

    2.1 Die Anfänge der Textlinguistik

    In den 1960er Jahren, einer durch die bahnbrechenden Entwicklungen von Chomskys Generativer Transformationsgrammatik ausgelösten „Blütezeit der Syntax", waren die Untersuchungsgegenstände der Linguistik das Morphem, das Wort, die systematischen Wortgruppen bzw. Konstituenten und der Satz. Nur wenige Sprachwissenschaftler zeigten sich von dieser Konzentration auf die Satz-Beschreibung unbefriedigt und meldeten Interesse an, auch satzübergreifende Phänomene zum Ziel linguistischer Untersuchung und Theoriebildung zu machen, mithin den Text als linguistische Einheit zu begreifen.

    Einer der wesentlichen Auslöser der Beschäftigung mit Texten war der Wunsch, die Funktion und Bedeutung von Pronomina linguistisch zu erklären. Pronomina sind die augenfälligsten sprachlichen Mittel, die Bezüge zwischen Sätzen herstellen. Hier ein auch von Linke u.a. (1994) zitiertes Textbeispiel aus einem Roman:

    (2.1)

    Ich glaube, dann war Nadja dran. Sie hatte sich für Jura beworben und wußte längst, daß sie zugelassen war. Sie hatte es telefonisch erfahren, und sie hatte mittlerweile auch einen Förderungsvertrag mit Patenschaft und so unterschrieben. Sie kriegte dann aber irgendwie Kontakt mit einer frustrierten Richterin, die den Laden von innen kannte. Von da an wollte Nadja nicht mehr.

    (Thomas Brussig: Wasserfarben)

    Mit Ausnahme eines einzelnen Teilsatzes ist kontinuierlich die Rede von Nadja, auf die nach der ersten Erwähnung durchgehend mit dem Personalpronomen sie verwiesen wird – bis zum letzten Satz, wo wieder ihr Name genannt wird, entweder um der drohenden Monotonie

    Gefällt Ihnen die Vorschau?
    Seite 1 von 1