Projekt – Zeta and Company

Das Projekt ist an der Professur für Digital Humanities und dem Trier Center for Digital Humanities der Universität Trier angesiedelt und wird von der DFG in zwei Förderphasen von 2020–2026 gefördert.

Zweite Förderphase: Beyond Words. Semantische und mehrteilige distinktive Merkmale für die Untersuchung literarischer Untergattungen (2024–2026)

Die kontrastive Textanalyse, bei der eine Gruppe von Texten mit einer anderen verglichen wird, ist ein weit verbreitetes Verfahren in der Linguistik und den Literaturwissenschaften, sowohl in qualitativen als auch in quantitativen Forschungsdesigns. In einer Reihe von verwandten Bereichen, insbesondere dem Information Retrieval, der Korpus- und Computerlinguistik und den digitalen Literaturwissenschaften, werden ‘Keyness-’ oder ‘Distinktivitätsmaße’ entwickelt, evaluiert und eingesetzt. Das hier vorgeschlagene Projekt baut direkt auf den Erkenntnissen, Erfahrungen und Ergebnissen des laufenden Projekts Zeta und Konsorten auf, das an einer systematischen, methodischen Erforschung dieses quantitativen kontrastiven Paradigmas arbeitet. In Beyond Words konzentrieren wir uns erneut auf den französischen Gegenwartsroman, mit besonderem Augenmerk auf die drei populären Subgenres Science Fiction, Kriminalroman und sentimentaler Roman, aber auch englischsprachige literarische und nicht-literarische Korpora werden berücksichtigt.

Das übergeordnete Ziel von Beyond Words ist es, die Kluft zwischen den (statistisch gesehen) charakteristischen Merkmalen spezifischer Gruppen von Exemplaren dieser literarischen Subgenres einerseits und ihrer (bedeutungsvollen, interpretativen) Beziehung zu einem anspruchsvollen, komplexen Verständnis der charakteristischen Eigenschaften literarischer Subgenres andererseits deutlich zu verringern. Unsere Strategie zur Erreichung dieses Ziels beruht auf einem dreigliedrigen Ansatz: Erstens konzentrieren wir uns nicht auf einzelne Wortformen, sondern extrahieren komplexere und semantisch reichhaltigere sprachliche Merkmale aus den Texten, diebesser in der Lage sind, aussagekräftige Eigenschaften literarischer Subgenres zu erfassen. Zweitens erstellen wir eine Konzeptualisierung der Subgenres, die sowohl explizit als auch flexibel ist, indem wir kleinteilige, deskriptive, prototypische Subgenre-Profile erstellen, die auf einer breiten Betrachtung der relevanten Forschungsliteratur basieren. Drittens konzentrieren wir uns weiterhin auf qualitative und quantitative Strategien zur Bewertung der Unterscheidungskraft und der Interpretierbarkeit der von uns identifizierten Unterscheidungsmerkmale.

Mit diesem Ansatz können wir einen entscheidenden Beitrag zu den Computational Literary Studies leisten, sowohl auf der Ebene der methodischen Innovationen hinsichtlich der Merkmalsextraktion und der für komplexe Merkmale geeigneten Unterscheidungsmaße als auch auf der Ebene eines vertieften Verständnisses dessen, was literarische Untergattungen konzeptionell ausmacht und wie die spezifischen Untergattungen am besten beschrieben werden können.

Erste Förderphase: Zeta und Konsorten. Distinktivitätsmaße für die Digitalen Literaturwissenschaften (2020–2023)

Der Vergleich als methodisches und epistemologisches Paradigma ist in den Geisteswissenschaften tief verankert. Ob in der qualitativen oder quantitativen Forschung – über das Vergleichen lassen sich Ähnlichkeiten und Unterschiede, Affinitäten und Kontraste herausstellen; das Vergleichen schärft das Auge des Betrachters und Analysen gewinnen an Kontur und Aussagekraft. Vor diesem Hintergrund verbessert die hier beschriebene Forschung unser Verständnis von quantitativen, vergleichenden Analysemethoden zweier oder mehrerer Textsammlungen im Bereich der Digitalen Literaturwissenschaften.

Der Fokus lag dabei auf einem zentralen Verfahren im Bereich der quantitativen, vergleichenden Analysen: statistische Distinktivitätsmaße, die es Forschenden ermöglichen, Elemente (z.B. Wortformen oder Wortarten) zu bestimmen, die charakteristisch für eine Textgruppe im Vergleich mit einer anderen Textgruppe sind. In so unterschiedlichen Bereichen wie Information Retrieval, Computerlinguistik oder den Digitalen Literaturwissenschaften ist ein breites Spektrum an statistischen Distinktivitätsmaßen entwickelt worden.

Dabei können drei Typen von Maßen unterschieden werden, denen jeweils unterschiedliche Informationen zugrunde liegen. Beim ersten Typ werden die relativen Häufigkeiten von Merkmalen in jeder der beiden Textgruppen verglichen (bspw. beim log-likelihood-Test). Beim zweiten Typ werden die Verteilungen der Häufigkeiten von Merkmalen in den einzelnen Texten beider Textgruppen ermittelt und verglichen (bspw. beim t-Test). Beim dritten Typ wird die Dispersion der Merkmale über alle Texte hinweg in jeder Gruppe untersucht und verglichen, d.h. wie gleichmäßig die Merkmale in jeder Gruppe von Texten verteilt sind (bspw. bei Zeta).

Um ein tieferes Verständnis der verschiedenen Distinktivitätsmaße zu erreichen und Verbesserungen in deren Implementierung und Anwendung vorschlagen zu können, haben wir geeignete Referenzkorpora erstellt und veröffentlicht, ein breites Spektrum an existierenden Distinktivitätsmaßen analysiert und deren statistische Eigenheiten bestimmt und verglichen sowie sie in einem gemeinsamen konzeptionellen Modell formal dargestellt. Basierend auf diesem Modell haben wir diese Maße in einem gemeinsamen Rahmen implementiert; zudem haben wir mehrere Evaluationsstrategien angewandt, um die Eigenschaften und die Leistungsfähigkeit der Maße empirisch zu ermitteln und zu vergleichen. Abschließend haben wir sie in einer Anwendungsstudie auf verschiedene Untergattungen des zeitgenössischen französischen Romans angewandt (auf kanonisierte Romane im Vergleich mit Populärliteratur wie Kriminalromane, Liebesromane und Science-Fiction-Romane). Die Hauptergebnisse der Studie haben wir in mehreren akademischen Publikationen und in Form eines Webportals verbreitet.