Eines der Hauptziele unseres Projekts ist es, ein tieferes Verständnis der  statistischen Maßen zu erreichen, die für Untersuchung und Analyse großer Mengen von Textdaten in einer kontrastiven Perspektive entwickelt oder adaptiert wurden. Sie werden normalerweise als „Keyness-Maße“ bezeichnet, da sie auf einer lexikalischen Ebene arbeiten und zum Extrahieren von „Schlüssel“-Begriffen oder -Phrasen verwendet werden. Wir bevorzugen jedoch den Begriff „Distinktivitätsmaße“, da er besser betont, dass es bei dieser Art der Analyse um die Extraktion charakteristischer Wörter auf der Grundlage eines Vergleichs geht.

Wir möchten unser Wissen mit allen teilen, die sich für vergleichende Analysen interessieren. Auf dieser Seite finden Sie einen Überblick über die in unserem Framework implementierten Distinktivitätsmaße, außerdem die Informationen über ihre wichtigsten statistischen Merkmale und nützliche Referenzen.

NameType of measureReferencesEvaluated in
TF-IDFDispersionsbasiertLuhn 1957, Spärck 1972Salton & Buckley 1988
Ratio of relative frequenciesHäufigkeitsbasiertDamerau 1993 Gries 2010
Chi-squared testHäufigkeitsbasiertDunning 1993Lijffijt et al. 2014
Log-likelihood ratio testHäufigkeitsbasiertDunning 1993Egbert & Biber, 2019, Paquot & Bestgen 2009, Lijffijt et al. 2014
Welch’s t-testDistributionsbasiertWelch 1947Paquot & Bestgen 2009 (t-test), Lijffijt et al. 2014
Wilcoxon rank sum testDispersionsbasiert (bis zu gewissem Grad)Wilcoxon 1945, Mann & Whitney 1947Paquot & Bestgen 2009, Lijffijt et al. 2014
Burrows’ ZetaDispersionsbasiertBurrows 2007,Craig & Kinney 2009Schöch et al. 2018
logarithmic ZetaDispersionsbasiertSchöch et al. 2018Schöch et al. 2021, Du et al. 2021
EtaDispersionsbasiertDu et al. 2021, based on Gries 2008. Du et al. 2021
Überblick über die in unserem Framework implementierten Distinktivitätmaße