Eines der Hauptziele unseres Projekts ist es, ein tieferes Verständnis der statistischen Maßen zu erreichen, die für Untersuchung und Analyse großer Mengen von Textdaten in einer kontrastiven Perspektive entwickelt oder adaptiert wurden. Sie werden normalerweise als „Keyness-Maße“ bezeichnet, da sie auf einer lexikalischen Ebene arbeiten und zum Extrahieren von „Schlüssel“-Begriffen oder -Phrasen verwendet werden. Wir bevorzugen jedoch den Begriff „Distinktivitätsmaße“, da er besser betont, dass es bei dieser Art der Analyse um die Extraktion charakteristischer Wörter auf der Grundlage eines Vergleichs geht.
Wir möchten unser Wissen mit allen teilen, die sich für vergleichende Analysen interessieren. Auf dieser Seite finden Sie einen Überblick über die in unserem Framework implementierten Distinktivitätsmaße, außerdem die Informationen über ihre wichtigsten statistischen Merkmale und nützliche Referenzen.
Name | Type of measure | References | Evaluated in |
TF-IDF | Dispersionsbasiert | Luhn 1957, Spärck 1972 | Salton & Buckley 1988 |
Ratio of relative frequencies | Häufigkeitsbasiert | Damerau 1993 | Gries 2010 |
Chi-squared test | Häufigkeitsbasiert | Dunning 1993 | Lijffijt et al. 2014 |
Log-likelihood ratio test | Häufigkeitsbasiert | Dunning 1993 | Egbert & Biber, 2019, Paquot & Bestgen 2009, Lijffijt et al. 2014 |
Welch’s t-test | Distributionsbasiert | Welch 1947 | Paquot & Bestgen 2009 (t-test), Lijffijt et al. 2014 |
Wilcoxon rank sum test | Dispersionsbasiert (bis zu gewissem Grad) | Wilcoxon 1945, Mann & Whitney 1947 | Paquot & Bestgen 2009, Lijffijt et al. 2014 |
Burrows’ Zeta | Dispersionsbasiert | Burrows 2007,Craig & Kinney 2009 | Schöch et al. 2018 |
logarithmic Zeta | Dispersionsbasiert | Schöch et al. 2018 | Schöch et al. 2021, Du et al. 2021 |
Eta | Dispersionsbasiert | Du et al. 2021, based on Gries 2008. | Du et al. 2021 |