Distinktivitätsmaße – Zeta and Company

Eines der Hauptziele unseres Projekts ist es, ein tieferes Verständnis der statistischen Maßen zu erreichen, die für Untersuchung und Analyse großer Mengen von Textdaten in einer kontrastiven Perspektive entwickelt oder adaptiert wurden. Sie werden normalerweise als „Keyness-Maße“ bezeichnet, da sie auf einer lexikalischen Ebene arbeiten und zum Extrahieren von „Schlüssel“-Begriffen oder -Phrasen verwendet werden. Wir bevorzugen jedoch den Begriff „Distinktivitätsmaße“, da er besser betont, dass es bei dieser Art der Analyse um die Extraktion charakteristischer Wörter auf der Grundlage eines Vergleichs geht.

Wir möchten unser Wissen mit allen teilen, die sich für vergleichende Analysen interessieren. Auf dieser Seite finden Sie einen Überblick über die in unserem Framework implementierten Distinktivitätsmaße, außerdem die Informationen über ihre wichtigsten statistischen Merkmale und nützliche Referenzen.

Name	Type of measure	References	Evaluated in
TF-IDF	Dispersionsbasiert	Luhn 1957, Spärck 1972	Salton & Buckley 1988
Ratio of relative frequencies	Häufigkeitsbasiert	Damerau 1993	Gries 2010
Chi-squared test	Häufigkeitsbasiert	Dunning 1993	Lijffijt et al. 2014
Log-likelihood ratio test	Häufigkeitsbasiert	Dunning 1993	Egbert & Biber, 2019, Paquot & Bestgen 2009, Lijffijt et al. 2014
Welch’s t-test	Distributionsbasiert	Welch 1947	Paquot & Bestgen 2009 (t-test), Lijffijt et al. 2014
Wilcoxon rank sum test	Dispersionsbasiert (bis zu gewissem Grad)	Wilcoxon 1945, Mann & Whitney 1947	Paquot & Bestgen 2009, Lijffijt et al. 2014
Burrows’ Zeta	Dispersionsbasiert	Burrows 2007,Craig & Kinney 2009	Schöch et al. 2018
logarithmic Zeta	Dispersionsbasiert	Schöch et al. 2018	Schöch et al. 2021, Du et al. 2021
Eta	Dispersionsbasiert	Du et al. 2021, based on Gries 2008.	Du et al. 2021

Überblick über die in unserem Framework implementierten Distinktivitätmaße