Der Wilcoxon-Rang-Sum Test, auch bekannt als Mann-Whitney-U-Test, macht keine Annahmen über die statistische Verteilung von Wörtern in einem Korpus (Wilcoxon 1945, Mann & Whitney 1947). Es basiert auf dem Vergleich der Summe von Rangfolgen von Texten in zwei Textsammlungen. Die Rangordnungen von Texten werden nach der Häufigkeit des Zielwortes definiert, ohne zu berücksichtigen, zu welchem ​​der beiden Korpora dieser Text gehört (vgl. Lijffijt 2014). In unserer Implementierung summiert dieses Maß die Häufigkeiten des Zielwortes pro Segment des Dokuments; Aus diesem Grund betrachten wir es eher als ein dispersionsbasiertes und nicht als ein frequenzbasiertes Maß.

Bibliografie

Lijffijt, Jefrey, Terttu Nevalainen, Tanja Säily, Panagiotis Papapetrou, Kai Puolamäki, and Heikki Mannila, ‘Significance Testing of Word Frequencies in Corpora’, Digital Scholarship in the Humanities, 31.2 (2014), pp. 374–97, http://doi.org/10.1093/llc/fqu064
Paquot, Magali, and Yves Bestgen, ‘Distinctive Words in Academic Writing: A Comparison of Three Statistical Tests for Keyword Extraction’, in Corpora: Pragmatics and Discourse, ed. by Andreas H. Jucker, Daniel Schreier, and Marianne Hundt (Brill | Rodopi, 2009), doi:10.1163/9789042029101_014
Woolson, R. F., ‘Wilcoxon Signed-Rank Test’, in Wiley Encyclopedia of Clinical Trials, ed. by Ralph B. D’Agostino, Lisa Sullivan, and Joseph Massaro (John Wiley & Sons, Inc., 2008), p. eoct979, doi:10.1002/9780471462422.eoct979
Zimmerman, Donald W., and Bruno D. Zumbo, ‘Relative Power of the Wilcoxon Test, the Friedman Test, and Repeated-Measures ANOVA on Ranks’, The Journal of Experimental Education, 62.1 (1993), pp. 75–86, http://doi.org/10.1080/00220973.1993.9943832
Mann, H. B., and D. R. Whitney, ‘On a Test of Whether One of Two Random Variables Is Stochastically Larger than the Other’, The Annals of Mathematical Statistics, 18.1 (1947), pp. 50–60, http://doi.org/10.1214/aoms/1177730491
Wilcoxon, Frank, ‘Individual Comparisons by Ranking Methods’, Biometrics Bulletin, 1.6 (1945), p. 80, http://doi.org/10.2307/3001968