Making the Incomparable Comparable – Standardized Report Form for ML-Based Abusive Language Studies

In recent years the amount of insults, hate, and other inappropriate forms of utterances rapidly increased in online forums and discussion sections – with one notable spike in the refugee crisis in 2015/16 (Krämer 2016; Lobo 2015; Munziger et al. 2016; Plöchinger 2016). To keep these discussion spaces up without burdening the operators with an excess of administrative efforts (to moderate) and legal risks (to get sued for not deleting illegal posts) researchers and practitioners strive to create ML/NLP-based aids.

Some of the first steps in this direction have been taken in 2009 by (Yin et al. 2009) – still with comparatively “simple” features (e.g., TF-IDF weighted n-grams) and classifiers (SVM). Over the years more sophisticated features were added (e.g., word embeddings based on word2vec or fastText) and more complex classification algorithms  introduced (CNN, RNN, LSTM, GDBT, …) (Nobata et al. 2016). Even more complex approaches like AutoML (Jorgensen et al. 2020) and multi-label classification (Niemann 2019) have found their way into this domain. While the diversity at this point is desirable in order to find optimal procedures to combat abuse online – the same diversity can also be found in the reporting of results: Many approaches use classical metrics like precision (Badjatiya et al. 2017; Mehdad and Tetreault 2016), recall (Burnap and Williams 2015; Davidson et al. 2017), the F1-score (Nobata et al. 2016; Park and Fung 2017) or the accuracy (Dinakar et al. 2011; Sood et al. 2012). Even less common metrics such as Cohen’s Kappa (Saleem et al. 2016) or Spearman correlations (Wulczyn et al. 2017) are sometimes reported. To add another level of complexity, many of the stated metrics can be computed with different weightings to account for, i.e., class-imbalances (Luaces et al. 2012; Niemann 2019).

However, the above listed information is not always clearly stated in each published paper. Often only partial information is given, or a subset of all possible metrics are reported. This makes an overarching comparison of approaches and performances challenging and inhibits progress in the domain. Hence, the goal of this thesis would be to develop a concept that can help researchers and practitioners to report their experiments in a standardized format – so that others can assess the performance of individual contributions to either inform their research or to select a suitable solution for their enterprise.

Questions that could provide additional guidance for this thesis:

  • Which information would have to be reported to make studies comparable?
  • How can this information be reported best?
  • Which forms of assistance are required for researchers to adequately fill in such a standardized reporting format?
  • How can a standardized report format account for explorative studies or the introduction of novel approaches?

In den letzten Jahren hat die Zahl der Beleidigungen, Hass und anderer unangemessener Äußerungen in Online-Foren und Kommentarspalten rapide zugenommen - mit einer bemerkenswerten Spitze in der Flüchtlingskrise 2015/16 (Krämer 2016; Lobo 2015; Munziger et al. 2016; Plöchinger 2016). Um diese Räume öffentlichen Diskurses aufrechtzuerhalten, ohne die Betreiber mit einem Übermaß an administrativem Aufwand (durch Moderation) und rechtlichen Risiken (Möglichkeit der Klage, falls illegale Beiträge nicht rechtzeitig gelöscht werden) zu belasten, bemühen sich Forscher und Praktiker um die Schaffung von ML/NLP-basierten Hilfsmitteln.

Einige der ersten Schritte in diese Richtung wurden 2009 von (Yin et al. 2009) - noch mit vergleichsweise "einfachen" Features (z.B. TF-IDF-gewichtete n-Gramme) und Klassifikatoren (SVM) - unternommen. Im Laufe der Jahre kamen anspruchsvollere Features hinzu (z.B. Word Embeddings auf der Basis von word2vec oder fastText) und komplexere Klassifikationsalgorithmen wurden eingeführt (CNN, RNN, LSTM, GDBT, ...) (Nobata et al. 2016). Auch komplexere Ansätze wie AutoML (Jorgensen et al. 2020) und Multi-Label-Klassifikation (Niemann 2019) haben ihren Weg in diese Domäne gefunden. Während die Vielfalt an dieser Stelle wünschenswert ist, um optimale Verfahren zur Missbrauchsbekämpfung im Online-Bereich zu finden, findet sich die gleiche Vielfalt auch in der Berichterstattung über die Ergebnisse: Viele Ansätze verwenden klassische Metriken wie Precision (Badjatiya et al. 2017; Mehdad und Tetreault 2016), Recall (Burnap und Williams 2015; Davidson et al. 2017), den F1-Score (Nobata et al. 2016; Park and Fung 2017) oder die Accuracy (Dinakar et al. 2011; Sood et al. 2012). Auch weniger gebräuchliche Metriken wie Cohen's Kappa (Saleem et al. 2016) oder Spearman-Korrelationen (Wulczyn et al. 2017) werden manchmal genutzt. Um eine weitere Ebene der Komplexität hinzuzufügen, können viele der angegebenen Metriken mit unterschiedlichen Gewichtungen berechnet werden, um z.B. Klassenungleichgewichte zu berücksichtigen (Luaces et al. 2012; Niemann 2019).

Die oben aufgeführten Informationen sind jedoch nicht immer in jeder veröffentlichten Arbeit klar angegeben. Oft werden nur Teile der relevanten Informationen bereitgestellt oder es wird nur eine Teilmenge aller möglichen Metriken berichtet. Dies macht einen übergreifenden Vergleich von Ansätzen und Leistungen zu einer Herausforderung und hemmt Fortschritte in diesem Bereich. Ziel dieser Arbeit wäre es daher, ein Konzept zu entwickeln, das Forschern und Praktikern helfen kann, ihre Experimente in einem standardisierten Format zu berichten - so dass andere die Leistung einzelner Beiträge beurteilen können, um entweder ihre Forschung daran zu messen oder eine geeignete Lösung für ihr Unternehmen auszuwählen.

Fragen, die eine zusätzliche Orientierung für diese These bieten könnten:

  • Welche Informationen müssten berichtet werden, um Studien vergleichbar zu machen?
  • Wie können diese Informationen am besten berichtet werden?
  • Welche Formen der Unterstützung sind erforderlich, damit Forschende ein solches standardisiertes Berichtsformat angemessen ausfüllen können?
  • Wie kann ein standardisiertes Berichtsformat explorative Studien oder die Einführung neuer Ansätze berücksichtigen?

 

References / Quellen

  • Badjatiya, P., Gupta, S., Gupta, M., and Varma, V. 2017. “Deep Learning for Hate Speech Detection in Tweets,” in Proceedings of the 26th International Conference on World Wide Web Companion, WWW ’17 Companion, Perth, Australia: International World Wide Web Conferences Steering Committee, pp. 759–760. (https://doi.org/10.1145/3041021.3054223).

  • Burnap, P., and Williams, M. L. 2015. “Cyber Hate Speech on Twitter: An Application of Machine Classification and Statistical Modeling for Policy and Decision Making,” Policy & Internet (7:2), pp. 223–242. (https://doi.org/10.1002/poi3.85).

  • Davidson, T., Warmsley, D., Macy, M., and Weber, I. 2017. “Automated Hate Speech Detection and the Problem of Offensive Language,” in Proceedings of the Eleventh International AAAI Conference on Web and Social Media, ICWSM 2017, Québec, Canada: AAAI Press, pp. 512--515.

  • Dinakar, K., Reichart, R., and Lieberman, H. 2011. “Modeling the Detection of Textual Cyberbullying,” in The Social Mobile Web, Papers from the 2011 ICWSM Workshop, ICWSM 2011, Barcelona, Spain: Association for the Advancement of Artificial Intelligence, pp. 11–17. (http://www.cl.cam.ac.uk/~rr439/papers/3841-16937-1-PB.pdf).

  • Jorgensen, M., Choi, M., Niemann, M., Brunk, J., and Becker, J. 2020. “Multi-Class Detection of Abusive Language Using Automated Machine Learning,” in Proceedings of the 15th International Conference on Wirtschaftsinformatik, WI 2020, Potsdam, Germany, pp. 1763–1775. (https://doi.org/10.30844/wi_2020_r7-jorgensen).

  • Krämer, A. 2016. “Razzia Gegen Hasskommentare Im Netz: ‘Symbolik, Die Man Braucht,’” Tagesschau.De. (https://www.tagesschau.de/inland/hasskommentare-polizei-103.html, accessed September 29, 2017).

  • Lobo, S. 2015. “Netzhass Und Gewalt: Was Man Dagegen Tun Kann,” SPIEGEL ONLINE. (http://www.spiegel.de/netzwelt/netzpolitik/netzhass-und-gewalt-was-man-dagegen-tun-kann-lobo-kolumne-a-1048799.html, accessed November 29, 2017).

  • Luaces, O., Díez, J., Barranquero, J., del Coz, J. J., and Bahamonde, A. 2012. “Binary Relevance Efficacy for Multilabel Classification,” Progress in Artificial Intelligence (1:4), pp. 303–313. (https://doi.org/10.1007/s13748-012-0030-x).

  • Mehdad, Y., and Tetreault, J. 2016. “Do Characters Abuse More Than Words?,” in Proceedings of the 17th Annual Meeting of the Special Interest Group on Discourse and Dialogue, SIGDIAL 2016, R. Fernandes, W. Minker, G. Carenini, R. Higashinaka, R. Artstein, and A. Gainer (eds.), Los Angeles, CA, USA: Association for Computational Linguistics, pp. 299–303. (https://doi.org/10.18653/v1/W16-3638).

  • Munziger, H., Rietzschel, A., and Bendt, H. 2016. “Pegida Auf Facebook: Hetze Im Sekundentakt,” Süddeutsche Zeitung (Süddeutsche.De). (http://www.sueddeutsche.de/politik/ein-jahr-pegida-pegida-auf-facebook-hetze-im-sekundentakt-1.2806271, accessed November 30, 2017).

  • Niemann, M. 2019. “Abusiveness Is Non-Binary: Five Shades of Gray in German Online News-Comments,” in Proceedings of the 21st IEEE Conference on Business Informatics, CBI 2019, Moscow, Russia: IEEE, pp. 11–20. (https://doi.org/10.1109/CBI.2019.00009)

  • Nobata, C., Tetreault, J., Thomas, A., Mehdad, Y., and Chang, Y. 2016. “Abusive Language Detection in Online User Content,” in Proceedings of the 25th International Conference on World Wide Web, WWW ’16, Montreal, Canada: ACM Press, pp. 145–153. (https://doi.org/10.1145/2872427.2883062).

  • Park, J. H., and Fung, P. 2017. “One-Step and Two-Step Classification for Abusive Language Detection on Twitter,” in Proceedings of the First Workshop on Abusive Language Online, Stroudsburg, PA, USA: Association for Computational Linguistics, pp. 41–45. (https://doi.org/10.18653/v1/W17-3006).
  • Plöchinger, S. 2016. “Über Den Hass,” Ploechinger.Tumblr.Com. (http://ploechinger.tumblr.com/post/140370770262/über-den-hass, accessed September 29, 2017).
  • Saleem, H. M., Dillon, K. P., Benesch, S., and Ruths, D. 2016. “A Web of Hate: Tackling Hateful Speech in Online Social Spaces,” in Proceedings of the First Workshop on Text Analytics for Cybersecurity and Online Safety, TA-COS 2016, Portorož, Slovenia: European Language Resources Association, pp. 1–9. (http://www.ta-cos.org/sites/ta-cos.org/files/tacos2016_SaleemDillionBeneschRuths.pdf).
  • Sood, S. O., Churchill, E. F., and Antin, J. 2012. “Automatic Identification of Personal Insults on Social News Sites,” Journal of the American Society for Information Science and Technology (63:2), pp. 270–285. (https://doi.org/10.1002/asi.21690).
  • Wulczyn, E., Thain, N., and Dixon, L. 2017. “Ex Machina,” in Proceedings of the 26th International Conference on World Wide Web, WWW ’17, Perth, Australia: ACM Press, pp. 1391–1399. (https://doi.org/10.1145/3038912.3052591).
  • Yin, D., Xue, Z., Hong, L., Davison, B. D., Kontostathis, A., and Edwards, L. 2009. “Detection of Harassment on Web 2.0,” in Proceedings of the Content Analysis in the WEB, CAW2.0, Madrid, Spain, pp. 1–7.