Text and Data Mining - Wissen aus unstrukturierten Daten gewinnen

Text und Data Mining umfasst die Entwicklung und Anwendung von Methoden, um für die Sozialwissenschaften relevantes Wissen aus unstrukturierten Texten und Datenströmen zu extrahieren.

Unsere Forschungsschwerpunkte im Bereich Text and Data Mining

Erkennung von statistischen Regelmäßigkeiten in Daten und Texten und deren Nutzung für unterschiedliche Anwendungsfälle, z.B. für die automatisierte Gruppierung von Texten oder Datenpunkten nach bestimmten Merkmalen (wie demographischen Merkmalen oder politischen Einstellungen)
Verknüpfung von Umfragedaten mit digitalen Verhaltensdaten, um Modelle zur Erklärung des Verhaltens unterschiedlicher Benutzergruppen zu erstellen
Semantische Anreicherung und Analyse von kollaborativ erstellten Dokumenten (z.B. von Wikipedia-Artikeln oder wissenschaftlichen Publikationen) und deren Verknüpfung mit Informationen zum Erstellungsprozess (z.B. demographische Attribute der Verfassenden, Konflikte, Produktivität)
Statistische Modellierung von sequentiellem menschlichen Handeln (z.B. Navigationsentscheidungen im Web oder die individuelle Fortbewegung im städtischen Straßensystem)
Erkennung, Disambiguierung und Verlinkung von sozialwissenschaftlich relevanten Entitäten in wissenschaftlichen Publikationen (wie insbesondere Referenzen auf Forschungsdaten)
Extraktion von Schlüsselinformationen aus Texten (z.B. Keywords) und (Semi-)Automatisierung der Inhaltserschließung

Sen, Indira, Mattia Samory, Claudia Wagner, and Isabelle Augenstein. 2022. "Counterfactually Augmented Data and Unintended Bias: The Case of Sexism and Hate Speech Detection." In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, edited by Marine Carpuat, Marie-Catherine de Marneffe, and Ivan Vladimir Meza Ruiz, 4716–4726. Seattle: Association for Computational Linguistics. doi: https://doi.org/10.18653/v1/2022.naacl-main.347.
Soldner, Felix, Bennett Kleinberg, and Shane Johnson. 2022. Confounds and Overestimations in Fake Review Detection: Experimentally Controlling for Product-Ownership and Data-Origin. https://osf.io/29euc/?view_only=d382b6f03e1444ffa83da3ea04f1a04a.
Batzdorfer, Veronika. 2022. "Conspiracy theories on Twitter: Emerging motifs and temporal dynamics during the COVID-19 pandemic." ODISSEI Conference for Social Science in the Netherlands 2022, Open Data Infrastructure for Social Science and Economic Innovations, Utrecht, 2022-11-03.
Martins Rosa, Jorge, N. Gizem Bacaksizlar Turbic, Alda Magalhães Telles, Clara González Tosat, Cristian Jiménez Ruiz, Kalliopi Moraiti, Özgür Karadeniz, and Valentina Pallacci. 2022. "Exploring User Engagement with Portuguese Political Party Pages on Facebook: Data Sprint as Workflow." Dígitos. Revista de Comunicación Digital 8 127-154. doi: https://doi.org/10.7203/drdcd.v1i8.233.
Soldner, Felix, Fabian Plum, Bennett Kleinberg, and Shane Johnson. 2022. "From the dark to the surface web: Scouting eBay for counterfeits." ODISSEI Conference for Social Science in the Netherlands 2022, Open Data Infrastructure for Social Science and Economic Innovations, Utrecht, 2022-11-03.

Titel	Start	Ende	Förderer
Kompetenzzentrum Datenqualität in den Sozialwissenschaften (KODAQS)	2023-11-15	2026-11-14	Bund
NFDI for Data Science and Artificial Intelligence (NFDI4DS)	2021-10-01	2026-09-30	DFG
NFDI for Business, Economic and Related Data (BERD@NFDI)	2021-10-01	2026-09-30	DFG
Dehumanization Online: Measurement and Consequences (Professorinnenprogramm) (DeHum)	2021-01-01	2026-09-30	SAW (Leibniz)