Text und Data Mining umfasst die Entwicklung und Anwendung von Methoden, um für die Sozialwissenschaften relevantes Wissen aus unstrukturierten Texten und Datenströmen zu extrahieren.
Unsere Forschungsschwerpunkte im Bereich Text and Data Mining
- Erkennung von statistischen Regelmäßigkeiten in Daten und Texten und deren Nutzung für unterschiedliche Anwendungsfälle, z.B. für die automatisierte Gruppierung von Texten oder Datenpunkten nach bestimmten Merkmalen (wie demographischen Merkmalen oder politischen Einstellungen)
- Verknüpfung von Umfragedaten mit digitalen Verhaltensdaten, um Modelle zur Erklärung des Verhaltens unterschiedlicher Benutzergruppen zu erstellen
- Semantische Anreicherung und Analyse von kollaborativ erstellten Dokumenten (z.B. von Wikipedia-Artikeln oder wissenschaftlichen Publikationen) und deren Verknüpfung mit Informationen zum Erstellungsprozess (z.B. demographische Attribute der Verfassenden, Konflikte, Produktivität)
- Statistische Modellierung von sequentiellem menschlichen Handeln (z.B. Navigationsentscheidungen im Web oder die individuelle Fortbewegung im städtischen Straßensystem)
- Erkennung, Disambiguierung und Verlinkung von sozialwissenschaftlich relevanten Entitäten in wissenschaftlichen Publikationen (wie insbesondere Referenzen auf Forschungsdaten)
- Extraktion von Schlüsselinformationen aus Texten (z.B. Keywords) und (Semi-)Automatisierung der Inhaltserschließung
- Dahou, Abdelhalim Hafedh, and Mohamed Amine Cheragui. 2023. "DzNER: A large Algerian named entity recognition dataset." Natural Language Processing Journal 3 (June 2023): 100005. doi: https://doi.org/10.1016/j.nlp.2023.100005.
- Fröhling, Leon, Lukas Birkenmaier, and Jessica Daikeler. 2023. "Garbage in - Garbage out? : Datenqualität im Umgang mit digitalen Verhaltensdaten." Easy social sciences 2023 (68): 21-31. doi: https://doi.org/10.15464/easy.2023.03.
- Dahou, Abdelhalim Hafedh. 2021. "A3C: Arabic Anaphora Annotated Corpus." Proceedings of the 4th International Conference on Natural Language and Speech Processing (ICNLSP 2021), 147–155. Association for Computational Linguistics.
- Dahou, Abdelhalim Hafedh, and Mohamed Amine Cheragui. 2022. "Impact of Normalization and Data Augmentation in NER for Algerian Arabic Dialect." Modelling and Implementation of Complex Systems: Proceedings of the 7th International Symposium, MISC 2022, Mostaganem, Algeria, October 30‐31, 2022. 249-262. Springer International Publishing. doi: https://doi.org/10.1007/978-3-031-18516-8_18.
- Ben Aichaoui, Shaimaa, Nawel Hiri, Abdelhalim Hafedh Dahou, and Mohamed Amine Cheragui. 2022. "Automatic Building of a Large Arabic Spelling Error Corpus." SN Computer Science 2 (4): 108. doi: https://doi.org/10.1007/s42979-022-01499-x.
Titel | Start | Ende | Förderer |
---|---|---|---|
Kompetenzzentrum Datenqualität in den Sozialwissenschaften
(KODAQS)
|
2023-11-15 | 2026-11-14 | Bund |
NFDI for Data Science and Artificial Intelligence
(NFDI4DS)
|
2021-10-01 | 2026-09-30 | DFG |
NFDI for Business, Economic and Related Data
(BERD@NFDI)
|
2021-10-01 | 2026-09-30 | DFG |
Dehumanization Online: Measurement and Consequences (Professorinnenprogramm)
(DeHum)
|
2021-01-01 | 2026-09-30 | SAW (Leibniz) |
Erfahren Sie mehr über unsere Beratungsangebote und Serviceleistungen:
-
Digitale Verhaltensdaten: Datensätze
Digitale Verhaltensdaten – kuratierte Datensätze.