Was ist Text & Data Mining (TDM)?

Text- und Data Mining (TDM) ist ein Sammelbegriff für automatische Analyseverfahren, mit deren Hilfe große Mengen von Informationen durchsucht, in Beziehung zueinander gesetzt und so Trends und neue Zusammenhänge aufgezeigt werden können. In der Schweiz ist seit dem Inkrafttreten des revidierten Urheberrechtsgesetzes 2020 TDM für wissenschaftliche Forschung gesetzlich erlaubt. Voraussetzung ist ein rechtmässiger Zugang zu den untersuchten Texten. Das bedeutet, dass TDM bei Texten angewendet werden darf, die entweder durch die Bibliothek lizenziert wurden, oder Open Access publiziert wurden.

Verlage und Datenbanken, die TDM zulassen

Viele Verlage verfügen über allgemeine Regelungen zum Einsatz von Text- und Datamining bei ihren Publikationen (Liste nicht abschliessend).  

TDM in LORY und LARA

Text- und Data Mining ist auch in LORY (dem institutionellen Repositorium der Luzerner Hochschulen) und LARA (dem Repositorium der ZHB Luzern) möglich. LORY basiert auf der Plattform Zenodo und die nötigen Informationen zu den APIs sind unter folgendem Link zu finden:

Frei zugängliche Datenbanken und TDM

Daneben gibt es auch frei zugängliche Datenbanken, welche den Einsatz von TDM erlauben (Liste nicht abschliessend):

  • Arxiv
    Freier Zugang auf Preprints aus den Bereichen Physik, Mathematik, Informatik, Statistik, Finanzmathematik und Biologie
  • BioMed Central
    Über 300 Open-Access-Zeitschriften von BioMed Central, Chemistry Central und SpringerOpen aus den Bereichen Biologie und Medizin
  • Europeana
    Digitale Bibliothek mit Digitalisaten zum wissenschaftlichen und kulturellen Erbe aus über 2000 europäischen Institutionen
  • HathiTrust Digital Library
    Digitalisate von über 120 akademischen Institutionen weltweit
  • Internet Archive
    Zugriff auf Millionen von frei zugänglichen Büchern und Texten
  • Public Library of Science (PLOS)
    Zugriff auf die Inhalte der Zeitschriften der Public Library of Science, einem wissenschaftlichen Open-Access-Verlag
  • PubMed Central: Databases and Text Mining Tools
    Diverse frei zugängliche Mining Tools, mit denen PubMed Central, ein Archiv mit frei zugänglichen Inhalten aus den Fachbereichen Biologie und Biomedizin, durchsucht werden kann