Lehre


Wir sind immer auf der Suche nach motivierten Studierenden, die mit uns arbeiten möchten.
Wenn Ihnen unsere Kurse gefallen und Sie tiefer einsteigen möchten, wenden Sie sich an claplab@uni-goettingen.de.
Werfen Sie einen Blick auf unsere Abschlussarbeitsthemen oder schlagen Sie Ihre eigene Idee vor, die auf einer aktuellen Arbeit oder einer Shared Task basiert.



Unsere Kurse



Interpretability & Bias in Machine Learning: In dieser Vorlesung für Fortgeschrittene lernen wir, die Stärken und Schwächen von Machine Learning Models besser zu verstehen. ML-Modelle beeinflussen gesellschaftliche Prozesse, wenn sie zur Vorhersage hochkomplexer Situationen für politische Entscheidungen, medizinische Beratung, wissenschaftliche Entdeckungen oder Bildungsfinanzierung eingesetzt werden. In diesen hochkomplexen Szenarien müssen wir die Bedingungen und Werte, die im Modell unter- oder falsch repräsentiert sind, transparent machen, da sie für die Erkennung von Mustern und die Vorhersage von Trends unsichtbar bleiben. In diesem Kurs werden die Studierenden mit einer Reihe von Interpretationsmethoden vertraut gemacht, die einen teilweisen Einblick in die im Modell kodierten Informationen geben können. Sie lernen, auf verschiedene Arten von Bias zu achten, die bei der Anwendung und Entwicklung von ML-Modellen auftreten, und üben Strategien zur Entdeckung, Quantifizierung und Korrektur von unerwünschten Bias.

Advanced Natural Language Processing: In diesem Seminar werden die jüngsten Fortschritte auf dem Forschungsgebiet untersucht und diskutiert. Die Studierenden müssen über grundlegende Kenntnisse in NLP und/oder maschinellem Lernen verfügen, um aktuelle Publikationen lesen und verstehen zu können. Jedes Semester werden wir uns auf ein methodisches Subthema konzentrieren.
Sommer 2025: Sprachmodelle auf dem neuesten Stand der Forschung werden auf Terabytes von Daten trainiert, während Menschen Sprache nur aus einem kleinen Bruchteil dieser Datenmenge lernen. Wir werden Modellierungsansätze untersuchen, die aus weniger Daten effizienter lernen. Die meisten Methoden sind von kognitiven Ansätzen inspiriert und werden im Rahmen des BabyLM-Wettbewerbs evaluiert.

Language as Data: This course introduces students to the characteristics of language data and the associated challenges for representation learning. Natural language is a powerful and creative means of communication: it follows rules only to make exceptions, and it evolves over time and from domain to domain. Language signals are highly ambiguous and the form—meaning mapping can only be interpreted in context. In this course, students acquire the conceptual knowledge to analyze structure in language data and understand the methodological assumptions underlying representation learning in large language models.

Language Modeling Research and Evaluation (LaMoRE): New language models are released almost every month these days. In the technical reports, the quality of these models is evaluated on hundreds of datasets and languages. But what do these averaged numbers mean? And what can we infer about the strengths and weaknesses of the model? This course mixes theoretical discussions on evaluation concepts, practical sessions focused on data and model analysis, and invited talks by guest researchers sharing their perspectives on what language models can and cannot (yet) do and how to measure it. For this course, you do not need to know the technical details of language modeling architectures but need to bring a general interest in language modeling research and the willingness to do finegrained data analysis.

For the future, we also plan seminars on data science with cognitive signals and educational language technology.