Data Science Teilzeit -Abschlussprojekte, Gruppe Nr. 10

von Ekaterina Butyugina

Wir freuen uns sehr, die Erfolge unserer neuesten Absolventinnen und Absolventen des Part-Time-DS-Batches Nr. 10 zu feiern, die ihre Data-Science-Reise mit drei beeindruckenden, praxisnahen Projekten erfolgreich abgeschlossen haben.

Diese Runde der Abschlusspräsentationen zeigte wie Data Science und KI branchenübergreifend einen spürbaren Mehrwert schaffen können – von der Transformation von Business-Development-Workflows bis hin zur Neugestaltung moderner Marktfindungsprozesse.

Personalisiertes KI-Coaching-System: Vertrauenswürdige KI durch fundiertes Wissen aufbauen

Studierende: Rinor Recica

Generische KI-Assistenten erzeugen häufig plausibel klingende Antworten, die jedoch nicht zwangsläufig in der Realität verankert sind. Für Coaching- und Bildungsanwendungen stellt dies einen kritischen Mangel dar. Nutzer benötigen ein KI-System, dem sie vertrauen können – eines, das auf verifiziertem Wissen basiert, ihren individuellen Werdegang berücksichtigt und personalisierte Unterstützung auf Grundlage tatsächlicher Fortschritte statt generischer Ratschläge bietet. Amula-AI, eine KI Integrationsagentur, hat sich genau dieses Ziel gesetzt.

Ziel des Projekts war es zu zeigen, dass sich ein KI-System entwickeln lässt, das auf Basis von spezifischem, eigenem Wissen antwortet, Halluzinationen durch dokumentenbasierte Informationsabfrage verhindert, vergangene Interaktionen speichert, um Antworten zu personalisieren, das Nutzerverhalten auswertet und den Fortschritt über die Zeit hinweg nachverfolgt. Dieses Projekt ist bewusst als Proof-of-Concept und Minimal-Viable-Product angelegt und demonstriert die Kernarchitektur, die für produktionsreife, personalisierte KI-Systeme erforderlich ist.

Die Lösung vereint mehrere zentrale Komponenten in einer modularen Architektur. Zunächst wandelt die Wissensaufnahme (Knowledge Ingestion) Dokumente in semantische Einbettungen um, die in einer Vektordatenbank gespeichert werden. Dadurch wird eine intelligente, bedeutungsbasierte Informationsabfrage ermöglicht, die über reine Schlüsselwortsuche hinausgeht. Zweitens verankert Retrieval-Augmented Generation (RAG) jede Antwort in verifiziertem Inhalt, indem vor der Generierung von Antworten die Wissensbasis durchsucht wird. Drittens verwaltet das System sowohl eine sitzungsbasierte Konversationshistorie als auch ein dauerhaftes Langzeitgedächtnis für Nutzer, wodurch Kontinuität über mehrere Interaktionen hinweg entsteht. Schließlich übersetzt die Verhaltensanalyse qualitative Dialoge in strukturierte Bewertungen und verfolgt so die Nutzerentwicklung über die Zeit.

Das System orchestriert Dokumentenaufnahme, Abruf, Generierung, Speicherung von Erinnerungen und Personalisierung in einer nahtlosen Pipeline. Wenn ein Nutzer eine Frage stellt, führt das System eine semantische Suche durch, um relevante Informationen zu finden, verknüpft diese mit dem Konversationskontext und erzeugt Antworten, die sowohl präzise als auch personalisiert sind.

Der Proof-of-Concept demonstriert erfolgreich eine fundierte KI ohne Halluzinationen, semantische Suche über eigenes, benutzerdefiniertes Wissen, kontextbewusste Multi-Turn-Konversationen, ein dauerhaftes Langzeitgedächtnis für Nutzer sowie die Fähigkeit, qualitative Dialoge in strukturierte Verhaltensbewertungen zu überführen. Die modulare Architektur stellt sicher, dass jede Komponente wartbar und erweiterbar bleibt. Die nahtlose Orchestrierung dieser Komponenten zeigt das Potenzial, wirklich personalisierte und fundierte KI-Assistenten zu entwickeln, die als digitale Zwillinge fungieren und den Ton sowie die angemessene Wissensbreite eines vertrauenswürdigen Mentors oder Experten widerspiegeln.

KI-Forschungsassistent: Navigation durch wissenschaftliche Literatur mit intelligenter Themenmodellierung

Studierende: Helga Rabl, Heba Abu Emran, Ambrosio Acal, Victor Generaux

Jeden Tag fügt das arXiv-Repository Dutzende neuer wissenschaftlicher Arbeiten zu einem bereits überwältigenden Korpus hinzu. Für Forschende, die auf dem aktuellen Stand bleiben wollen, stellt dies eine erhebliche Herausforderung dar: Wie lassen sich relevante Arbeiten effizient entdecken und Forschungstrends verfolgen, ohne Stunden mit dem manuellen Durchsehen von Abstracts zu verbringen?

Dieses Capstone-Projekt geht dieses Problem an, indem es eine automatisierte Pipeline entwickelt, die arXiv für ausgewählte Kategorien überwacht und Forschenden ein intelligentes, themenbewusstes Recherche-Werkzeug zur Verfügung stellt.

Der Erfolg des Projekts hing maßgeblich von den richtigen technischen Entscheidungen ab. Fünf Topic-Modeling-Algorithmen wurden evaluiert: BERTopic (kontextbasiert), LDA (zählbasiert), Word2Vec (assoziationsbasiert), Top2Vec (dichtebasiert) und FasTopic (auf Effizienz fokussiert). Ebenso entscheidend war die Auswahl des passenden Embedding-Modells. Domänenspezifische Transformer übertreffen Allzweckmodelle bei wissenschaftlichen Texten deutlich. Das Team verglich scispaCy (biomedizinisch), PhysBERT (physikspezifisch), SciBERT (allgemeine Wissenschaften), BioBERT (biomedizinisch) und PubMedBERT (medizinische Fachsprache).

Für einen beispielhaften Anwendungsfall, der von einem der Projekt-Stakeholder eingebracht wurde, lag der Fokus auf den Fachgebieten Physik und Quantenmechanik. Alle fünf Algorithmen wurden mit PhysBERT-Embeddings auf einem Trainingsdatensatz von 5.000 Artikeln trainiert, wobei eine menschliche Evaluation die Ergebnisse bestätigte. Die Schlussfolgerung war eindeutig: BERTopic in Kombination mit PhysBERT liefert die ausgewogenste Gesamtleistung in Bezug auf Interpretierbarkeit, semantische Kohärenz und Themenqualität.

Eine zentrale Designentscheidung betraf die Frage, ob vollständige Publikationen oder lediglich Abstracts verarbeitet werden sollten. Das Team stellte fest, dass Abstracts häufig ausreichend sind, da sie sich auf die zentralen Ergebnisse konzentrieren, ohne durch Referenzen, Gleichungen und ergänzende Abschnitte verfälscht zu werden. Kürzere Texte bedeuten zudem schnellere Berechnungen und geringere Speicheranforderungen, was eine effiziente Skalierung des Systems ermöglicht. Diese pragmatische Entscheidung erlaubte es 100.000 Artikel aus der kondensierten Materie- und Quantenphysik zu verarbeiten und dabei eine hohe Themenqualität beizubehalten.

Die vollständige Pipeline orchestriert mehrere Komponenten: das Abrufen neuer Artikel nach Datum aus arXiv, die Nutzung von PhysBERT zur Umwandlung von Abstracts in semantische Repräsentationen, den Einsatz von UMAP zur Dimensionsreduktion, HDBSCAN zur Clusterbildung semantisch ähnlicher Publikationen sowie c-TF-IDF zur Identifikation charakteristischer Begriffe für jedes Thema. Das System verwaltet ein Themenmodell, das auf 100.000 Abstracts trainiert wurde und die Klassifizierung neuer Artikel ermöglicht, sobald diese erscheinen.

Das Streamlit-Dashboard bietet eine Reihe leistungsstarker Funktionen. Von LLMs generierte Zusammenfassungen mithilfe von GPT-3.5-turbo oder TopicGPT erzeugen für jedes Themencluster eine gut verständliche Ein-Satz-Beschreibung. Die zeitliche Nachverfolgung erlaubt es Forschenden, bestimmte Themen über längere Zeiträume zu beobachten und neu entstehende „Hot Topics“ zu identifizieren. Ein Expertennetzwerk verknüpft Themen mit Autorendaten, um führende Forschende in spezifischen Bereichen sichtbar zu machen. Eine Stichwortsuche zeigt, wie Begriffe über verschiedene Themen verteilt sind, und ermöglicht das gezielte Vertiefen in relevante Publikationen. Neue Artikel werden thematisch sortiert mit benutzerdefinierten Labels sowie direktem Zugriff auf die PDFs angezeigt.

Dieser KI-Forschungsassistent veranschaulicht, wie moderne NLP-Techniken die Literaturrecherche grundlegend verändern können. Zukünftige Erweiterungen umfassen die Integration von BioBERT und PubMedBERT für interdisziplinäre Forschung, erweiterte zeitliche Analysen zur Vorhersage aufkommender Forschungsrichtungen, den Ausbau der Expertennetzwerkanalyse durch Zitationsgraphen sowie multimodale Unterstützung zur Verarbeitung von Abbildungen und Gleichungen. Mit dem kontinuierlichen Wachstum von arXiv werden derartige intelligente Entdeckungstools für Forschende, die in sich schnell entwickelnden wissenschaftlichen Domänen den Überblick behalten müssen, zunehmend unverzichtbar.

Regulierungsanfragen-Chatbot: Beschleunigte Compliance durch KI-gestützte Dokumentenintelligenz

Studierende: Alexander Arm

Nach der Finanzkrise von 2008 verschärfte sich die Aufsicht über den Bankensektor weltweit erheblich. Für multinationale Banken, die in mehreren Rechtsordnungen tätig sind, entsteht dadurch eine große Herausforderung: effizient und präzise auf routinemäßige Regulierungsanfragen zu reagieren und gleichzeitig Konsistenz und Compliance sicherzustellen.

Das Problem ist vielschichtig. Der Bankensektor sieht sich seit 2008 mit einer erhöhten regulatorischen Strenge konfrontiert, wobei multinationale Banken mit Behörden in zahlreichen Rechtsordnungen interagieren müssen. Die Bearbeitung von Regulierungsanfragen erfordert oft wiederholte, manuelle Arbeit, die Tage oder Wochen in Anspruch nehmen kann, was die Reaktionszeiten verlangsamt. Informationen sind häufig über einzelne Teams fragmentiert, was zu Verzögerungen, Ineffizienzen und potenziellen Inkonsistenzen führt. Ohne systematische Analyse haben Banken Schwierigkeiten, proaktiv auf neu auftretende regulatorische Anforderungen zu reagieren.

Die Lösung verfolgt einen zweigleisigen Ansatz. Zunächst konsolidiert ein zentrales Regulierungsarchiv alle historischen Prüfungsdaten in einer einheitlichen Datenbank, einschließlich Agenda-Fragen, Feststellungen, Empfehlungen und Antworten. Diese Informationen werden sowohl in einer SQL-Datenbank für strukturierte Abfragen als auch in einer Vektordatenbank mit Embeddings für semantische Suchen gespeichert. Zweitens ruft ein KI-gestützter Chatbot Informationen zu vorherigen Regulierungsinteraktionen ab, um Teams auf bevorstehende Prüfungen vorzubereiten, und automatisiert die Antwortgenerierung unter Verwendung vorab genehmigter Antworten, um Geschwindigkeit und Compliance sicherzustellen.

Der Proof-of-Concept implementiert einen ausgeklügelten mehrstufigen Entscheidungsprozess. Wenn ein Nutzer eine Frage stellt, bewertet zunächst ein LLM die Absicht und entscheidet, ob es für das semantische Verständnis Retrieval über RAG nutzen, die SQL-Datenbank für Metadatenabfragen befragen oder auf den Gesprächskontext für Folgefragen zurückgreifen soll. Die Frage wird anschließend basierend auf dem gewählten Pfad umformuliert, um die Effektivität der Suche zu verbessern.

Für die Datenbankabfrage bestimmt ein LLM, welche Metadatenfelder gefiltert werden müssen und erstellt die entsprechenden SQL-Abfragen. Für den Zugriff auf die Vektordatenbank identifiziert eine semantische Ähnlichkeitssuche in Kombination mit Metadatenfiltern relevante Dokumentenabschnitte, wobei LLM-generierte Filter, Cosinus-Similarity Thresholds und optimiertes Chunking verwendet werden. Das System nutzt den Azure-basierten Risklab Vega Vektorstore, der speziell für Finanzanwendungen optimiert ist.

Das LLM synthetisiert eine Antwort auf Basis des abgerufenen Kontexts und der Konversationshistorie. Entscheidend ist ein Bewertungs-LLM, das als Schutzmechanismus gegen Halluzinationen dient und überprüft, ob die Antwort die gestellte Frage tatsächlich adressiert. Entspricht die Antwort nicht den Qualitätsstandards, fordert das System den Nutzer auf, die Frage neu zu formulieren, anstatt potenziell fehlerhafte Informationen zu liefern.

Eine wesentliche technische Herausforderung bestand darin, Regulierungsprüfungsunterlagen in unterschiedlichen Formaten, PDFs, Word-Dokumenten und PowerPoint-Präsentationen, zu verarbeiten. LLMs fungieren hier als intelligente Extraktoren, die diese heterogenen Quellen in strukturierte SQL-Datensätze und semantische Embeddings mit reichhaltigen Metadaten umwandeln.

Das Projekt lieferte einen funktionalen Chatbot, der im Intranet bereitgestellt wird und strukturierte Informationen zu bisherigen Regulierungsinteraktionen liefert sowie Vorlagen für aktuelle regulatorische Antworten vorbereitet. Die umfassende Datenverarbeitungspipeline extrahiert und strukturiert Informationen aus unterschiedlichen Dateiformaten und pflegt dabei sowohl SQL- als auch Vektor-Darstellungen für optimales Retrieval.

Zukünftige Entwicklungen umfassen die Erweiterung der internen Bereitstellung auf weitere Teams und Rechtsordnungen, die Integration von Nutzerfeedback zur Verbesserung von Retrieval-Genauigkeit und Antwortqualität, erweiterte Analysen zur Trendbeobachtung für proaktives Compliance-Management sowie die Integration in bestehende Compliance-Management-Systeme. Dieser KI-gestützte Regulierungs-Chatbot zeigt, wie moderne NLP-Techniken Compliance-Prozesse in stark regulierten Branchen transformieren können, indem er Zeit und Aufwand erheblich reduziert und gleichzeitig Konsistenz und Genauigkeit verbessert.

Möchtest Du mehr über die Constructor Nexademy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos