Inhalte & Gliederung
Gegenstand des Information Retrieval ist die Suche nach Dokumenten. Traditionell handelt es sich dabei im Allgemeinen um Textdokumente. In neuerer Zeit kommt aber verstärkt auch die Suche nach multimedialen Dokumenten (Bilder, Audio, Video, Hypertext-Dokumente) hinzu. Ferner hat das Gebiet des Information Retrieval insbesondere auch durch das Aufkommen des WWW an Bedeutung und Aktualität gewonnen. So werden Retrieval-Konzepte für das Internet, für Unternehmen oder auch für die Desktopsuche im Modul behandelt.
Konkret geht es im Information Retrieval darum, aus einer Kollektion von Dokumenten zu einem gegebenen Informationsbedarf die relevanten Dokumente zu ermitteln. Hierzu werden Techniken eingesetzt, die weit über eine einfache zeichenkettenbasierte Suche hinausgehen. So versucht man, von der konkreten Wortwahl in einem Dokument zu abstrahieren und stattdessen die Semantik des Dokumentes zu adressieren. Hierzu kommen einfache statistische Verfahren ebenso zum Einsatz wie Verfahren des maschinellen Lernens. Bei der Suche nach textuellen Dokumenten gibt es auch zahlreiche Anknüpfungspunkte zur Computerlinguistik (oder genauer zur automatischen Sprachverarbeitung; im Englischen Natural Language Processing NLP).
Die Studierenden erhalten einen Überblick über unterschiedliche Aspekte der Dokumentensuche, angefangen von der Formulierung des Informationswunsches über technische Aspekte wie die verwendeten Algorithmen und Datenstrukturen bis hin zu Fragen der Beurteilung von Information-Retrieval-Systemen.
Inhalte:
- Suchmaschinen und Information Retrieval
- Architektur von Suchmaschinen
- Evaluierung von Suchmaschinen
- Retrieval-Modelle
- Ranking mit Indexstrukturen
- Textverarbeitung
- Anfragen / Benutzerschnittstellen / Interaktion
- Crawling und Texterfassung
- Web-Analytics / Suchmaschinenoptimierung
- Maschinelles Lernen & Ausblick