Corpus ( Sprachkorpus )
Definition:
Ein Sprachkorpus (engl. corpus, Plural: corpora) ist eine umfangreiche Sammlung von Texten oder gesprochenen Sprachdaten, die systematisch zusammengestellt und oft annotiert sind. Linguisten und KI-Entwickler nutzen Korpora, um Sprachstrukturen, Häufigkeiten und Bedeutungen zu analysieren.
Beispiele:
- Ein Nachrichtenkorpus mit Artikeln verschiedener Zeitungen
- Ein Gesprächskorpus mit Transkripten von Interviews
- Ein paralleles Korpus, das Texte in mehreren Sprachen enthält
Bedeutung für Chatbots und KI:
Korpora sind die Grundlage für Sprachmodelle. Je größer und vielfältiger das Korpus, desto besser kann ein Modell Sprache verstehen und natürlich reagieren. Für Chatbots helfen spezifische Korpora (z. B. Fachsprache in der Medizin), passende Antworten zu generieren.
Vorteile von Sprachkorpora:
- Ermöglichen präzise Sprachmodelle
- Decken unterschiedliche Sprachstile und Kontexte ab
- Fördern Forschung in Linguistik, Übersetzung und KI
Verwandte Begriffe:
- Datenbasis
- Textsammlung
- Datensatz