Wo kommen die Daten her?
Ein Sprachmodell kennt nur, was in seinen Trainingsdaten steht. Diese Daten sind ein riesiger, ungeordneter Querschnitt des Webs – und die Auswahl daraus prägt, was das Modell kann.
Dokumente aus dem FineWeb-Datensatz (CommonCrawl-Webtexte, ins Deutsche übersetzt) – eine winzige Stichprobe von gut 950 aus 15 Billionen Tokens. Den Bildungswert hat ein KI-Bewerter vergeben; der echte Filter (FineWeb-Edu) behält nur Texte mit Score 3 oder höher.