Wie ein Sprachmodell ein Bild liest
Ein Sprachmodell verarbeitet eine Reihe: ein Stück nach dem anderen. Ein Bild ist aber eine Fläche. Sieh, wie aus der Fläche eine Reihe wird, die dasselbe Modell lesen kann.
Kacheln:
Szene wird gezeichnet …
1. Eine Fläche
Ein Bild ist ein Rechteck aus Pixeln – kein Anfang, kein Ende. Wir zerlegen es in gleich grosse Kacheln.
Jede Kachel und ihre Reihenfolge sind aus dem Bild berechnet. Genau diese Verwandlung – von der Fläche in eine Reihe – macht ein Modell, bevor es ein Bild „lesen" kann.