Behind AI

Wie ein Sprachmodell ein Bild liest

Ein Sprachmodell verarbeitet eine Reihe: ein Stück nach dem anderen. Ein Bild ist aber eine Fläche. Sieh, wie aus der Fläche eine Reihe wird, die dasselbe Modell lesen kann.

Kacheln:
Szene wird gezeichnet …

1. Eine Fläche

Ein Bild ist ein Rechteck aus Pixeln – kein Anfang, kein Ende. Wir zerlegen es in gleich grosse Kacheln.

Jede Kachel und ihre Reihenfolge sind aus dem Bild berechnet. Genau diese Verwandlung – von der Fläche in eine Reihe – macht ein Modell, bevor es ein Bild „lesen" kann.