KI-ENNA
TRANSFORMER


(1) Daten Was soll gelernt werden?

Vokabular
Batches
Kontextlänge

(2) Training Wie soll gelernt werden?


40 wenige (5) oder viele (80) Wörter

8 wenige (3) oder viele (16) Tokens

wenige (2) oder viele (16) Dimensionen

wenige (50) oder viele (500) Durchläufe

0.05 langsam (0.01) oder schnell (1)
Aufmerksamkeitsmatrix
Verlustfunktion (Cross Entropy)

(3) Embeddings Was hat das Modell gelernt?

TokenVektor

(4) Kontextverständnis Wie gut hat das Modell gelernt?