KI-ENNA
TRANSFORMER


(1) Daten Was soll gelernt werden?

Vokabular
Batches
Kontextlänge

(2) Training Wie soll gelernt werden?


40 wenige (5) oder viele (80) Wörter

8 wenige (3) oder viele (16) Tokens

wenige (50) oder viele (500) Durchläufe

0.05 langsam (0.01) oder schnell (1)
Aufmerksamkeitsmatrix
Verlustfunktion (Cross-Entropy)

(3) Embeddings Was hat das Modell gelernt?

TokenVektor

(4) Kontextverständnis Wie gut hat das Modell gelernt?