KI-ENNA
TRANSFORMER
(1) Daten
Was soll gelernt werden?
Trainingsdatensatz
Der Hund bellt laut Der Hund frisst Knochen Der Fisch schwimmt ruhig Der Fisch knabbert Futter Der Hamster rennt schnell Der Hamster mag Körner
Tokenisieren
Beispieldaten
Vokabular
–
Batches
–
Kontextlänge
–
(2) Training
Wie soll gelernt werden?
Vokabulargröße
40
wenige (5) oder viele (80) Wörter
Kontextlänge
8
wenige (3) oder viele (16) Tokens
Embedding-Dimension
wenige (2) oder viele (16) Dimensionen
Epochen
wenige (50) oder viele (500) Durchläufe
Lernrate
0.05
langsam (0.01) oder schnell (1)
Training starten
Stop
Aufmerksamkeitsmatrix
Verlustfunktion (Cross Entropy)
(3) Embeddings
Was hat das Modell gelernt?
Token-Vektoren-Matrix
Token
Vektor
(4) Kontextverständnis
Wie gut hat das Modell gelernt?
Beispielsatz (Prompt)
Wort vorhersagen
Ergebnis
–