KI-ENNA
GENERATIVE TRANSFORMER


(1) Voreinstellungen Architektur-Hyperparameter


14 wenige (2) oder viele (24) Dimensionen

(2) Daten Trainingsdaten


Vokabulargröße
Batches
Kontextlänge
Attention-Heads

(3) Training Trainings-Hyperparameter


60 wenige (5) oder viele (80) Wörter

10 wenige (3) oder viele (20) Tokens

ein (1) oder vier (4) Attention-Heads

wenige (50) oder viele (1000) Durchläufe

0.04 langsam (0.01) oder schnell (1)
Multi-Head-Attention (max. 2 visualisiert)
Verlustfunktion (Cross-Entropy)

(4) Embeddings Mathematische Repräsentationen

TokenVektor

(5) Satzgenerator Sampling-Hyperparameter


Sicherheitsgrenze (falls Satzende fehlt)

0.8 niedrige (0.2) oder hohe (2.0) Kreativität

5 wenige (1) oder viele (10) Alternativen

0.90 geringe (0.1) oder hohe (1.0) Wahrscheinlichkeit