KI-ENNA: (E)in (N)euronales (N)etz zum (A)usprobieren

Trainingsdatensatz

Vorgeschlagene Parameter

Vokabular

–

Batches

–

Kontextlänge

–

Attention-Heads

–

(3) Training Relevante Parameter

Vokabulargröße
60 wenige (5) oder viele (80) Wörter

Kontextlänge
10 wenige (3) oder viele (20) Tokens

Anzahl Attention-Heads
ein (1) oder vier (4) Attention-Heads

Epochen
wenige (50) oder viele (1000) Durchläufe

Lernrate
0.04 langsam (0.01) oder schnell (1)

Multi-Head-Attention (max. 2)

Verlustfunktion (Cross Entropy)

(4) Embeddings Mathematische Repräsentation

Token-Vektoren-Matrix

Token	Vektor

(5) Satzgenerator Relevante Hyperparameter

Maximale Satzlänge
Sicherheitsgrenze (falls Satzende fehlt)

Temperatur
0.8 niedrige (0.2) oder hohe (2.0) Kreativität

Top-k (Anzahl)
5 wenige (1) oder viele (10) Alternativen

Top-p (Wahrscheinlichkeit)
0.90 geringe (0.1) oder hohe (1.0) Wahrscheinlichkeit

Ergebnis

–