🧪 Demo interactiva

Explorador de Transformers

Selecciona frases, visualiza embeddings, sigue el flujo de la auto-atención y genera texto con un decodificador simplificado — todo paso a paso.

Fundamentos matemáticos

Todo comienza con los embeddings léxicos: cada token se convierte en un vector denso \(\mathbf{x}_t\). Se le suma una codificación posicional \(\mathbf{p}_t\) escalada por \(\alpha\), generando \(\mathbf{h}_t = \mathbf{x}_t + \alpha\,\mathbf{p}_t\).

\[ \mathbf{Q} = \mathbf{H} W^{Q},\quad \mathbf{K} = \mathbf{H} W^{K},\quad \mathbf{V} = \mathbf{H} W^{V} \]

\[ \mathbf{A} = \mathrm{softmax}\!\left(\frac{\mathbf{Q}\mathbf{K}^{\top}}{\tau\sqrt{d_k}}\right), \qquad \mathbf{O} = \mathbf{A}\,\mathbf{V} \]

La temperatura \(\tau\) controla lo concentrada que es la distribución de atención. El bloque feed-forward refina cada posición: \( f(\mathbf{h}) = W_2\,\mathrm{ReLU}(W_1 \mathbf{h} + \mathbf{b}_1) + \mathbf{b}_2 \). Finalmente el decodificador proyecta el contexto sobre el vocabulario para predecir la siguiente palabra.

1 Selecciona una secuencia

Elige una frase para explorar cómo se tokeniza y representa.

2 Embeddings léxicos y posicionales

Visualiza los vectores de cada token y la codificación sinusoidal de posición.

1.0

3 Calcula la auto-atención

Selecciona un token consulta para observar cómo distribuye su atención.

1.0

4 Encoder + proyección de salida

Vector codificado por token y predicción escalar tras la capa densa.

5 Decodificador y predicción

El decodificador asigna probabilidades a la próxima palabra. Haz clic en una sugerencia para añadirla y generar nuevas predicciones de forma autoregresiva.