LayerNorm vs. RMSNorm: Warum RMSNorm reicht

15.02.2026

Zusammenfassung

LayerNorm zentriert und skaliert, RMSNorm nur skaliert. Warum die Zentrierung verzichtbar ist, ohne Modellqualität zu verlieren, zeigt eine geometrische Erklärung.

1. Intro

In diesem Post schauen wir uns an, warum tiefe neuronale Netze Normalisierung brauchen und warum sich im Kontext von LLMs RMSNorm gegenüber dem ursprünglichen LayerNorm durchgesetzt hat.

LLM-Architekturen haben sich in den letzten Jahren verändert. Was geblieben ist: Jedes relevante Modell nutzt eine Form der Normalisierung. 2017 war das LayerNorm. Heute ist es meist RMSNorm, welches die Mean-Zentrierung weglässt. Dass RMSNorm bei gleicher Modellqualität effizienter ist, wurde empirisch vielfach bestätigt. Aber warum funktioniert das überhaupt?

Wir beginnen mit der Frage, warum Normalisierung nötig ist. Dann betrachten wir LayerNorm im Detail, gefolgt von RMSNorm. Im Kernteil nehmen wir eine geometrische Perspektive ein, die zeigt, warum die Zentrierung verzichtbar ist.

2. Warum Normalisierung?

Tiefe neuronale Netze haben ohne Normalisierung ein Stabilitätsproblem. Im Vorwärtsdurchlauf fließt das Signal durch hunderte Layer, im Rückwärtsdurchlauf die Gradienten ebenso. In jedem Layer findet dabei eine Matrixmultiplikation statt. Das führt zu einem simplen mathematischen Problem: Sind die Gewichte im Schnitt minimal größer als 1, wachsen die Werte exponentiell (Exploding Gradients). Sind sie kleiner als 1, schrumpfen sie gegen Null (Vanishing Gradients).

Normalisierung geht dieses Problem an, indem sie die Aktivierungen nach jedem Layer auf einen stabilen Wertebereich skaliert, ähnlich wie ein Pegel-Limiter in der Tontechnik. Egal wie stark die Aktivierungen ausschlagen, die Normalisierung regelt sie auf ein definiertes Niveau zurück (Mittelwert 0, Varianz 1), sodass der nachfolgende Layer immer ein stabiles Signal erhält.

Batch Normalization (Ioffe & Szegedy, 2015) war die erste verbreitete Umsetzung dieser Idee. Dass Normalisierung höhere Learning Rates ermöglicht und das Training beschleunigt, war früh beobachtet worden. Die Erfinder erklärten den Erfolg mit der Reduzierung des "Internal Covariate Shift": dass sich die Verteilung der Eingaben für jeden Layer während des Trainings ständig verschiebt und die Normalisierung das stabilisiert. Bjorck et al. (2018) zeigten, dass der Mechanismus ein anderer ist: Die höheren Learning Rates, die Normalisierung ermöglicht, wirken als Regularisierung und verbessern die Generalisierung.

Der entscheidende Vergleich zeigt sich im rechten Plot. Die grüne Kurve (mit BatchNorm, lr=0.0001) und die rote Kurve (ohne BatchNorm, lr=0.0001) landen bei derselben Accuracy von ca. 80%. Bei gleicher Learning Rate bringt Normalisierung keinen Vorteil. Der Gewinn zeigt sich bei der orangen Kurve: Mit Normalisierung kann das Netz höhere Learning Rates nutzen und erreicht bessere Test Accuracy. Ohne Normalisierung würde das Training divergieren.

Kurz: Normalisierung stabilisiert den Signalfluss und erlaubt höhere Learning Rates, was wiederum die Generalisierung verbessert.

3. LayerNorm

Bjorck et al. nutzten für ihre Experimente Batch Normalization, welche über die Dimension eines Batches normalisiert. Bei Bildern funktioniert das, da jedes Bild auf eine einheitliche Größe skaliert werden kann. Bei Transformern ist diese Form der Normalisierung aus zwei Gründen problematisch. Erstens haben Texte variable Längen, was bedeutet, dass kürzere Sequenzen mit Nullen aufgefüllt (Padding) werden müssen, die in die Berechnung einfließen und Mittelwert und Standardabweichung verfälschen oder zusätzliche Maskierung erfordern. Zweitens erzwingt der Speicherbedarf großer Modelle oft Batches von nur ein oder zwei Samples pro GPU. Mean und Varianz über so wenige Datenpunkte sind Rauschen, kein stabiles Signal.

Layer Normalization (Ba et al., 2016) ändert die Dimension, über welche normalisiert wird. Statt über den Batch (links in Abbildung 2) wird über die Feature-Dimension jedes einzelnen Vektors normalisiert (rechts in Abbildung 2).

Der Unterschied wird in der Abbildung deutlich: BatchNorm berechnet Mean und Varianz für jede Feature-Zeile über alle Samples im Batch hinweg. LayerNorm hingegen berechnet Mean und Varianz für jedes Sample über alle Features. Damit ist die Berechnung unabhängig von Batch-Größe und anderen Sequenzen.

Für einen Eingabevektor x mit d Dimensionen berechnet LayerNorm zunächst Mean μ und Varianz σ² über alle Features hinweg:

$$\mu = \frac{1}{d} \sum_{i=1}^{d} x_i$$ 

$$\sigma^2 = \frac{1}{d} \sum_{i=1}^{d} (x_i - \mu)^2$$

Der Vektor wird dann zentriert (Mean-Subtraktion) und skaliert (Division durch Std): 

$$\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$$

Das ϵ (typischerweise $10^{-5}$) verhindert Division durch Null bei sehr kleiner Varianz.

Der normalisierte Vektor wird dann mit lernbaren Parametern γ (Skalierung) und β (Verschiebung) transformiert:

$$\text{LayerNorm}(x)_i = \gamma_i \cdot \hat{x}_i + \beta_i$$

Ohne diese Parameter wäre jeder Vektor auf Mean 0 und Varianz 1 festgelegt. γ und β erlauben dem Netz, pro Dimension eine eigene Skalierung und Verschiebung zu lernen und so den Wertebereich an die Anforderungen der nachfolgenden Layer anzupassen.

Übersetzt in PyTorch: 

import torch
import torch.nn as nn

class CustomLayerNorm(nn.Module):
    def __init__(self, dim, eps=1e-5):
        super().__init__()
        self.eps = eps
        self.gamma = nn.Parameter(torch.ones(dim))   # γ (scale)
        self.beta = nn.Parameter(torch.zeros(dim))   # β (shift)

    def forward(self, x):
        # μ = (1/d) Σ x_i
        mean = x.mean(dim=-1, keepdim=True)
        # σ² = (1/d) Σ (x_i - μ)²
        var = x.var(dim=-1, keepdim=True, unbiased=False)
        
        # x̂ = (x - μ) / √(σ² + ε)
        x_norm = (x - mean) / torch.sqrt(var + self.eps)
        
        # γ · x̂ + β
        return self.gamma * x_norm + self.beta

4. RMSNorm

Wie wir im vorherigen Kapitel gesehen haben, besteht LayerNorm aus zwei Operationen: Zentrierung und Skalierung. Zhang & Sennrich (2019) stellten sich die Frage: Brauchen wir beide?

Ihre Hypothese war, dass die Zentrierung verzichtbar ist. Die Skalierung allein reicht aus, um das Training stabil zu halten. Die Zentrierung schützt zwar vor additiven Verschiebungen in Inputs und Gewichten, hat laut Zhang & Sennrich aber kaum Einfluss auf den Trainingserfolg.

Der Unterschied zur Varianz in LayerNorm ist ein einziger Term: Statt den quadratischen Abstand zum Mittelwert $(x_i - \mu)^2$ zu berechnen, nimmt RMS den quadratischen Abstand zum Nullpunkt $x_i^2$. Die Mean-Subtraktion entfällt.

$$\text{RMS}(x) = \sqrt{\frac{1}{d} \sum_{i=1}^{d} x_i^2 + \epsilon}$$

Wenn der Mittelwert der Eingaben null ist, sind beide Formeln identisch. Der Vektor wird durch RMS geteilt und mit γ skaliert: 

$$\text{RMSNorm}(x)_i = \frac{x_i}{\text{RMS}(x)} \cdot \gamma_i$$

Da die Zentrierung fehlt, entfällt auch β. RMSNorm hat als einzigen lernbaren Parameter γ. 

Übersetzt in PyTorch: 

class CustomRMSNorm(nn.Module):
    def __init__(self, dim, eps=1e-5):
        super().__init__()
        self.eps = eps
        self.gamma = nn.Parameter(torch.ones(dim))   # γ (scale)
        # no beta!

    def forward(self, x):
        # RMS(x)
        rms = torch.sqrt((x * x).mean(dim=-1, keepdim=True) + self.eps)
        
        # x / RMS(x) · γ
        return (x / rms) * self.gamma

Durch das Weglassen der Zentrierung entfallen Mean-Berechnung, Subtraktion und β. Zhang & Sennrich zeigen, dass RMSNorm je nach Modell 7–64% schneller ist als LayerNorm bei vergleichbarer Modellqualität. Die Hypothese hat sich empirisch bestätigt. Warum die Zentrierung verzichtbar ist, blieb allerdings offen.

5. Warum funktioniert das Weglassen der Zentrierung?

Gupta et al. (2025) liefern eine geometrische Erklärung. Dafür hilft es, die Mean-Berechnung aus Kapitel 3 nochmal anzuschauen. Der Mittelwert ist eine Summe aller Elemente geteilt durch die Feature-Dimension d. Diese Summe lässt sich auch als Skalarprodukt mit einem Vektor aus Einsen schreiben (uniformer Vektor):

$$\mu = \frac{1}{d} \sum_{i=1}^{d} x_i = \frac{1}{d} \mathbf{1}^T \mathbf{x}$$

Das Skalarprodukt 1ᵀx multipliziert jede Komponente von x mit 1 und summiert die Ergebnisse. Der entscheidende Teil ist der Vektor 1 = [1, 1, ..., 1]ᵀ. Er zeigt in die Richtung, in der alle Dimensionen gleich sind — ein Vektor mit hoher Komponente entlang 1 hätte in allen Dimensionen ähnliche Werte (z.B. [5.1, 5.0, 4.9, ...]). Das Skalarprodukt 1ᵀx misst also, wie stark x in diese Richtung zeigt.

Wenn LayerNorm den Mittelwert von jeder Komponente abzieht, wird μ mit 1 multipliziert, um aus dem Skalar einen Vektor zu machen: μ · 1 = [μ, μ, ..., μ]ᵀ.

$$\mathbf{x} - \mu * \mathbf{1} = \mathbf{x} - \left( \frac{\mathbf{1}^T \mathbf{x}}{d} \right) * \mathbf{1}$$

Die folgende Visualisierung zeigt diesen Prozess in 3D: Der Eingabevektor x wird auf den uniformen Vektor 1 projiziert (orange). Die Mean-Zentrierung entfernt diese Projektion (grün), die Skalierung normalisiert das Ergebnis (blau).

Was übrig bleibt, steht senkrecht zu 1. Diese Operation ist sinnvoll, wenn entlang dieser Richtung relevante Information stecken würde. Aber steckt dort überhaupt etwas?

Gupta et al. haben in verschiedenen LLMs den Winkel zwischen den Hidden-Vektoren und dem uniformen Vektor gemessen, jeweils vor der Normalisierung. Das Ergebnis: Die Hidden-Vektoren stehen bereits so gut wie orthogonal zum uniformen Vektor. Die Komponente, die LayerNorm entfernt, ist nahezu null.

Das deckt sich mit dem Phänomen der Concentration of Measure. In hochdimensionalen Räumen wie d = 4096 bei Llama stehen zwei beliebige Vektoren fast immer nahezu orthogonal zueinander. Der uniforme Vektor ist aus Sicht des Modells keine besondere Richtung. Er taucht lediglich in der Mathematik der Mean-Berechnung auf. Das Modell organisiert seine Repräsentationen nicht entlang dieser Richtung.

Die Mean-Subtraktion in LayerNorm entfernt also eine Komponente, die kaum vorhanden ist. RMSNorm spart sich diesen Schritt.

6. Praktische Implikationen

RMSNorm hat sich in neueren LLM-Architekturen wie Qwen3 als Standard durchgesetzt. Eine verbreitete Sorge war, dass die fehlende Zentrierung Probleme bei der Quantisierung verursacht, weil Quantisierungs-Algorithmen am präzisesten mit null-zentrierten Verteilungen arbeiten. Gupta et al. (2025) entkräften das: Ihre Messungen zeigen, dass auch RMSNorm-Modelle ihre Repräsentationen von selbst zentriert halten. Das Modell lernt die Zentrierung als Nebeneffekt des Trainings.

Die 7–64% Speedup aus dem Originalpaper von 2019 stammen aus einer Zeit vor fused Kernels – optimierten GPU-Routinen, die mehrere Operationen in einem einzigen Aufruf zusammenfassen. Mit solchen Kernels laufen beide Varianten ähnlich schnell. PyTorchs nn.RMSNorm hatte bis Mitte 2025 keinen fused Kernel und war dadurch sogar langsamer als nn.LayerNorm. Der praktische Vorteil von RMSNorm zeigt sich eher in Inference-Frameworks wie vLLM: Weniger Operationen lassen sich leichter mit Residual-Addition oder Quantisierung in einem einzigen Kernel verschmelzen.

7. Fazit

RMSNorm entfernt die Zentrierung aus LayerNorm. Aktuelle Forschung geht einen Schritt weiter und fragt, ob die Normalisierungs-Schicht selbst nötig ist.

Ein Ansatz ersetzt die Normalisierung durch einfachere Funktionen. Zhu et al. (CVPR 2025) beobachten, dass LayerNorm in trainierten Netzen einer tanh-Kurve ähnelt. Daraus leiten sie Dynamic Tanh (DyT) ab: eine elementweise Funktion mit einem einzigen lernbaren Parameter, ohne Mean oder Varianz. LLaMA-Modelle bis 70B erreichen damit vergleichbare Ergebnisse. Lu et al. (2025) verfeinern die Idee mit einer Variante der Gaußschen Fehlerfunktion (Derf), die DyT in mehreren Domänen schlägt.

Ein anderer Ansatz macht Normalisierung durch Konstruktion überflüssig. Loshchilov et al. (2025) halten mit nGPT alle Gewichte und Embeddings permanent auf Einheitsnorm, sodass der Hidden State gar nicht erst driften kann. RMSNorm und LayerNorm werden komplett entfernt. Das Ergebnis: deutlich weniger Trainings-Tokens für dieselbe Performance. Ob sich diese Ansätze bei produktionsrelevanten Modellgrößen bewähren, bleibt jedoch offen.

Ressourcen

Ba, J.L., Kiros, J.R. und Hinton, G.E. (2016). Layer Normalization. URL: https://arxiv.org/abs/1607.06450

Bjorck, N. et al. (2018). Understanding Batch Normalization. URL: https://arxiv.org/abs/1805.11604

Gupta, A., Ozdemir, A. und Anumanchipalli, G. (2025). Geometric Interpretation of Layer Normalization. URL: https://arxiv.org/abs/2409.12951

Ioffe, S. und Szegedy, C. (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. URL: https://arxiv.org/abs/1502.03167

Loshchilov, I. et al. (2025). nGPT: Normalized Transformer with Representation Learning on the Hypersphere. URL: https://arxiv.org/abs/2410.01131

Lu, T. et al. (2025). Stronger Normalization-Free Transformers. URL: https://arxiv.org/abs/2512.10938

Zhang, B. und Sennrich, R. (2019). Root Mean Square Layer Normalization. URL: https://arxiv.org/abs/1910.07467

Zhu, J. et al. (2025). Transformers without Normalization. URL: https://arxiv.org/abs/2503.10622

LayerNorm vs. RMSNorm: Warum RMSNorm reicht

15.02.2026

Zusammenfassung

LayerNorm zentriert und skaliert, RMSNorm nur skaliert. Warum die Zentrierung verzichtbar ist, ohne Modellqualität zu verlieren, zeigt eine geometrische Erklärung.

1. Intro

In diesem Post schauen wir uns an, warum tiefe neuronale Netze Normalisierung brauchen und warum sich im Kontext von LLMs RMSNorm gegenüber dem ursprünglichen LayerNorm durchgesetzt hat.

LLM-Architekturen haben sich in den letzten Jahren verändert. Was geblieben ist: Jedes relevante Modell nutzt eine Form der Normalisierung. 2017 war das LayerNorm. Heute ist es meist RMSNorm, welches die Mean-Zentrierung weglässt. Dass RMSNorm bei gleicher Modellqualität effizienter ist, wurde empirisch vielfach bestätigt. Aber warum funktioniert das überhaupt?

Wir beginnen mit der Frage, warum Normalisierung nötig ist. Dann betrachten wir LayerNorm im Detail, gefolgt von RMSNorm. Im Kernteil nehmen wir eine geometrische Perspektive ein, die zeigt, warum die Zentrierung verzichtbar ist.

2. Warum Normalisierung?

Tiefe neuronale Netze haben ohne Normalisierung ein Stabilitätsproblem. Im Vorwärtsdurchlauf fließt das Signal durch hunderte Layer, im Rückwärtsdurchlauf die Gradienten ebenso. In jedem Layer findet dabei eine Matrixmultiplikation statt. Das führt zu einem simplen mathematischen Problem: Sind die Gewichte im Schnitt minimal größer als 1, wachsen die Werte exponentiell (Exploding Gradients). Sind sie kleiner als 1, schrumpfen sie gegen Null (Vanishing Gradients).

Normalisierung geht dieses Problem an, indem sie die Aktivierungen nach jedem Layer auf einen stabilen Wertebereich skaliert, ähnlich wie ein Pegel-Limiter in der Tontechnik. Egal wie stark die Aktivierungen ausschlagen, die Normalisierung regelt sie auf ein definiertes Niveau zurück (Mittelwert 0, Varianz 1), sodass der nachfolgende Layer immer ein stabiles Signal erhält.

Batch Normalization (Ioffe & Szegedy, 2015) war die erste verbreitete Umsetzung dieser Idee. Dass Normalisierung höhere Learning Rates ermöglicht und das Training beschleunigt, war früh beobachtet worden. Die Erfinder erklärten den Erfolg mit der Reduzierung des "Internal Covariate Shift": dass sich die Verteilung der Eingaben für jeden Layer während des Trainings ständig verschiebt und die Normalisierung das stabilisiert. Bjorck et al. (2018) zeigten, dass der Mechanismus ein anderer ist: Die höheren Learning Rates, die Normalisierung ermöglicht, wirken als Regularisierung und verbessern die Generalisierung.

Der entscheidende Vergleich zeigt sich im rechten Plot. Die grüne Kurve (mit BatchNorm, lr=0.0001) und die rote Kurve (ohne BatchNorm, lr=0.0001) landen bei derselben Accuracy von ca. 80%. Bei gleicher Learning Rate bringt Normalisierung keinen Vorteil. Der Gewinn zeigt sich bei der orangen Kurve: Mit Normalisierung kann das Netz höhere Learning Rates nutzen und erreicht bessere Test Accuracy. Ohne Normalisierung würde das Training divergieren.

Kurz: Normalisierung stabilisiert den Signalfluss und erlaubt höhere Learning Rates, was wiederum die Generalisierung verbessert.

3. LayerNorm

Bjorck et al. nutzten für ihre Experimente Batch Normalization, welche über die Dimension eines Batches normalisiert. Bei Bildern funktioniert das, da jedes Bild auf eine einheitliche Größe skaliert werden kann. Bei Transformern ist diese Form der Normalisierung aus zwei Gründen problematisch. Erstens haben Texte variable Längen, was bedeutet, dass kürzere Sequenzen mit Nullen aufgefüllt (Padding) werden müssen, die in die Berechnung einfließen und Mittelwert und Standardabweichung verfälschen oder zusätzliche Maskierung erfordern. Zweitens erzwingt der Speicherbedarf großer Modelle oft Batches von nur ein oder zwei Samples pro GPU. Mean und Varianz über so wenige Datenpunkte sind Rauschen, kein stabiles Signal.

Layer Normalization (Ba et al., 2016) ändert die Dimension, über welche normalisiert wird. Statt über den Batch (links in Abbildung 2) wird über die Feature-Dimension jedes einzelnen Vektors normalisiert (rechts in Abbildung 2).

Der Unterschied wird in der Abbildung deutlich: BatchNorm berechnet Mean und Varianz für jede Feature-Zeile über alle Samples im Batch hinweg. LayerNorm hingegen berechnet Mean und Varianz für jedes Sample über alle Features. Damit ist die Berechnung unabhängig von Batch-Größe und anderen Sequenzen.

Für einen Eingabevektor x mit d Dimensionen berechnet LayerNorm zunächst Mean μ und Varianz σ² über alle Features hinweg:

$$\mu = \frac{1}{d} \sum_{i=1}^{d} x_i$$ 

$$\sigma^2 = \frac{1}{d} \sum_{i=1}^{d} (x_i - \mu)^2$$

Der Vektor wird dann zentriert (Mean-Subtraktion) und skaliert (Division durch Std): 

$$\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$$

Das ϵ (typischerweise $10^{-5}$) verhindert Division durch Null bei sehr kleiner Varianz.

Der normalisierte Vektor wird dann mit lernbaren Parametern γ (Skalierung) und β (Verschiebung) transformiert:

$$\text{LayerNorm}(x)_i = \gamma_i \cdot \hat{x}_i + \beta_i$$

Ohne diese Parameter wäre jeder Vektor auf Mean 0 und Varianz 1 festgelegt. γ und β erlauben dem Netz, pro Dimension eine eigene Skalierung und Verschiebung zu lernen und so den Wertebereich an die Anforderungen der nachfolgenden Layer anzupassen.

Übersetzt in PyTorch: 

import torch
import torch.nn as nn

class CustomLayerNorm(nn.Module):
    def __init__(self, dim, eps=1e-5):
        super().__init__()
        self.eps = eps
        self.gamma = nn.Parameter(torch.ones(dim))   # γ (scale)
        self.beta = nn.Parameter(torch.zeros(dim))   # β (shift)

    def forward(self, x):
        # μ = (1/d) Σ x_i
        mean = x.mean(dim=-1, keepdim=True)
        # σ² = (1/d) Σ (x_i - μ)²
        var = x.var(dim=-1, keepdim=True, unbiased=False)
        
        # x̂ = (x - μ) / √(σ² + ε)
        x_norm = (x - mean) / torch.sqrt(var + self.eps)
        
        # γ · x̂ + β
        return self.gamma * x_norm + self.beta

4. RMSNorm

Wie wir im vorherigen Kapitel gesehen haben, besteht LayerNorm aus zwei Operationen: Zentrierung und Skalierung. Zhang & Sennrich (2019) stellten sich die Frage: Brauchen wir beide?

Ihre Hypothese war, dass die Zentrierung verzichtbar ist. Die Skalierung allein reicht aus, um das Training stabil zu halten. Die Zentrierung schützt zwar vor additiven Verschiebungen in Inputs und Gewichten, hat laut Zhang & Sennrich aber kaum Einfluss auf den Trainingserfolg.

Der Unterschied zur Varianz in LayerNorm ist ein einziger Term: Statt den quadratischen Abstand zum Mittelwert $(x_i - \mu)^2$ zu berechnen, nimmt RMS den quadratischen Abstand zum Nullpunkt $x_i^2$. Die Mean-Subtraktion entfällt.

$$\text{RMS}(x) = \sqrt{\frac{1}{d} \sum_{i=1}^{d} x_i^2 + \epsilon}$$

Wenn der Mittelwert der Eingaben null ist, sind beide Formeln identisch. Der Vektor wird durch RMS geteilt und mit γ skaliert: 

$$\text{RMSNorm}(x)_i = \frac{x_i}{\text{RMS}(x)} \cdot \gamma_i$$

Da die Zentrierung fehlt, entfällt auch β. RMSNorm hat als einzigen lernbaren Parameter γ. 

Übersetzt in PyTorch: 

class CustomRMSNorm(nn.Module):
    def __init__(self, dim, eps=1e-5):
        super().__init__()
        self.eps = eps
        self.gamma = nn.Parameter(torch.ones(dim))   # γ (scale)
        # no beta!

    def forward(self, x):
        # RMS(x)
        rms = torch.sqrt((x * x).mean(dim=-1, keepdim=True) + self.eps)
        
        # x / RMS(x) · γ
        return (x / rms) * self.gamma

Durch das Weglassen der Zentrierung entfallen Mean-Berechnung, Subtraktion und β. Zhang & Sennrich zeigen, dass RMSNorm je nach Modell 7–64% schneller ist als LayerNorm bei vergleichbarer Modellqualität. Die Hypothese hat sich empirisch bestätigt. Warum die Zentrierung verzichtbar ist, blieb allerdings offen.

5. Warum funktioniert das Weglassen der Zentrierung?

Gupta et al. (2025) liefern eine geometrische Erklärung. Dafür hilft es, die Mean-Berechnung aus Kapitel 3 nochmal anzuschauen. Der Mittelwert ist eine Summe aller Elemente geteilt durch die Feature-Dimension d. Diese Summe lässt sich auch als Skalarprodukt mit einem Vektor aus Einsen schreiben (uniformer Vektor):

$$\mu = \frac{1}{d} \sum_{i=1}^{d} x_i = \frac{1}{d} \mathbf{1}^T \mathbf{x}$$

Das Skalarprodukt 1ᵀx multipliziert jede Komponente von x mit 1 und summiert die Ergebnisse. Der entscheidende Teil ist der Vektor 1 = [1, 1, ..., 1]ᵀ. Er zeigt in die Richtung, in der alle Dimensionen gleich sind — ein Vektor mit hoher Komponente entlang 1 hätte in allen Dimensionen ähnliche Werte (z.B. [5.1, 5.0, 4.9, ...]). Das Skalarprodukt 1ᵀx misst also, wie stark x in diese Richtung zeigt.

Wenn LayerNorm den Mittelwert von jeder Komponente abzieht, wird μ mit 1 multipliziert, um aus dem Skalar einen Vektor zu machen: μ · 1 = [μ, μ, ..., μ]ᵀ.

$$\mathbf{x} - \mu * \mathbf{1} = \mathbf{x} - \left( \frac{\mathbf{1}^T \mathbf{x}}{d} \right) * \mathbf{1}$$

Die folgende Visualisierung zeigt diesen Prozess in 3D: Der Eingabevektor x wird auf den uniformen Vektor 1 projiziert (orange). Die Mean-Zentrierung entfernt diese Projektion (grün), die Skalierung normalisiert das Ergebnis (blau).

Was übrig bleibt, steht senkrecht zu 1. Diese Operation ist sinnvoll, wenn entlang dieser Richtung relevante Information stecken würde. Aber steckt dort überhaupt etwas?

Gupta et al. haben in verschiedenen LLMs den Winkel zwischen den Hidden-Vektoren und dem uniformen Vektor gemessen, jeweils vor der Normalisierung. Das Ergebnis: Die Hidden-Vektoren stehen bereits so gut wie orthogonal zum uniformen Vektor. Die Komponente, die LayerNorm entfernt, ist nahezu null.

Das deckt sich mit dem Phänomen der Concentration of Measure. In hochdimensionalen Räumen wie d = 4096 bei Llama stehen zwei beliebige Vektoren fast immer nahezu orthogonal zueinander. Der uniforme Vektor ist aus Sicht des Modells keine besondere Richtung. Er taucht lediglich in der Mathematik der Mean-Berechnung auf. Das Modell organisiert seine Repräsentationen nicht entlang dieser Richtung.

Die Mean-Subtraktion in LayerNorm entfernt also eine Komponente, die kaum vorhanden ist. RMSNorm spart sich diesen Schritt.

6. Praktische Implikationen

RMSNorm hat sich in neueren LLM-Architekturen wie Qwen3 als Standard durchgesetzt. Eine verbreitete Sorge war, dass die fehlende Zentrierung Probleme bei der Quantisierung verursacht, weil Quantisierungs-Algorithmen am präzisesten mit null-zentrierten Verteilungen arbeiten. Gupta et al. (2025) entkräften das: Ihre Messungen zeigen, dass auch RMSNorm-Modelle ihre Repräsentationen von selbst zentriert halten. Das Modell lernt die Zentrierung als Nebeneffekt des Trainings.

Die 7–64% Speedup aus dem Originalpaper von 2019 stammen aus einer Zeit vor fused Kernels – optimierten GPU-Routinen, die mehrere Operationen in einem einzigen Aufruf zusammenfassen. Mit solchen Kernels laufen beide Varianten ähnlich schnell. PyTorchs nn.RMSNorm hatte bis Mitte 2025 keinen fused Kernel und war dadurch sogar langsamer als nn.LayerNorm. Der praktische Vorteil von RMSNorm zeigt sich eher in Inference-Frameworks wie vLLM: Weniger Operationen lassen sich leichter mit Residual-Addition oder Quantisierung in einem einzigen Kernel verschmelzen.

7. Fazit

RMSNorm entfernt die Zentrierung aus LayerNorm. Aktuelle Forschung geht einen Schritt weiter und fragt, ob die Normalisierungs-Schicht selbst nötig ist.

Ein Ansatz ersetzt die Normalisierung durch einfachere Funktionen. Zhu et al. (CVPR 2025) beobachten, dass LayerNorm in trainierten Netzen einer tanh-Kurve ähnelt. Daraus leiten sie Dynamic Tanh (DyT) ab: eine elementweise Funktion mit einem einzigen lernbaren Parameter, ohne Mean oder Varianz. LLaMA-Modelle bis 70B erreichen damit vergleichbare Ergebnisse. Lu et al. (2025) verfeinern die Idee mit einer Variante der Gaußschen Fehlerfunktion (Derf), die DyT in mehreren Domänen schlägt.

Ein anderer Ansatz macht Normalisierung durch Konstruktion überflüssig. Loshchilov et al. (2025) halten mit nGPT alle Gewichte und Embeddings permanent auf Einheitsnorm, sodass der Hidden State gar nicht erst driften kann. RMSNorm und LayerNorm werden komplett entfernt. Das Ergebnis: deutlich weniger Trainings-Tokens für dieselbe Performance. Ob sich diese Ansätze bei produktionsrelevanten Modellgrößen bewähren, bleibt jedoch offen.

Ressourcen

Ba, J.L., Kiros, J.R. und Hinton, G.E. (2016). Layer Normalization. URL: https://arxiv.org/abs/1607.06450

Bjorck, N. et al. (2018). Understanding Batch Normalization. URL: https://arxiv.org/abs/1805.11604

Gupta, A., Ozdemir, A. und Anumanchipalli, G. (2025). Geometric Interpretation of Layer Normalization. URL: https://arxiv.org/abs/2409.12951

Ioffe, S. und Szegedy, C. (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. URL: https://arxiv.org/abs/1502.03167

Loshchilov, I. et al. (2025). nGPT: Normalized Transformer with Representation Learning on the Hypersphere. URL: https://arxiv.org/abs/2410.01131

Lu, T. et al. (2025). Stronger Normalization-Free Transformers. URL: https://arxiv.org/abs/2512.10938

Zhang, B. und Sennrich, R. (2019). Root Mean Square Layer Normalization. URL: https://arxiv.org/abs/1910.07467

Zhu, J. et al. (2025). Transformers without Normalization. URL: https://arxiv.org/abs/2503.10622