Seja \(T: \mathcal{X} \to \mathbb{R}^p\) uma estatística sobre um conjunto de Variáveis aleatórias \(X = \{X_{1}, \dots, X_{n}\}\) assumindo valores em \(\mathcal{X}\), o espaço amostral. Dizemos que essa estatística é suficiente para \(\theta\) se \[ f(\theta\ |\ x) = f(\theta\ |\ T(x)), \forall\ x \in \mathcal{X} \] Ou seja, intuitivamente, isso significa que \(T(x)\) carrega toda a informação relevante que a observação \(x\) carrega.
O Teorema da Fatorização afirma que, se \(T(x)\) é uma estatística suficiente para \(X\), então é possível decompor a distribuição de \(\theta\) no produto de uma função \(u\) de \(x\) e uma função \(v\) de \(T(x)\) e \(\theta\): \[ f(\theta\ |\ x) = u(x) \cdot v(T(x), \theta) \]