7 ESTIMACAO PONTUAL

Dado um experimento \((\theta, X, \mathcal{F})\), um problema de estimação pontual consiste essencialmente em decidir uma estimativa para \(\theta\) basea do numa observação \(x\) da amostra \(X\).

Ou seja, nesse caso, nosso espaço de decisões é o próprio \(\Theta\): cada decisão é um \(\theta\) específico que “chutamos” ser o valor real baseado nas observações.

Para quantificar o quão bom é nossa estimativa, nossa função perda será alguma espécie de erro entre a decisão e o valor real de \(\theta\). As principais funções perda são: - \(L(d,\theta) = (d-\theta )^2\) (perda quadrática) - \(L(d,\theta) = |d - \theta|\) (perda absoluta) - \(L(d,\theta) = \mathbb{I}(d \neq \theta)\) (perda \(0\) ou \(1\), ou perda discreta) e, de forma geral, a perda de uma estimativa pontual costuma ser dada por \[ S(\theta) \cdot \mu(d,\theta) \] onde \(S\) é uma função que codifica alguma preferência, e \(\mu\) é uma Métrica em \(\Theta\).

O estimador de Bayes é a estimativa \(d^*\) que minimiza o risco, ou seja, minimiza a esperança da perda escolhida (qualquer que seja).

Como o estimador de Bayes é simplesmente o valor que minimiza a perda globalmente, não existe nenhuma garantia de que este estimador não é viesado; alias, na maioria das vezes, ele não é.

Observação: se o estimador de Bayes não está contido em \(\Theta\) (por exemplo, se \(\Theta = \mathbb{N}\) e o estimador é fracionário), tomamos o ponto de \(\Theta\) mais próximo do estimador. Se ainda assim há várias opções (e.g. \(d^* = 1.5\) e portanto não sabemos decidir \(d=1\) ou \(d=2\)) então tomamos a estimativa que tem menor perda.

Estimador de Bayes para perdas usuais

Perda quadrática

Se tomamos como função perda a perda quadrática, o estimador de Bayes é a esperança a posteriori de \(\theta\): \[ \delta^*(x) = E[\theta \ | \ x] \]

Demonstração

\[ \begin{gather} L(d,\theta) = (d-\theta)^2 \implies r_x(d) = \int_\Theta (d-\theta)^2\ \text{d}\mathbb{P}(\theta \ | \ x) = \\ d^2 \underbrace{ \int_\Theta \text{d}\mathbb{P}(\theta \ | \ x) }_{ =1 } - 2d \underbrace{ \int_\Theta \theta \ \text{d}\mathbb{P}(\theta \ | \ x) }_{ E[\theta \ | \ x] } + \underbrace{ \int_\Theta \theta^2 \text{d}\mathbb{P}(\theta \ | \ x) }_{ E[\theta^2 \ | \ x] } \end{gather} \] Para minimizar \(r_x\), derivamos em relação a \(d\) e igualamos a zero: \[ \frac{ \partial r_x }{ \partial d } = 2d - 2E[\theta \ | \ x] = 0 \implies d^* = E[\theta \ | \ x] \]

Perda absoluta

Se tomarmos como função perda a perda absoluta, o estimador de Bayes é a mediana de \(\theta\) em sua posteriori: \[ \delta^*(x) = \text{Med} (\theta \ | \ x) \] Lembrando que a mediana de uma função de probabilidade/densidade \(f\) é o valor que \(M\) tal que \[ \int_{-\infty}^{M} f(\theta) \, \text{d}\theta = \int_{M}^{\infty} f(\theta) \, \text{d}\theta = 0.5 \] ou seja, o valor que divide o gráfico em duas partes de áreas iguais.1

Demonstração

Lema: Seja a função de perda \[L(d,\theta) = \begin{cases} c_1(d-\theta) \ \text{ se } \ d\geq\theta \\ c_2(\theta-d) \ \text{ se } \ d < \theta \end{cases}\] com \(c_1, c_2 > 0\). Então, se \(\delta^*\) é o estimador de Bayes, \[\mathbb{P}(\theta \leq \delta^*(X) \ | \ X) = \frac{c_1}{c_1+c_2}\] Demonstração: Seja \(f\) a função de densidade/probabilidade de \(\theta\). Então: \[\begin{gather} \rho(\delta, f) = E[L(\delta, \theta)] = \int_{\Theta} L(\delta, \theta) \ \text{d}f(\theta \ | \ x) = \\ = \int_{-\infty}^{\delta} c_2(\theta - \delta) \ \text{d}f(\theta \ | \ x) + \int_{\delta}^{\infty} c_1(\delta - \theta) \ \text{d}f(\theta \ | \ x) \end{gather} \] Derivando sob o sinal da integral, temos \[ \begin{gather} \frac{ \partial }{ \partial \delta } \int_{-\infty}^{\delta} c_2(\theta - \delta) \ \text{d}f(\theta \ | \ x) = \underbrace{ c_2(\delta - \delta) }_{ =0 } + \int_{-\infty}^{\delta} \frac{ \partial }{ \partial \delta } c_2(\theta - \delta) \ \text{d}f(\theta \ | \ x) \\ = c_2 \int_{-\infty}^{\delta} (-1) \ \text{d}f(\theta \ | \ x) = -c_2 \mathbb{P}(\theta \leq \delta \ | \ x) \end{gather} \]

\[ \begin{gather} \frac{ \partial }{ \partial \delta } \int_{\delta}^{\infty} c_1(\delta - \theta) \ \text{d}f(\theta \ | \ x) = \frac{ \partial }{ \partial \delta }\left[ \int_{-\infty}^{\infty} c_1(\delta - \theta) \ \text{d}f(\theta \ | \ x) - \int_{-\infty}^{\delta} c_1(\delta - \theta) \ \text{d}f(\theta \ | \ x) \right] \\ = \int_{-\infty}^{\infty} \frac{ \partial }{ \partial \delta } c_1(\delta - \theta) \ \text{d}f(\theta \ | \ x) + \frac{ \partial }{ \partial \delta } \int_{-\infty}^{\delta} c_1(\theta - \delta) \ \text{d}f(\theta \ | \ x) \\ = c_1 \underbrace{ \int_{-\infty}^{\infty} \ \text{d}f(\theta \ | \ x) }_{ =1 } - c_1\mathbb{P}(\theta \leq \delta \ | \ x) = c_1 -c_1\mathbb{P}(\theta \leq \delta \ | \ x) \end{gather} \]

Para \(\delta^*\), este risco é mínimo. Ou seja, \[ \begin{gather} \frac{ \partial }{ \partial \delta } \rho(\delta,f) = 0 \implies -c_2 \mathbb{P}(\theta \leq \delta \ | \ x) - c_1 -c_1\mathbb{P}(\theta \leq \delta \ | \ x) = 0 \\ \implies \mathbb{P}(\theta \leq \delta \ | \ x)(c_1 + c_2) = c_1 \implies \mathbb{P}(\theta \leq \delta \ | \ x) = \frac{c_1}{c_1+c_2} \end{gather} \] como desejávamos. \(\blacksquare\)

Demonstração: Nas condições do lema, tome \(c_1 = c_2 = 1\). Assim, \(L(\delta, \theta) = |x-\theta|\) e, portanto, \[ \mathbb{P}(\theta \leq \delta^* \ | \ x) = \frac{1}{1+1} = \frac{1}{2} \] e, portanto, \(\delta^*\) é a mediana da distribuição de \(\theta\).

Perda 0 ou 1

Se tomarmos como função perda a perda \(0\) ou \(1\), o estimador de Bayes é a moda de \(\theta\) em sua posteriori: \[ \delta^*(x) = \text{Moda} (\theta \ | \ x) \] Lembrando que a moda de uma função de probabilidade/densidade \(f\) é um valor \(M\) tal que \[ f(M) = \sup_{\theta \in \Theta} f(\theta) \] ou seja, um ponto de máximo da probabilidade/densidade. Note que esse ponto não necessariamente é único.2

Demonstração

\[r_x(d) = E[L(d, \theta)] = \int_\Theta \mathbb{I}(d \neq\theta) \ \text{d}f(\theta \ | \ x) = E[\mathbb{I}(d\neq\theta) \ | \ x] = 1-E[\mathbb{I}(d = \theta)] = 1-f(d)\] \(r_x\) será mínimo quando \(f(d)\) for máximo, ou seja, \(d^*\) é a moda da distribuição de \(\theta\).


  1. Isso é diferente da mediana amostral, que é o valor que divide a amostra (ordenada) ao meio. Entretanto, conforme a amostra cresce, a mediana amostral tende à mediana da função de probabilidade/densidade da variável.↩︎

  2. Isso é diferente da moda amostral, que é o valor mais frequente da amostra. Entretanto, assim como na mediana, conforme a amostra cresce, a moda amostral tende à moda da função de probabilidade/densidade da variável.↩︎

© 2025 Luã Jaz. Todos os direitos reservados.