6 DECISAO DE BAYES

Dado um problema de decisão \((\Theta, \mathcal{D}, L, \mathbb{P})\), podemos definir o risco de uma decisão \(d\) como a esperança da perda dada essa decisão: \[ \rho(d, \mathbb{P}) = E_{\theta}[L(d, \theta)] = \int_{\Theta} L(d,\theta) \, \text{d}\mathbb{P}(\theta) \] A decisão de Bayes é aquela que minimiza \(\rho\), ou seja, a decisão que causa a menor perda média. Ou seja, \(d^*\) é a decisão de Bayes se \[ \rho(d^*, \mathbb{P}) = \inf_{d \in \mathcal{D}} \rho(d, \mathbb{P}) \] Essa é, em geral, a decisão mais apropriada para problemas de perda.

Decisões com dados

Suponha que realizamos uma observação \(x\) de uma amostra \(X\) que trás alguma informação sobre \(\theta\). Neste caso, gostariamos de incorporar esta observação em nossa decisão.

Forma normal

A forma normal de se obter a decisão de Bayes levando dados em consideração consiste em analisar todas as formas de se associar uma decisão a uma observação, obter o risco de todas as associações possíveis e optar pela decisão que a associação de menor risco sugere para nossa observação.

Para isso, iremos associar cada observação possível \(x\) no espaço amostral \(\mathcal{X}\) a uma decisão \(d_x\) no espaço de decisões \(\mathcal{D}\) através de uma função de decisão: \[ \delta:\begin{align} \mathcal{X} \longrightarrow& \mathcal{D} \\ x \longmapsto & d_x \end{align} \] Ou seja, para cada observação diferente, decidimos algo diferente. É claro que é possível \(d_x = d_y\) para \(x\neq y \in \mathcal{X}\).

Chamamos de espaço das funções de decisão o conjunto \(\Delta = \{ \delta: \mathcal{X} \longrightarrow \mathcal{D} \}\).

Para cada \(\delta \in \Delta\), o risco associado a esta função é \[ \rho(\delta,\mathbb{P}) = E[L(\delta(x),\theta)] = \int_{\Theta} \int_{\mathcal{X}} L(\delta(x),\theta) \ \text{d}\mathbb{P}(x , \theta) \] A função de decisão de Bayes é a função \(\delta^* \in \Delta\) tal que \[ \rho(\delta^*,\mathbb{P}) = \inf \rho(\delta,\mathbb{P}) \] ou seja, é a função de decisão que minimiza o risco, i.e., a esperança em \(x\) e em \(\theta\) da perda.

Existem duas formas de se obter a função decisão de Bayes.

Por exemplo, se temos duas decisões \(d_0\) e \(d_1\) e uma observação \(x\) no espaço amostral \(\mathcal{X} = \{ 0,1 \}\), há quatro funções de decisão possíveis: \[ \delta_1(x) = \begin{cases} d_0 \ \text{ se } \ x=1 \\ d_1 \ \text{ se } \ x=0 \end{cases} \] \[ \delta_2(x) = \begin{cases} d_1 \ \text{ se } \ x=1 \\ d_0 \ \text{ se } \ x=0 \end{cases} \] \[ \delta_1(x) = \begin{cases} d_0 \ \text{ se } \ x=1 \\ d_0 \ \text{ se } \ x=0 \end{cases} \] \[ \delta_1(x) = \begin{cases} d_1 \ \text{ se } \ x=1 \\ d_1 \ \text{ se } \ x=0 \end{cases} \] Dada uma função de perda \(L(d,\theta)\), uma priori \(f(\theta)\) e uma distribuição \(f(x \ | \ \theta)\), podemos calcular o risco de cada uma dessas funções decisão. A função decisão de Bayes é a que tiver menor risco.

Esta forma é um tanto quanto ingênua e apresenta dois principais problemas: 1. É extremamente trabalhosa, necessitanto muitos cálculos até para este caso, que é o mais simples possível; 2. Torna-se muito complicada ou impossível para casos em que há decisões infinitas.1

Forma extensiva

A forma extensiva de se obter a decisão de Bayes levando dados em consideração consiste em obter o risco a posteriori, que é simplesmente o risco calculado a partir da distribuição a posteriori \(f(\theta \ | \ x)\) obtida com o Teorema de Bayes, levando em conta nossa observação \(x\). ^1a14a2

Ou seja, obtemos a quantidade \[ r_x(d) = E[L(d,\theta) \ | \ x] = \int_\Theta L(d,\theta)\ \text{d}\mathbb{P}(\theta \ | \ x) \] que representa a perda esperada da decisão \(d\) pesada pela distribuição a posteriori de \(\theta\).

Dessa maneira, a decisão de Bayes será a \(d^*_x\) que minimiza o risco a posteriori: \[ r_x(d_x^*) = \inf_{d\in \mathcal{D}} r_x(d) \]

É possível provar que \(r_x(d_x^*) = \rho(\delta^*(x), \mathbb{P})\), ou seja, que o risco a posteriori da decisão obtida pela forma extensiva é igual ao risco da função de decisão obtida pela forma normal. Ou seja, no fim das contas o risco é igual, mas a forma extensiva é muito mais fácil de ser utilizada.

Caso com observações custosas

Pode ser interessante em casos de decisões com dados levar em conta um certo custo para cada observação. De fato, na prática existe um limite para o número de observações que podemos fazer e, uma vez que poucas observações resultam em estimativas piores e muitas resultam em custos muito altos, é razoável que exista um número ideal de observações que pode ser decidido a priori.

Para isso, introduzimos uma função custo para o número de observações \(c(n)\). No caso mais simples essa função será linear (i.e., toda observação tem o mesmo custo), mas em geral isso não corresponde com a realidade, pois o custo médio por observação costuma cair conforme o número aumenta. Ou seja, é mais razoável que \(c(n)\) tenha caráter logarítimico.

Neste caso, sendo \(L(\delta, \theta)\) a função de perda associada ao problema, construímos uma nova função de perda \[ L_c(d, \theta, n) = L(d, \theta) + c(n) \] Como o cálculo do número ótimo \(n^*\) de observações deve ser feito a priori, devemos usar a forma normal. Neste caso, sendo \(\delta\) uma função de decisão arbitrária: \[ \begin{gather} \rho_n(\delta, \mathbb{P}) = E_{\theta,x} [L_c(\delta(x), \theta, n)] \\ = E_{\theta,x} [L(\delta(x), \theta)] + E_{\theta, x}[c(n)] = \rho(\delta, \mathbb{P}) + c(n) \end{gather} \] Em geral \(\rho(\delta, \mathbb{P})\) será uma função decrescente de \(n\), pois quanto mais observações, mais informação temos e, portanto, menor o risco.

Em contrapartida, \(c(n)\) em geral é crescente com \(n\), pois mais observações significa maior custo total.

Ou seja, \(\rho_n(\delta,\mathbb{P})\) deve ser inicialmente decrescente, e então crescente, o que significa que \(n^*\) será ponto de mínimo local. Ou seja, temos \[ \frac{ \partial }{ \partial n } \rho_{n^*}(\delta, \mathbb{P}) = \frac{ \partial }{ \partial n } \rho(\delta, \mathbb{P}) + \frac{ \partial }{ \partial n }c(n^*) = 0 \]


  1. Note que não é nem necessário que \(X\) seja uma variável contínua, basta que ela assuma valores ilimitados (i.e. uma distribuição de Poisson).↩︎

© 2025 Luã Jaz. Todos os direitos reservados.