Suponha uma situação na qual queremos fazer uma decisão com base em um estado de natureza \(\theta\) com distribuição (priori) \(\mathbb{P}(\theta)\). Por exemplo, uma situação em que queremos decidir se levamos ou não um guarda-chuva, dependendo na ocorrência de chuva \(\theta\).
Neste caso, definimos um conjunto de decisões \(d_{i}\) a serem tomadas. No exemplo, podemos ter \(d_{1} = \text{``levar guarda-chuva''}\) e \(d_{2} = \text{``não levar guarda-chuva''}\). O conjunto de todas as decisões que podemos tomar é denotado espaço de decisões \(\mathcal{D}\).
Neste caso, podemos definir uma função que codifica o quanto nos desagrada cada um dos pares \((d, \theta)\) de uma decisão tomada no contexto de um estado da natureza \(\theta\). Esta função é denominada função de perda \(L: \mathcal{D} \times \Theta \to \mathbb{R}\). Nosso objetivo então se torna tomar a decisão \(d^*\) que minimiza \(L\). 1
O conjunto \((\Theta, \mathcal{D}, L, \mathbb{P})\) é chamado problema de decisão.
No exemplo em questão, podemos atribuir:
\(L(d,U)\) | \(\text{chove}\) | \(\text{não chove}\) | |
---|---|---|---|
\(\text{leva}\) | \(1\) | \(2\) | |
\(\text{não leva}\) | \(5\) | \(0\) |
Uma forma conservadora de decisão possível é simplesmente escolher a decisão que acarreta na menor perda entre os piores casos. Ou seja, a decisão tomada é a \(d^*\) tal que \[ \max_{\theta \in \Theta}L(d^*, \theta) = \min_{d \in \mathcal{D}} \max_{\theta \in\Theta} L(d, \theta) \] No nosso exemplo, os piores casos de cada estado são \(5\) (não levar quando chove) e \(2\) (levar quando não chove). Como \(2<5\), optamos por levar o guarda chuva, i.e., \(d^* = d_{1}\).
Podemos também optar pela decisão \(d^*\) que minimiza a esperança da perda, chamada de risco da decisão. Desta forma, teremos a menor perda em média.
Suponha que realizamos um teste de hipóteses e decidimos \(d_1\) caso a verossimilhança \(\Lambda\) do teste seja maior que um limite \(L\) e \(d_2\) caso seja menor. Sendo assim, se obtermos \(\Lambda = L\), não teremos informação conclusiva para realizar uma decisão.
Um exemplo prático mais simples seria ver que a previsão de chuva é de 50% de chance e, como não há informação para se decidir levar ou não levar um guarda-chuva, jogar uma moeda para decidir.
Em um caso como esse, uma possibilidade é definir probabilidades \(q_i\) para cada decisão \(d_i\) e decidir conforme uma amostragem uniforme.2
No nosso exemplo isso é como dizer que a moeda poderia ser feita injusta para tornar mais provável uma decisão mais prudente, como levar o guarda-chuva no caso de dúvida.
Note que tecnicamente a decisão não-aleatorizada \(d_n\) especificamente é um caso particular da decisão aleatorizada, em que \[ q_i = \begin{cases} 1 \ \text{ se } \ i =n \\ 0 \ \text{ se } \ i \neq n \end{cases} \]
Decisões aleatorizadas são consideradas desnecessárias na inferência bayesiana, pois a decisão de Bayes sempre apresentará risco menor ou igual. Na inferência frequentista, há casos em que a decisão aleatorizada se faz necessária.
No exemplo do guarda-chuva isso é bastante claro. Jogar uma moeda sempre terá um risco maior do que decidir pelo o que nos desagrada menos em média, a não ser quando as probabilidades são proporcionais às perdas, onde será igual.
Note que podemos formular algo exatamente igual com uma função que codifica o quanto cada desfecho nos agrada. Neste caso termos uma função utilidade \(U = -L\) e nosso objetivo passa a ser maximizar a utilidade.↩︎
Note que as probabilidades \(q_i\) não podem depender de \(\theta\). Uma decisão em que essas probabilidades dependem da distribuição de \(\theta\) não é aleatorizada.↩︎