Suponha que, através da amostragem de um experimento, pretendemos construir uma opinião em relação a uma quantidade não-observável e desconhecida \(\theta\), que diz algo sobre a natureza da população/evento de maneira embasada pela informação sobre \(\theta\) que a observação do experimento trás. Neste caso, denotamos: - \(\theta\) : A quantidade (ou vetor) não-observável sobre a qual desejamos opinar, chamada parâmetro. - \(\Theta\) : O conjunto de todos os parâmetros \(\theta\) possíveis, chamado espaço paramétrico. Esse conjunto é suposto conhecido. - \(X\) : um vetor aleatório observável. - \(X = x\) : o valor observado de \(X\) após a realização do experimento, cuja distribuição é conhecida e depende de \(\theta\). - \(\mathcal{X}\) : O conjunto de todos os valores que \(X\) pode assumir, chamado espaço amostral. ^778686 - \(f(x\ | \ \theta)\) : A função de distribuição de probabilidade de \(X\) dado o parâmetro \(\theta\). - \(\mathcal{F} = \{ f(x \ | \ \theta): \theta \in \Theta \}\): A família de todas as distribuições possíveis para \(X\), variando sobre os parâmetros \(\theta\). - \(f(\theta)\): Uma opinião inicial sobre a distribuião de probabilidade de \(\theta\), chamada distribuição a priori. A estrutura \((\theta, X, \mathcal{F})\) é chamada experimento.
O Teorema de Bayes, que é uma adaptação direta da Fórmula de Bayes, que por sua vez segue diretamente da definição de probabilidade condicional, é a regra responsável pela atualização da opinião a priori sobre \(\theta\) afim de levar em conta de forma objetiva e não-ambígua uma observação \(x\) (em geral dependente de \(\theta\)) do experimento realizado.
Ele constata que a distribuição a posteriori de \(\theta\), ou seja, a atualização da priori através da observação \(x\), é dada por \[ f(\theta | x) = \frac{f(\theta) \cdot f(x| \theta)}{\int_{\Theta}f(x|\theta)\ \text{d}\mathbb{P}(\theta)} \] Onde o denominador é uma integral de Lebegue, que no caso discreto é dada por \[ \sum_{x \in \mathcal{X} } f(\theta) \cdot f(x|\theta) \] e no caso contínuo é dada por \[ \int_{\Theta} f(\theta) \cdot f(x\ |\ \theta)\ \text{d}\theta \]
Note que o denominador é constante em relação a \(\theta\) e existe apenas para normalizar a distribuição a posteriori. Ou seja, todos os cálculos podem ser feitos através de proporcionalidade com o numerdador e, finalmente, a distribuição a posteriori final pode ser normalizada. 1
Em geral, o processo de inferência bayesiana se dá por: 1. Obtemos uma priori \(f(\theta)\), que pode ser não-informativa, ou pode refletir nossa opinião ou a opinião de um especialista. 2. Fazemos uma observação do experimento, que se traduz em uma sequencia de variáveis aleatórias permutáveis \(X_{1}, \dots, X_{n}\). 3. Pelo Teorema de Bayes, obtemos uma distribuição a posteriori para \(\theta\), que representa nossa opinião embasada sobre \(\theta\).
Uma distribuição não normalizada é chamada de potencial do parâmetro. Para alguns propósitos (por exemplo, amostragens computacionais), a potencial é suficiente, o que significa que não precisamos integrar essa função potencialmente complicada.↩︎