Apostila Inferência Bayesiana

Apostila Inferência Bayesiana

(Parte 1 de 9)

Laboratorio de Estatıstica e Geoinformacao Universidade Federal do Parana

Primeira publicacao em 2002

Segunda edicao publicada em 2004 Terceira edicao publicada em 2005 Quarta edicao publicada em 2006 Quinta edicao publicada em 2007 c© RICARDO SANDES EHLERS 2003-2007

Prefacio

O objetivo principal deste texto e oferecer um material didatico basico para um curso introdutorio de Inferencia Bayesiana a nıvel de graduacao. Ele pode ser adotado em cursos de Bacharelado em Estatıstica bem como em outros cursos de graduacao e de pos-graduacao aonde os alunos tenham conhecimentos basicos de probabilidade e calculo. Algum conhecimento sobre estimacao de maxima verossimilhanca tambem e util porem nao essencial.

O texto se originou de notas de aulas da disciplina de Inferencia Bayesiana ministrada no programa de Bacharelado em Estatıstica da Universidade Federal do Parana.

A ideia e apresentar o enfoque Bayesiano como alternativa a abordagem classica estabelecendo algumas comparacoes inevitaveis. O texto nao se propoe a ser exaustivo nem deve ser visto como um livro de receitas com solucoes Bayesianas para problemas de analise de dados.

O manuscrito foi preparado usando o LATEX e todas as ilustracoes foram produzidas no pacote estatıstico R (gratuito e de codigo aberto) que pode ser obtido em http://www.r-project.org/

Em varios exemplos sao fornecidos tambem os comandos do R que foram utilizados e mostradas as saıdas resultantes de modo que o leitor e encorajado a reproduzi-los.

Este texto certamente nao esta livre de erros, e comentarios e sugestoes dos leitores sao bem vindos. Citar este texto como:

http://leg.ufpr.br/~ ehlers/bayes. Acesso em:

Ehlers, R.S. (2007) Introducao a Inferencia Bayesiana. Disponıvel em

Ricardo S. Ehlers Curitiba, novembro de 2007.

Sumario

1.1 Teorema de Bayes1
1.2 Princıpio da Verossimilhanca8
1.3 Exercıcios9

1 Introducao 1

2.1 Prioris Conjugadas1
2.2 Conjugacao na Famılia Exponencial12
2.3 Principais Famılias Conjugadas16
2.3.1 Distribuicao normal com variancia conhecida16
2.3.2 Distribuicao de Poisson17
2.3.3 Distribuicao multinomial18
cida18
2.3.5 Distribuicao normal com media e variancia desconhecidos19
2.4 Priori nao Informativa21
2.5 Prioris Hierarquicas24
2.6 Problemas26

2 Distribuicoes a Priori 1 2.3.4 Distribuicao normal com media conhecida e variancia desconhe-

3.1 Introducao a Teoria da Decisao29
3.2 Estimadores de Bayes30
3.3 Estimacao por Intervalos32
3.4 Estimacao no Modelo Normal3
3.4.1 Variancia Conhecida3
3.4.2 Media e Variancia desconhecidas34
3.4.3 O Caso de duas Amostras35
3.4.4 Variancias desiguais38
3.5 Exercıcios39
4.1 Uma Palavra de Cautela40
4.2 O Problema Geral da Inferencia Bayesiana41
4.3 Metodo de Monte Carlo Simples41

4 Computacao Bayesiana 40 i

4.3.1 Monte Carlo via Funcao de Importancia45
4.4 Metodos de Reamostragem47
4.4.1 Metodo de Rejeicao47
4.4.2 Reamostragem Ponderada48
4.5 Monte Carlo via cadeias de Markov50
4.5.1 Cadeias de Markov50
4.5.2 Acuracia Numerica51
4.5.3 Algoritmo de Metropolis-Hastings52
4.5.4 Casos Especiais5
4.5.5 Amostrador de Gibbs58
4.6 Problemas de Dimensao Variavel61
4.6.1 MCMC com Saltos Reversıveis (RJMCMC)62
4.7 Topicos Relacionados6
4.7.1 Autocorrelacao Amostral6
4.7.2 Monitorando a Convergencia67

SUMARIO i

A.1 Distribuicao Normal68
A.2 Distribuicao Gama68
A.3 Distribuicao Wishart69
A.4 Distribuicao Gama Inversa69
A.5 Distribuicao Wishart Invertida69
A.6 Distribuicao Beta69
A.7 Distribuicao de Dirichlet70
A.8 Distribuicao t de Student70
A.9 Distribuicao F de Fisher70
A.10 Distribuicao Binomial71
A.1 Distribuicao Multinomial71
A.12 Distribuicao de Poisson71
A.13 Distribuicao Binomial Negativa71

A Lista de Distribuicoes 68

B Alguns Enderecos Interessantes 73 References 75

Capıtulo 1 Introducao

A informacao que se tem sobre uma quantidade de interesse θ e fundamental na Estatıstica. O verdadeiro valor de θ e desconhecido e a ideia e tentar reduzir este desconhecimento. Alem disso, a intensidade da incerteza a respeito de θ pode assumir diferentes graus. Do ponto de vista Bayesiano, estes diferentes graus de incerteza sao representados atraves de modelos probabilısticos para θ. Neste contexto, e natural que diferentes pesquisadores possam ter diferentes graus de incerteza sobre θ (especificando modelos distintos). Sendo assim, nao existe nenhuma distincao entre quantidades observaveis e os parametros de um modelo estatıstico, todos sao considerados quantidades aleatorias.

1.1 Teorema de Bayes

Considere uma quantidade de interesse desconhecida θ (tipicamente nao observavel). A informacao de que dispomos sobre θ, resumida probabilisticamente atraves de p(θ), pode ser aumentada observando-se uma quantidade aleatoria X relacionada com θ. A distribuicao amostral p(x|θ) define esta relacao. A ideia de que apos observar X = x a quantidade de informacao sobre θ aumenta e bastante intuitiva e o teorema de Bayes e a regra de atualizacao utilizada para quantificar este aumento de informacao,

Note que 1/p(x), que nao depende de θ, funciona como uma constante normalizadora de p(θ|x).

Para um valor fixo de x, a funcao l(θ;x) = p(x|θ) fornece a plausibilidade ou verossimilhanca de cada um dos possıveis valores de θ enquanto p(θ) e chamada distribuicao a priori de θ. Estas duas fontes de informacao, priori e verossimilhanca, sao combinadas levando a distribuicao a posteriori de θ, p(θ|x). Assim, a forma usual do teorema de Bayes e

2 CAPITULO 1. INTRODUC AO

Em palavras temos que distribuicao a posteriori ∝ verossimilhanca × distribuicao a priori.

Note que, ao omitir o termo p(x), a igualdade em (1.1) foi substituıda por uma proporcionalidade. Esta forma simplificada do teorema de Bayes sera util em problemas que envolvam estimacao de parametros ja que o denominador e apenas uma constante normalizadora. Em outras situacoes, como selecao de modelos, este termo tem um papel crucial.

E intuitivo tambem que a probabilidade a posteriori de um particular conjunto de valores de θ sera pequena se p(θ) ou l(θ;x) for pequena para este conjunto. Em particular, se atribuirmos probabilidade a priori igual a zero para um conjunto de valores de θ entao a probabilidade a posteriori sera zero qualquer que seja a amostra observada.

A constante normalizadora da posteriori pode ser facilmente recuperada pois p(θ|x) = kp(x|θ)p(θ) onde

chamada distribuicao preditiva. Esta e a distribuicao esperada para a observacao x dado θ. Assim,

• Antes de observar X podemos checar a adequacao da priori fazendo predicoes via p(x).

• Se X observado recebia pouca probabilidade preditiva entao o modelo deve ser questionado.

Em muitas aplicacoes (e.g. series temporais e geoestatıstica) o maior interesse e na previsao do processo em pontos nao observados do tempo ou espaco. Suponha entao que, apos observar X = x, estamos interessados na previsao de uma quantidade Y , tambem relacionada com θ, e descrita probabilisticamente por p(y|x,θ). A distribuicao preditiva de Y dado x e obtida por integracao como

Em muitos problemas estatısticos a hipotese de independencia condicional entre X e Y dado θ esta presente e a distribuicao preditiva fica

Note no entanto que esta nao e uma hipotese razoavel para dados espacialmente distribuidos aonde estamos admitindo que exista alguma estrutura de correlacao no espaco. De qualquer modo, em muitas aplicacoes praticas a integral em (1.3) nao tem solucao analıtica e precisara ser obtida por algum metodo de aproximacao.

1.1. TEOREMA DE BAYES 3

Note tambem que as previsoes sao sempre verificaveis uma vez que Y e uma quantidade observavel. Finalmente, segue da ultima equacao que

Fica claro tambem que os conceitos de priori e posteriori sao relativos aquela observacao que esta sendo considerada no momento. Assim, p(θ|x) e a posteriori de θ em relacao a X (que ja foi observado) mas e a priori de θ em relacao a Y (que nao foi observado ainda). Apos observar Y = y uma nova posteriori (relativa a X = x e Y = y) e obtida aplicando-se novamente o teorema de Bayes. Mas sera que esta posteriori final depende da ordem em que as observacoes x e y foram processadas?

Observando-se as quantidades x1,x2,· ,xn, independentes dado θ e relacionadas a θ atraves de pi(xi|θ) segue que

Ou seja, a ordem em que as observacoes sao processadas pelo teorema de Bayes e irrelevante. Na verdade, elas podem ate ser processadas em subgrupos.

Exemplo 1.1: (Gamerman e Migon, 1993) Um medico, ao examinar uma pessoa, “desconfia” que ela possa ter uma certa doenca. Baseado na sua experiencia, no seu conhecimento sobre esta doenca e nas informacoes dadas pelo paciente ele assume que a probabilidade do paciente ter a doenca e 0,7. Aqui a quantidade de interesse desconhecida e o indicador de doenca

{ 1, se o paciente tem a doenca

0, se o paciente nao tem a doenca.

Para aumentar sua quantidade de informacao sobre a doenca o medico aplica um teste X relacionado com θ atraves da distribuicao e o resultado do teste foi positivo (X = 1).

E bem intuitivo que a probabilidade de doenca deve ter aumentado apos este resultado e a questao aqui e quantificar este aumento. Usando o teorema de Bayes segue que

4 CAPITULO 1. INTRODUC AO

a constante normalizadora e obtida fazendo-se k(0,665) + k(0,120) = 1 e entao k = 1/0,785. Portanto, a distribuicao a posteriori de θ e

O aumento na probabilidade de doenca nao foi muito grande porque a verossimilhanca l(θ = 0;X = 1) tambem era grande (o modelo atribuia uma plausibilidade grande para θ = 0 mesmo quando X = 1).

Agora o medico aplica outro teste Y cujo resultado esta relacionado a θ atraves da seguinte distribuicao

(Parte 1 de 9)

Comentários