207876460-Livro-Nocoes-de-Probabilidade-e-Estatistica-Magalhaes-parte-1 (1)

207876460-Livro-Nocoes-de-Probabilidade-e-Estatistica-Magalhaes-parte-1 (1)

(Parte 1 de 10)

I )t,: l'Rr lttAtìn,n)AI)E Ís'l'rt rA rrItr'trlo Mlrgalhães lur l't'rlt'rlsrl <lc [,ima l,lsllr olrr ir ('llnlir irrlrorlrtr.iru;t [tlolrrrlrilirlirtlc c rt l,ìstlrtíslit it, It'ttrlrr si<[o llirlrot'ir<[l ;rirtir irlrrtros rlrrs r'rrcirs <k' < iôn< iirs lriolrigi< lrs, ('xlrlirs (' hrrmanas. Ao corrtliilio rlt' orr(rrrs textos e lcrlc'Ìì1iìr'('s, os ttilli<'os <lc Estatística l)escritivir rriro Íìlrarrr apresentados enì urìì Írnit o capítìrlo: procurou-se i n trodrrzir csses conceil os em paralelo corn outros tópicos mais teóricos no decorrer do livro. Desse modo,.buscou-se desenvolver ó texto de forma similar ao uso prático da Estatística, quando normalmente um

conjunto de dados é explorado descritivamente antes da modelagem e aplicação de técnicas estatísticas. Não foi explicitado o uso de nenhum software em particular, uma vez que se procuroÌÌ enfatrzar as idéias envolvidas e não a habilidade computacional.

Não obstante, vários exercícios - apresentados ao {im de cada seção e em uma seçào específica ao final de cada capítulo - assumem o uso de computadores para sua resolução e alguns conjuntos de dados mais extensos são disponibilizados na internet, o que estimula o leitor 4 utilizar um programa computacional com o qual tenha famiÌiariclade panì ar rxíl io ttits t'csoltr'ç<-rcs.

tÌrpyrlglrt O hy Mulcos Nascinrcnlo Magalhãcs c Arrtonio Carlos l)ctltoso clc Lima l" r'rliçÍo 1999 (lMli-tJSP) J'' r'rlt1'rlo 2(X) ( lMll-l.JSl') .1" crliçlio 2(X) I (lMli-tJSP) ,1" crliçrìo 2(X)2 (lJclusp) .1" crliçrìo 2{X}2 (Ddusp) (rn ctliçlìo 2(X)4 (liclusp) l )utkrs lnlct nacionais dc Catalogação na Publicaçào (CIP) (('iìnrala Ilrasileira do Livro, SP, Brasil)

Mttgrt lhilt's, Mitt cos Nascinrento Nuçiics rlc I'robabilidade c Estatística / Marcos Nascimento

Mngllhitcs, Ânlonio Carlos Pcclroso cle Liml - ó ed. -

São Paulo:

Jltlilurl tlu IJrtive lsichclc de São Paulo, 2004. - (Acadêmica; 40) lllhliogr';r li,rt tstìN tì5-3 4-0ó77-3

L listltísticl - llstuclo e Ensino 2. Matemática -

Estudo e lirrsirur 3. lÌoltabiliclaclcs - Estudo e Ensino I. Título IL Série.

tì,1 0.171cDD-5 t 9.507 índicos para catálogo sistemático:

l, l1\lirlíslicl: Matcnriitica: Estudo e Ensino 519.507

2, lÌolrlhilitlrtilcs c Estatística: Maternática: lisluclo c Errsino 519.507

I)l'clns lcsclvltlos à lklusp lulitrtrt tll [Jnivclsidade de São Paulo

Av, lÌrrl, l,rrciarto Gualbclto, Tlavcssa J,374(Í'untlll lltl. rll Ântiga lìeitoria - Cidade Universitária

0550tl U{X) .- Siìo l'uulo - SP - Brasil

I)ivisalo (lrrucrcial: tcl. (Oxxl l) 3091-4008 / 3091-4150

SA(l (0xxl l) 3091-291 I - Fax (Oxxll) 3091-4151 w,rrsp,lrr'/ctlusqr - c-mail: edusp@edu.usp.br lrrslilulo rlc Mllcntítica c Estatística - IME-USP

Ituil rkr Millikr, l0l0 - Cidadc Universitária

0-5()t1"9(X) - S;io I'aulo - SP -

Brasil

Coutro dç Ciêaerap Ldarcai{h a do ì*hrreln

Iiibirotecl l.. í:;,gilí''rs

0\Íú/0s4658108 cr|sEra l)cplrlnnlcnt(ì tlc listatística - Tel. (Oxxl l) 3091-6129 / 3091-6130

('uixil lÌrslIl (r(),2tÌI - 05315-970 rvww, irrx',rrsgr,lrr'/*ttoproest - c-mail: noproest@ime.usp.br lÌ irt('(l iil llril/il l(X)4 lroi leito o rlt'1tr1silo lcgal

Prefácio da 6s edição

Bste texto é fruto da nossa experiência de vários anos como professores clÕ

Departamento de Estatística do Instituto de Matentática e Estatística eln Unìversidade de São Paulo. Nesse período, foram ministradas diversas disciplinns lrírsicas de Estatística para cursos nas áreas de Ciências Humanas, Exatns e

Biológicas. Buscamos enfatizar dois aspectos neste livro. O primeiro se refere $ rcpartir a Estatística Descritiva ao longo do texto, suavizando, assim, a transiçilo pariÌ Probabilidade e Variáveis Aleatórias. Em geral, os alunos sentem o impacto

<le uma maior formalizaçáo e, muitas vezes, não conseguem estabelecer o elo clc ligação entre essas partes. Um segundo interesse é transmitir a importância dn colrputação na Estatística. Não atrelamos o texto a nenhum softvvare especíÍ:ico, permitindo que o conhecimento computacional anterior dos estudantes pudesse ser incorporado, minimizando o desgaste de um novo aprendizado. Ressaltamos qUe vários software disponíveis no mercado podem ser utilizados. Os arquivos mencionados no decorrer do livro estão disponíveis em w.ime.usp.br/-noproest juntamente com outras informações de interesse'

O livro contém exercícios ao final de seções e capítulos. Os exercícios de seção são mais diretos e visam a aplicação imediata dos conceitos discutidos. Ao fim de cada capítulo, um considerável número de exercícios ajuda os estudante$ nll fixação global das idéias apresentadas. Também são propostos exercícios ptlrn serem desenvolvidos com a ajuda do computador. O principal objetivo desses exercícios, é enfatizar as idéias estatísticas envolvidas e não a habilidncle computacional. No Apêndice'8, "apresentamos as soluções comentadas dos exercícios de séção e fornecemôs as respostas para os exercícios ímpares de fim de capítulo. Em relação à edição anterior, a sextâ edição apresenta pequenfls rnodificações. Uma das figuras do Capítulo 7 foi mudadapara o Capítulo 6, locnl que nos pareceu mais apropriado. Foram acrescentados exercícios em alguns capítulos. Os erros em respostas, identificados até então, foram corrigidos, Pequenas alterações de redação também foram feitas. As mudanças, em relaçãO tì quinta edição, estão listadas no endereço Internet mencionado acima. Ao longo das várias edigões, diversos colegas contribuiram com sugestões,

Entre eles destacamos Adilson Simonis, Cláudia Monteiro Peixoto, Clélia Tsloi,

Denise Botter, Elisabeti Kira, Elisete da Conceição Q. Aubin, Julio da Mottt Singer, Lighia B. Horodynski-Matsushigue, Lúcia P. Barroso, Marli Mikael, Nelson Tanaka, Rinaldo Artes e Silvia Ferrari. Maria Cecília Camargo MagalhÍies vrt vlu Prefácio colnborou na revisão final da redação. A estudante Tatyana Maya Okano auxiliou n COrreção das respostas de vários exercícios. Apontamos, ainda, o recebimento CJc vírrias mensagens eletrônicas com comentários e/ou sugestões. A todos que Colnboraram, o nosso sincero muito obrigado. Agradecemos, ainda, aos alunos de vÍlrias unidades da USP, que apontaram erros e deram sugestões. Finalmente, gostaríamos de agradecer a Luís Ricardo Câmara, da ADUSP- Associação dos

Docentes da USP, pela diagramação das tabelas e auxílio na arte final de algumas dns figuras apresentadas no texto. Pedimos, desde já, desculpas pelos erros que serão eventualmente identificados nesta nova edição. As críticas e sugestões de colegas e estudantes gcrão muito bem-vindas e, certamente, auxiliarão na rnelhoria da próxima versão.

São Paulo, janeiro de2004

Marcos N. Magalhães e Antonio Carlos P. Lima (marcos @ime.usp.br) acarlos@ime.usp.br

Conteúdo ì

t"r

Conteúdo

Lista de Defïnições

Probabilidade,........ .................... 38
Probabilidade condicional,,,42
Independência de eventos,4
Partição do espaço amostral46
Função discreta de probabilidade
Função de distribuição de probabilidade63
Modelo Uniforme Discreto;.......... ..............68
Modelo Bernoulli70
Modelo Binomial72
Modelo Geométrico78
Modelo Poisson,,,,,,79
Modelo Hipergeométrico,82
Medidas de posição para um conjunto de dados,..,......,,94
Medidas de posição para variáveis aleatórias discretas98
Amplitude de uma variável em um conjunto de dados,.. 103
Variância e desvio-padrão em um conjunto de dados104
Variância de uma variável aleatória discreta109
Função de probabilidade conjunta,..128
Probabi lidade condicional para variáveis aleatórias discretas137
Independência de variáveis aleatórias,... 137
Correlação entre variáveis num conjunto de dados brutos,.......,. l4l
Covariância de duas variáveis aleatórias,147

Correlaçiro entre variáveis aleatórias ................. ................,.149

Função densidade de probabilidade168
Medidas de posição paravariâveis aleatórias contínuasI73
Variância paravariâveis aleatórias contínuas1,73
Modelo Uniforme Contínuo177
Modelo Exponencial180
Estimador e estimativa208
Vício213
Consistência213
Eficiência216

xuLista de Definições Modelo Normal Parâmetro

Lista de Figuras

Classificação de variáveis'..'....... ........"'."",.,', d
Exemplos de gráficos publicados na imprensa ..:'"""""" l2 '
DiagramacircularparaavariávelToler'.'. .'.....'..""""""13
Gráfico de barras paÍa avariável Idade'.. ......."""':"""" 14
Histograma paraavariável Peso .'.''. .'..'.......'.15
Box-plot para o número de laranjas por caixa'........""""" 18
Box-plot para a variável Peso ''... ....'.....".'.....18
Box-plotda variável Peso para cada sexo .'.''."...'..'........ 19
Regra de adição de probabilidades .''.,'..' 39
Regra do produto de probabilidades .'',,,,43
Árvore de probabilidades'.. ,...,.,45
Partição do espaço amostral (k : 6) .',""""" 46
Árvore de probabilidades - alterações no subsolo'.,..60
Função de distribuição - doses de vacina65
Modelo Uniforme Discreto [0, 10] .'...'...',..,69
Gráfico de freqüências - natalidade em porcos .'."...'..'75
Modelo Poisson (À : 5) ""'.80
Independência de variáveis aleatórias ''.".."137
Valor esperado da soma de variáveis aleatórias ..'.'.'.':"'"'.......'....'. 145
Correlação para conjuntos de dados (brutos) .'.'.''.". '.'....151
Covariância e correlação de variáveis aleatórias ..'l5l

População e amostra Modelo Geométrico (P: 0,0t) ..'.'7g Valor esperado do produto e independôncia de variáveis aleatórias ..,..146 xtu rlv I'islu ilct liigrtnts

5,6 Variância da soma de duas variáveis aleatórias """"""""" 151 6,1 Densidade Uniforme Contínua ""' 178 6,2 Densidade Exponencial """"""""' """""""""'180 6,3 Densidade Normal ""' 183 6.4 Aproximação Normal para o Modelo Binomial """"""""' 189

6.5 Histogramas para valores simulados da Binomial """"""""""""""""' 190

7.l Efeito de n na distribuição amostral de X - N(10,I6/n) """"""""""22I

8'2Representaçáográficadoserrosd'ep.,.'

7.2 Efeito do tamanho da amostra sobre a distribuição de X """"" """"""224 8.1 Erros associados a testes de hipóteses """"""'248 S.3Representaçáogrâficadaregiãoderejeição-unilateral...,.250 8,4Representaçáogrâf\cadaregiãoderejeição-bilatera1 8.5 Função Poder """""""""' """"""'254

8,6 EtaPas de um teste de hiPóteses 8.7 Densidade ú- Student """"""""""'259

8.8 Nível descritivo unilateral """"""" """""""""264 8.9 Regiões desfavoráveis num teste bilateral com Hoi F : Fo """"""""'265 8. l0 Nível descritivo bilateral """""""' """""""""'266 8.1 I Densidade .Ïf e Região Crítica ""'27O

Cirsos na comparação de duas amostras """""""' """""""'295 Distribuição de Fisher- Snedecor """"""""""'317 Resíduos no modelo de regressão linear simples """"""""':""""""""'335

.qft

Lista de Tabelas l .l lnformações de questionário estudantil - dados brutos """""'1

1.2 Tubela de freqüência para a variável Sexo """"" """""""""' 9

1,3 Tlbela de freqüência para a variável Idade ""'"" """"""""' 10

1,4 Tabela de freqüência para a variável Peso """"" """"""""" 1 I L5 TabeladefreqüênciaparaavariávelTV""""""' """"""""'1l

4,1 Meclidas de tendência central """" 100

4,2 Medidas de dispersão """""""""" 1 1

4,3 Propriedades da média e da variância """""""' """"""""" 1 1

4,4 Modelos discretos- valor esperado e variância """"""""""""""""""" I l3

6, I Modelos contínuos- valor esperado e variância """"""""""""""""""' 187

7,l Estimadores para média' proporção e variância """''"""""211

1 ,2 Intervalos de confianç apaÏa p e p """"" """"'234

9,I Comparação de médias para duas populações """"""""""309 g,2 Tnbela de Análise de Variância (ANOVA) ""' 326

i I

Capítulo L Introdução à Análise Exploratôria de Dados t.1 O que é Estatística?

Neste capítulo, pretendemos formalizar alguns conceitos que constitucrn t base de técnicas desenvolvidas com a finalidade de auxiliar a responder, de I'ortrtit objetiva e segura, situações que envolvem uma grande quantidadc dc irrformações. A utilização dessas técnicas, destinadas à análise de situitçõcs complexas ou não, tem aumentado efaz parte de nosso cotidiano. Tome-sc' pof cxemplo, as transmissões esportivas. Em jogos de futebol, o número cle cscanteios, o número de faltas cometidas e o tempo de posse de bola são daclos geralmente fornecidos ao telespectador e fazem com que as conclusões sobre qunl time foi o melhor em campo, se tornem objetivas (não que isso impliqlle que tcnlra sido o vencedor...). O que tem levado a essa quantificação de nossas viclus no dia a dia? Um fator importante é a populatizaçáo dos computadores. No passado, tratar uma grande massa de números era uma tarefa custosa e cansativtt, que exigia horas de trabalho tedioso. Recentemente, no entanto, grnnCle quantidade de informações pode ser analisada rapidamente com um computudor pessoal e pfogramas adequados. Desta forma, o computador contribui, positivamente, na difusão e uso de métodos estatísticos. Por outro lado, o computador possibilita uma automação que pode levar um indivíduo serÌ prepilro específico a:utilizar técnicas inadequadas para resolver um dado problema. Assitrt, é necessário a compreensão dos conceitos básicos da Estatística, bem como 0s suposições necessárias para o seu uso de forma criteriosa. Entendemos it Estatística como um conjunto de técnicas que permite, de forma sistemátictt, organizar, descrever, analisar e interpretat dados oriundos de estudos tltt experimentos, realizados em qualquer ârea do conhecimento- Estatrtos denominando por dados um (ou mais) conjunto de valores, numéricos ou nito. A aplicabilidade das técnicas a serem discutidas se dá nas mais variadas árels tln atividade humana.

A grosso modo podemos dividir a Estatística em três áreas: o Estatística Descritiva o Probabilidade o Inferência Estatística

Capítulo 1: Introdução à Análise Exploratória de Dados

Estatística Descritiva é, em geral, utilizada na etapa inicial da análise, cprlndo tomamos contato com os dados pela primeira vez. Objetivando tirar conclusões de modo informal e direto, a maneira mais simples seria a observação tlos valores colhidos. Entretanto, ao depararmos com uma grande massa de dados, lrcrcebemos, imediatamente, que a tarefa pode não ser simples. Para tentar depreender dos dados informações a respeito do fenômeno sob estudo, é preciso irplicar alguma técnica que nos permita resumir a informação daquele particular conjunto de valores. Em outras palavras, a estatística descritiva pode ser definida cotììo urn conjunto de técnicas destinadas a descrever e resumir os dados, a fim de quc possamos tirar conclusões a respeito de características de interesse.

Probabilidade pode ser pensada.como a teoria matemática utilizada para sc cstudarr a incerteza oriunda de fenômenos de caráter aleatório. Apesar de ser urrrn írrea extremamente atraente e estudada do ponto de vista matemático, abordaremos, aqui, apenas os aspectos necessários para as técnicas estatísticas irprcsentadas neste livro. Inferência Estatística é o estudo de técnicas que possibilitam a cxtrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir de subconjuntos de valores, usualmente de dimensão muito ffìenor. Deve ser notado que, se tivermos acesso a todos os elementos que clesejamos estudar, não é necessário o uso das técnicas de inferência estatística. Entretanto, elas são indispensáveis quando existe a impossibilidade de acesso a todo o conjunto de dados, por razões de natureza econômica, ética ou física.

Estudos complexos que envolvem o tratamento estatístico dos dados, tusnalrnente, incluem as três áreas mencionadas acima. Na terminologia estatística, o grande conjunto de dados que contém a característica que temos interesse reccbc o nome de população. Esse termo refere-se não somente a uma coleção de inclivícluos, mas também ao alvo sobre o qual reside nosso interesse. Assim, nossa populnçiro pode ser tanto todos os habitantes de Sorocaba, como todas as lârnpaclas produzidas por uma fátbrica em um certo período de tempo, ou todo o sarìgue no corpo de uma pessoa. Algumas vezes podemos acessar toda a po;lulação para estudarmos características de interesse, mas, em muitas situações, tal llroccciirnento não pode ser realizado. Em geral, razões econômicas são as mais clctclrninantes dessas situações. Por exemplo, uma empresa, usualmente, não dispõo clc vcrba suficiente para saber o que pensam todos os consumidores de scus proclutos. Hir ainda razões éticas, quando, por exemplo, os experimentos de lttlornttilio cnvolvem o uso de seres vivos. Além disso, existem casos em que a irnpossillilitltclc clc sc accssárr toda a população de interesse é incontomável. Na tndlisc rlo sirngr"rc cle unra pessoiÌ ou em um experimento para determinar o tempo l.lOqueéEstatística? cle funcionamento das lâmpadas produzidas por uma indústria, não podemOS observar toda população de interesse.

Tendo em vista as dificuldades de várias naturezas para se observal todos os elementos da população, tomaremos alguns deles para formar um grupo iì Ser cstudado. Este subconjunto da população, em geral com dimensão sensivelmentC rrìenor, é denominado amostra. A Figura 1.1 ilustra as etapas da anólige cstatística.

Amostra w

Figura 1.1: População e amostra.

A seleção da amostra pode ser feita de várias maneiras, dependendo, entre ()lrlr'os Íhtores, do grau de conhecimento que temos da população, da quantidade rlc rccursos disponíveis e assim por diante. Devemos ressaltar que, em princípio, A sr:lcçiro da amostra tenta fornecer um subconjunto de valores o mais pareciclo possívcl com a população que lhe dá origem. A amostragem mais usada é a (rtt!o,\lru r:ustral simples, em que selecionamos ao acaso, com olt sem reposiç:âo, os ilcrrs da população que farão parte da amostra. Eventualmente, se tivermos informações adicionais a respeito cltt lrrrlrrrlirçlio de interesse, podemos utilizar outros esquemas de amostragem muis soÍ'isticuclos. Por exemplo, se numa cidade, tivermos mais mulheres do clue

(Parte 1 de 10)

Comentários