Livro Estatistica Básica Para Ciências Agrárias e Biológicas

Livro Estatistica Básica Para Ciências Agrárias e Biológicas

(Parte 1 de 6)

Universidade Federal de Santa Catarina

Centro Tecnologico Departamento de Informatica e Estatıstica

ESTATISTICA BASICA PARA AS CIENCIAS AGRONOMICAS E BIOLOGICAS Com Nocoes de Experimentacao

Prof. Paulo Jose Ogliari, Dr. Prof. Dalton Francisco de Andrade, PhD.

FLORIANOPOLIS Santa Catarina - Brasil

Sumario

1.1 A Ciencia Estatıstica na Pesquisa Agronomica e Biologica5
1.1.1 Forma de coleta dos dados5
1.1.2 Erro Experimental ou Resıduo6
1.1.3 Analise Exploratoria de Dados7
1.1.4 Inferencia Estatıstica8
1.1.5 Teoria da Probabilidade e seus Modelos12
1.2 A Estatıstica e o Metodo Cientıfico13
1.3 Aspectos do Planejamento Estatıstico de um Experimento20
1.3.1 Experimentos com um Fator e mais de um Fator20
1.3.2 Tratamento Controle2
1.3.3 Variaveis e Covariaveis2
1.3.4 Repeticao e Casualizacao23
1.4 Exercıcios Propostos24

1 Introducao Geral 5

2.1 Organizacao, Resumo e Representacao de Dados25
2.1.1 Introducao25
2.1.2 Classificacao das Variaveis Selecionadas para o Estudo26
resentacao em Tabelas29
2.1.3.2 Representacoes Graficas de Variaveis Qualitativas35
2.1.3.3 Exercıcios Propostos38
2.1.3.4 Tabelas de Contingencia42
2.1.3.5 Exercıcios Propostos47
2.1.3.6 Coeficiente de Contingencia de Pearson48
2.1.3.7 Exercıcios Propostos53
agrama de Pontos, Grafico de Colunas e Histograma53
2.1.3.9 Exercıcios Propostos65

2 Analise Exploratoria de Dados 25 2.1.3 Distribuicoes de Frequencias. Representacao em Tabelas e Graficos . 29 2.1.3.1 Distribuicoes de Frequencias de Variaveis Qualitativas. Rep- 2.1.3.8 Distribuicoes de Frequencias de Variaveis Quantitativas: Di- 1

2.1.3.1 Exercıcios Propostos71
2.2 Algumas Medidas e Modelo para Variaveis Quantitativas72
2.2.1 Medidas de Tendencia Central72
2.2.1.1 Media, Mediana e Moda72
2.2.2 Medidas de Dispersao80
Interquartılico80
2.2.2.2 Exercıcios Propostos8
Dados90
2.2.4 Desenho Esquematico (em ingles leia-se Box Plot)93
2.2.4.1 Exercıcios Propostos97
2.2.5 Coeficiente de Correlacao98
2.2.5.1 Exercıcios propostos104
2.2.6 Ajuste da Equacao de uma Reta106
2.2.6.1 Exercıcios propostos1
3.1 Introducao114
3.2 Conceitos Fundamentais118
3.3 Operacoes com Eventos122
3.4 A Probabilidade de Um Evento125
3.5 Conceito de Probabilidade125
3.6 A Regra da Adicao128
3.7 Probabilidade Condicional e Independencia130
3.8 Teorema de Bayes135
3.9 Exercıcios Propostos139

3 Modelos de Probabilidades para Experimentos Simples 114

4.1 Introducao144
4.2 O Conceito de Variavel Aleatoria Discreta e Funcao de Probabilidade145
4.3 A media e a Variancia de Uma Variavel Aleatoria Discreta. Propriedades148
4.4 Alguns Modelos Probabilısticos para Contagens156
4.5 Distribuicao de Bernoulli157
4.6 A Distribuicao Binomial159

4 Modelos de Probabilidades para Contagens 144 2

4.8 Aproximacao da distribuicao binomial pela distribuicao de Poisson171
4.9 Exercıcios Propostos177
5.1 Introducao187
5.2 A Media de Uma Variavel Aleatoria Contınua192
5.3 A Distribuicao Normal193
5.3.1 Introducao194
5.3.2 A Distribuicao Normal Padrao199
5.3.3 O Uso da Tabela da Distribuicao Normal Padrao200
5.3.5 Exercıcios propostos209

5 Modelos de Probabilidades para Medidas 187 5.3.4 A Distribuicao Normal como Aproximacao da Distribuicao Binomial . 205

6.1 Introducao216
6.2 Como Selecionar Uma Amostra220
6.3 Amostragem Aleatoria Simples2
6.3.1 Obtencao de Uma Amostra Aleatoria Simples223
6.4 Distribuicoes Amostrais227
6.4.1 Distribuicao Amostral da Proporcao228
6.4.2 Distribuicao Amostral da Media234
6.5 Exercıcios Propostos241

6 Introducao a Inferencia Estatıstica 216

7.1 Introducao244
7.2 Propriedades dos Estimadores244
7.3 Metodos para Encontrar Estimadores247
7.3.1 Metodo da Maxima Verossimilhanca248
7.4 Estimativas Pontuais e Intervalares249
7.4.1 Intervalos de Confianca249
7.4.2 Intervalo de Confianca para a Media da Populacao253
7.4.3 Intervalo de Confianca para Uma Proporcao Populacional258
7.4.4 Erro de Estimacao ou de Amostragem260
7.4.5 Determinacao do Tamanho da Amostra262
7.5 Exercıcios Propostos270
8.1 Introducao274
8.2 Testes de Hipoteses Unilaterais e Bilaterais281
8.3 Erros Tipo I e Tipo I281
8.4 Testes de Medias Populacionais283
for Desconhecida284
sconhecidas289
8.5 Teste Para Proporcoes303
8.5.1 Teste Para Uma Proporcao Populacional304
8.5.2 Teste de Duas ou Mais Proporcoes (Teste de Qui-Quadrado)306
8.5.3 Teste de Aderencia: aplicacao a teoria Mendeliana310
8.6 Exercıcios Propostos312

8 Testes de Hipoteses Sobre os Parametros 274 8.4.1 Teste de Uma Media Populacional Quando a Variancia Populacional 8.4.2 Teste de Duas Medias Populacionais com Variancias Populacionais De-

Bibliografia 321 Apendice 1: Tabela da distribuicao binomial 323 Apendice 2: Tabela da distribuicao de Poisson 3 Apendice 3: Tabela da distribuicao normal padrao 335 Apendice 4: Tabela da distribuicao t de Student 337 Apendice 5: Tabela da distribuicao de Qui-Quadrado 339 Apendice 6: Tabela da distribuicao F 341 Apendice 7: Tabela de numeros aleatorios 344 Respostas de Alguns dos Exercıcios 346

1 Introducao Geral 1.1 A Ciencia Estatıstica na Pesquisa Agronomica e Biologica

A estatıstica e uma ciencia que se preocupa com o planejamento de uma pesquisa, envolvendo desde a forma de coleta das observacoes, obtidas em experimentos ou levantamentos, ate a maneira como sera feita a organizacao, a descricao, o resumo dos dados, e a avaliacao e afirmacao sobre caracterısticas de interesse do pesquisador.

As analises estatısticas dependem da forma de como os dados sao coletados, e o planejamento estatıstico da pesquisa indica o esquema sob o qual os dados serao obtidos. Portanto, o planejamento da pesquisa e a analise estatıstica dos dados obtidos estao intimamente ligados.

Planejamento da pesquisa ⇒ Analise estatıstica

Dessa forma, o pesquisador deve possuir um razoavel conhecimento de estatıstica para desenvolver suas pesquisas, ou, entao, consultar um estatıstico para auxilia-lo. E importante frisar que esta consulta deve ser feita antes do inıcio da pesquisa, ainda durante a fase de elaboracao do projeto.

1.1.1 Forma de coleta dos dados

Em alguns casos, como por exemplo, na descricao de novas especies florestais, os dados sao obtidos atraves da simples observacao de como o fenomeno acontece na natureza. Neste caso, nao sao feitas alteracoes no fenomeno em estudo. Outro exemplo, e o estudo sobre os efeitos da poluicao ambiental de uma regiao sobre animais roedores de determinada especie. Neste caso, um certo numero de animais (amostra), capturados na regiao estudada, sera analisado contando o numero de micronucleos existentes a cada cinco mil celulas (caracterıstica estudada).

Levantamento: observa-se o fenomeno na natureza

Por outro lado, em muitas outras situacoes, as observacoes precisam ser geradas e sao feitas comumente sob condicoes controladas pelo pesquisador, e os fatos, eventos ou fenomenos a serem estudados sao forcados a sofrer variacoes sistematicas, mediante a aplicacao de ”tratamentos”. Na experimentacao, entende-se por tratamento, as variacoes de um fator a ser estudado. Um exemplo disto, seria analisar a producao de milho mediante a aplicacao de diferentes doses de nitrogenio. As diferentes doses de nitrogenio constituiriam os tratamentos. Os outros fatores, como por exemplo, diferencas na fertilidade e umidade do solo, existencia de pragas e ervas daninhas, que poderao influir nos resultados obtidos (producao final de milho), sao minimizados, tanto quanto possıvel, do ponto de vista pratico. Neste caso temos entao um experimento. A funcao do experimento e determinar as relacoes de causa e efeito, como por exemplo, verificar como as doses de nitrogenio (causa) influenciam na producao de milho (efeito).

Experimento: causa ⇒ efeito

1.1.2 Erro Experimental ou Resıduo

Quando instala-se um experimento, desejamose verificar o efeito de diferentes tratamentos, sendo que, os demais efeitos, que nao os de tratamentos, devem ser controlados ao maximo do ponto de vista pratico. Portanto, as pulverizacoes com produtos quımicos, as capinas, as mensuracoes, etc. devem ser feitas de modo o mais homogeneo possıvel em todo o experimento. Da mesma forma, a disponibilidade de agua, a temperatura, a umidade e as sementes utilizadas, devem ser as mais similares possıveis. Acontece que, na pratica, por maiores que sejam os esforcos dos pesquisadores para homogeneizar todos esses efeitos, isto nao e possıvel, sempre levando a ocorrencia de variacoes casuais ou aleatorias. Isto pode ser verificado quando, ao repetir o experimento, sob condicoes as mais proximas possıveis do experimento anterior, obtemos resultados diferentes. Essas variacoes sao chamadas de erro experimental ou simplesmente erro. E bom chamar a atencao que apesar do termo erro, isto nao significa que o experimento foi mal feito. Muitos preferem o termo resıduo para caracterizar essas variacoes aleatorias. Vale a pena ressaltar que essas variacoes tambem ocorrem para dados obtidos atraves de levantamentos.

Finney (1952) diz que o proposito da ciencia estatıstica e fornecer uma base objetiva para a analise de problemas nos quais os dados estao sujeitos a variacao do acaso. Por maiores que sejam os conhecimentos de um pesquisador sobre, por exemplo, nutricao e fisiologia animal, ele jamais sera capaz de predizer com exatidao qual vai ser o peso de um suıno criado sob determinadas condicoes. Existe um grande numero de causas que fazem este resultado variar, como, por exemplo, variacoes geneticas, de temperatura ambiental, umidade, doencas, etc. Assim, quando o elemento acaso esta presente em um problema, dificuldades reais sao introduzidas. Observe que estamos interessados em estudar os fenomenos ditos aleatorios, isto e, aqueles em que o elemento do acaso esta presente.

E importante ressaltar que quase tudo que fazemos no nosso cotidiano sao fenomenos aleatorios e, portanto, apresentam uma chance de ocorrencia devido ao acaso. Assim sendo, seria desejavel determinar qual e a sua probabilidade de ocorrencia. Para tal finalidade precisamos estabelecer o modelo probabilıstico adequado.

Fenomeno aleatorio ⇒ Modelo probabilıstico

A seguir, vamos apresentar duas partes importantes da estatıstica, quais sejam: analise exploratoria de dados e inferencia estatıstica.

1.1.3 Analise Exploratoria de Dados

Todo o trabalho de analise estatıstica inicia com a analise exploratoria de dados. Em muitos casos, com uma boa analise exploratoria de dados, atende-se aos objetivos da pesquisa (principalmente em alguns estudos realizados atraves de levantamentos), enquanto em outros, ela serve como uma primeira aproximacao da analise final.

O conceito de estatıstica, como podera ser visto ainda neste capıtulo, e bastante amplo e engloba a nocao usual que as pessoas tem do que seja estatıstica. Esse conceito usual logo relaciona a estatıstica com tabelas, graficos, taxas, ındices, nos quais os dados obtidos sao representados. Assim, ouvimos falar da produtividade media do milho no Estado de Santa Catarina, ındice pluviometrico mensal, anual, ındice da inflacao, taxa de desemprego, estatısticas da saude publica, estatısticas da loteria, do aumento da producao de maca em Santa Catarina, etc. Essa parte, utilizado para descrever fatos, e, de forma bastante apropriada, apresentado nos livros como analise exploratoria de dados. Ela se preocupa com a organizacao, apresentacao, simplificacao e descricao (e nao explicacao) dos dados. Este enfoque de analise exploratoria de dados foi introduzido por Tukey (1971), no seu livro: Exploratory Data Analysis. A analise exploratoria de dados utiliza-se muito de tecnicas visuais e procura vislumbrar alguma regularidade quase sempre presente num conjunto de dados, podendo sugerir modelos que possam ser utilizados na inferencia estatıstica.

Exemplo. Foi feito um experimento para estudar a duracao, em dias, do quinto estadio ninfal de Triatoma klugi com alimentacao em galo. Os resultados sao apresentados na tabela

Tabela 1.1: Valores da duracao em dias do quinto estadio ninfal de Triatoma klugi com alimentacao em galo, MIP, UFSC, Florianopolis, SC, 2001. 26 37 39 40 41 42 42

Duração do quinto estádio ninfal em dias

Número de observações

26 31 36 41 47 52 57 62

Figura 1.1: Histograma da duracao, em dias, do quinto estadio ninfal de Triatoma klugi

1.1. Esses resultados foram representados atraves de um histograma dado na figura 1.1. Duas interpretacoes sao: 1) um valor para representar os dados e igual a 48 dias; 2) observase no histograma uma cauda mais longa em direcao aos valores menores, assim, diz-se que a distribuicao e levemente assimetrica a esquerda, ou seja, existe uma concentracao maior de valores em torno e acima do valor representativo. A analise exploratoria de dados sera estudada na secao 2.

1.1.4 Inferencia Estatıstica

Ha ainda todo um campo bastante amplo da ciencia estatıstica que se refere a analise e a interpretacao do conjunto total de dados, observando-se somente uma parte deles. Essa parte, e conhecida como Estatıstica Indutiva ou Inferencial e normalmente escapa a nocao corrente da grande maioria das pessoas.

Para deixar mais clara a finalidade da estatıstica inferencial, e necessario fazer a apresentacao de dois conceitos fundamentais, que sao: Populacao e Amostra.

Uma populacao consiste de todos os valores possıveis de uma caracterıstica desejavel. Os valores que compoem uma populacao, podem ser diferentes entre si, e a mesma pode apresentar um tamanho infinito ou finito porem desconhecido. Na experimentacao a definicao de populacao e conceitual. Sao exemplos de populacoes: todos os valores possıveis da producao de milho em kg/ha de uma cultivar; todos os pesos ao nascer de coelhos da raca gigante; todos os valores de diametro altura do peito de uma especie do manguezal do Itacorubi; todos os valores de micronucleos por cinco mil celulas examinadas de roedores de uma determinada regiao.

Populacao: todos os valores possıveis de uma variavel em estudo, observadas em unidades experimentais com uma ou varias caracterısticas em comum.

Amostra e uma parte (subconjunto) da populacao. Exemplos: os pesos ao nascer de coelhos de uma ninhada pode ser uma amostra de uma populacao infinita; uma amostra sera formada por 100 pesos de pacotes de cafe selecionados; 50 valores de micronucleos por cinco mil celulas examinadas de peixes do genero bagre selecionados; cinco valores de producao de milho da dose 1 de nitrogenio, cada um tomado num canteiro de 5 × 2 m2, etc.

Amostra: um suconjunto da populacao

E intuitivo que, quanto maior a amostra, mais precisas e confiaveis deverao ser as inferencias realizadas sobre a populacao. Levando esse raciocınio ao extremo, concluiremos que os resultados mais exatos seriam obtidos pelo exame completo de toda a populacao, ao qual se costuma denominar de Censo ou Recenseamento. Porem, a utilizacao de amostras pode ser feita de tal maneira que se obtenham resultados confiaveis, em termos praticos, de forma equivalente ou ate mesmo superiores aos que seriam conseguidos atraves do censo. Na experimentacao biologica e agronomica, geralmente nao temos acesso a toda a populacao, portanto, somos obrigados a trabalhar com amostras, por exemplo, nao podemos conhecer todos os valores possıveis de producao de milho em kg/ha de uma cultivar; nao podemos determinar todos os comprimentos de baleias de uma area de protecao. O fato e que nao e necessario examinar toda a populacao para se chegar as conclusoes desejadas. Desde que o tamanho da amostra seja convenientemente determinado, e que a mesma seja representativa da populacao, ou seja, possua as mesmas caracterısticas basicas da populacao no que diz respeito as variaveis que deseja-se pesquisar, inferencias suficientemente precisas e confiaveis podem ser realizadas.

Como exemplo, podemos citar o experimento que tem como objetivo verificar o comportamento da producao de milho sob o efeito de diferentes doses de nitrogenio. As doses foram definidas pelo pesquisador. Nesse caso, geralmente, a cultivar de milho escolhida para participar do experimento e a cultivar mais plantada na regiao. Os resultados sao apresentados na tabela 1.2. Para cada dose de nitrogenio sao plantados 5 canteiros de terra de 20m2 cada, portanto, o tamanho da amostra para cada dose de nitrogenio e 5,ou seja, foram feitas 5 repeticoes dos tratamentos. Para cada amostra existe uma correspondente populacao; cada populacao e formada por todos os valores possıveis de producao em kg/ha para a dose correspondente. Apos realizada a analise estatıstica e a interpretacao dos resultados a partir de um modelo que relacione a producao com as doses de nitrogenio, sera indicada qual(is) a(s) melhor(es) dose(s) de nitrogenio para a cultura do milho.

A estatıstica inferencial, dada a sua grande importancia, apresenta um grande numero de metodos de analise. Seriam necessarios varios cursos de estatıstica para estuda-los. E bom deixar claro que para se executar uma analise estatıstica, por mais sofisticada que seja o metodo utilizado, deve-se, primeiramente, proceder a analise exploratoria dos dados.

Como ja foi comentado anteriormente, uma caracterıstica dos experimentos biologicos e agronomicos, e que os seus resultados tendem a variar de repeticao para repeticao, ou, de outra forma, toda vez que se repetir o experimento, sob condicoes bastante semelhantes, os seus resultados nao sao os mesmos. Esta variabilidade nos resultados do experimento deixa o pesquisador com duvidas quanto ao(s) melhor(es) tratamento(s). Neste caso, os metodos estatısticos irao auxilia-lo.

Para ilustrar esta variacao vamos considerar os resultados da tabela 1.2 relativos as producoes de milho, em kg/ha, de cinco tratamentos, incluindo o controle (dose 0). O objetivo do experimento e comparar os cinco tratamentos com relacao a producao. Mais especificamente pode-se estabelecer dois objetivos para o experimento, quais sejam: 1o) testar a hipotese de que nao existem diferencas entre os tratamentos; 2o) estimar a diferenca de producao entre dois tratamentos.

Todos os experimentos sao conduzidos com estes dois objetivos: testar hipoteses e estimar as diferencas dos efeitos de tratamentos. Com respeito ao teste de hipotese de que nao ha diferenca entre as medias da dose 3 e

Tabela 1.2: Producao de milho em kg/ha, submetidos a diferentes doses de nitrogenio, no

Oeste Catarinense, 1993. Tratamentos Repeticoes Total Media

o controle, por exemplo, observa-se uma diferenca entre as duas medias de 3522-2328=1194 kg/ha, que e uma diferenca bem consideravel para a cultura do milho. Verificando-se os dados, observa-se que a producao da dose 3, na repeticao I, foi inferior a producao do controle nas repeticoes I e IV. Isto indica que tem-se que levar em consideracao a variabilidade dos dados ao se executar um teste de hipotese. Mais especificamente, vamos considerar a variabilidade da estatıstica de interesse, neste exemplo, a media amostral. Devido a esta variabilidade, os dados nunca concordam exatamente com a hipotese, e o problema e decidir se a diferenca verificada e devida ao efeito do tratamento ou se e devida a variabilidade do acaso. Isto e conhecido como teste de significancia. Essencialmente, um teste de significancia e uma regra de decisao, com base nos resultados de um experimento, se deve-se rejeitar ou nao rejeitar a hipotese. Esta tecnica capacita o pesquisador a testar as suas hipoteses sobre a acao dos tratamentos, com a garantia de que a probabilidade de rejeitar a hipotese quando ela e verdadeira e pequena.

(Parte 1 de 6)

Comentários