Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Probabilidade e Estatística, Notas de estudo de Engenharia Industrial

1 Introdução Estuda-se estatística para aplicar seus conceitos como auxílio nas tomadas de decisão diante de incertezas, justificando cientificamente as decisões. Os princípios estatísticos são utilizados em uma grande variedade de situações ? no governo, nos negócios e na indústria, bem como no âmbito das ciências sociais, biológicas e físicas. Estatística é a ciência ou método científico que estuda os fenômenos multicausais, coletivos ou de massa e procura inferir as leis que os mesmos

Tipologia: Notas de estudo

2010

Compartilhado em 10/06/2010

andre-angelo-javarini-9
andre-angelo-javarini-9 🇧🇷

5

(2)

3 documentos

Pré-visualização parcial do texto

Baixe Probabilidade e Estatística e outras Notas de estudo em PDF para Engenharia Industrial, somente na Docsity! UNIVERSIDADE DE CAXIAS DO SUL PROFESSORA: CÍNTIA PAESE GIACOMELLO Probabilidade e Estatística Prof. Cíntia Paese Giacomello 2 Índice 1 Introdução _____________________________________________________1 1.1 Amostragem ________________________________________________________ 2 1.2 Tipos de variáveis ____________________________________________________ 4 2 Séries estatísticas _______________________________________________5 3 Gráficos _______________________________________________________6 4 Distribuições de freqüências______________________________________12 4.1 Construção de distribuição de freqüência para dados contínuos ______________ 12 4.2 Gráficos das distribuições de freqüência _________________________________ 13 4.3 Construção de distribuição de freqüência para dados discretos ______________ 15 4.4 Construção de uma distribuição de freqüência acumulada___________________ 17 4.5 Distribuições de freqüência para dados nominais e por postos _______________ 18 4.6 Gráficos para distribuições de freqüência ________________________________ 19 5 Medidas de tendência central _____________________________________20 5.1 Média_____________________________________________________________ 20 5.2 Mediana ___________________________________________________________ 23 5.3 Moda _____________________________________________________________ 25 5.4 Relação entre as medidas de tendência central ___________________________ 26 6 Medidas de variabilidade ________________________________________28 6.1 Amplitude _________________________________________________________ 28 6.2 Variância __________________________________________________________ 29 6.3 Desvio padrão ______________________________________________________ 29 6.4 Coeficiente de variação ______________________________________________ 30 7 Medidas de assimetria e curtose __________________________________31 8 Introdução à probabilidade_______________________________________33 8.1 Experimento aleatório _______________________________________________ 33 8.2 Espaço amostral ____________________________________________________ 34 8.3 Eventos ___________________________________________________________ 34 8.4 A probabilidade de um evento _________________________________________ 34 8.5 Cálculo das probabilidades ____________________________________________ 37 9 Distribuições de probabilidade ____________________________________43 10 Teoria elementar da amostragem ________________________________56 10.1 Amostragem com e sem reposição ____________________________________ 56 10.2 Distribuições amostrais _____________________________________________ 56 Prof. Cíntia Paese Giacomello 2 Definições: População: coleção completa de todos os elementos (valores, pessoas, medidas,...) a serem estudados. Amostra: subcoleção de elementos extraídos da população. Censo: coleção de dados relativos a todos os elementos de uma população. Amostragem: coleção de dados relativos a elementos de uma amostra. Exemplo: População Amostra Parâmetro: medida numérica que descreve uma característica de uma população Estatística: medida numérica que descreve uma característica de uma amostra 1.1 Amostragem O objetivo da amostragem é permitir fazer inferências sobre uma população após inspeção de apenas parte dela. Fatores como custo, tempo, ensaios destrutivos e populações infinitas tornam a amostragem preferível a um estudo completo (censo). Os principais tipos de amostragem utilizados são os probabilísticos, onde todos os indivíduos da população têm a mesma chance de serem selecionados. Os planos de amostragem probabilística são delineados de tal modo que se conhece todas as combinações amostrais possíveis e suas probabilidades, podendo-se então determinar o erro amostral. Os métodos mais comuns de amostragem probabilística são: • Amostragem aleatória simples: os elementos de uma população são escolhidos de tal forma que todos tenham a mesma chance de serem escolhidos. Pode-se utilizar uma tabela de números aleatórios ou um programa de geração de números aleatórios. • Amostragem estratificada: subdivide-se a população em, no mínimo, dois estratos (subpopulações) que compartilham a mesma característica e em seguida escolhe-se uma amostra de cada. Exemplo: homens e mulheres. • Amostragem sistemática: escolhe-se um ponto de partida e então, sistematicamente, selecionam-se os outros. Por exemplo: o 3°, 403°, 803°, 1203°,... indivíduos Prof. Cíntia Paese Giacomello 3 • Amostragem por conglomerados: divide-se a população em conglomerados (áreas), em seguida sorteiam-se algumas áreas e analisam-se todos os elementos dos conglomerados escolhidos. Por exemplo: bairros. Fonte: Triola, Mário. 1999, 11. Amostragens não probabilísticas são utilizadas quando a população em estudo é muito pequena ou de difícil obtenção. Neste caso a análise de uma amostra poderia causar distorções. Uma pessoa familiarizada com a população pode indicar melhor as unidades amostrais. Este tipo de amostragem não permite avaliar o erro amostral. EX: doença rara. Prof. Cíntia Paese Giacomello 4 1.2 Tipos de variáveis Alguns conjuntos de dados consistem em números, enquanto outros são não numéricos. Utiliza-se a nomenclatura de dados (ou variáveis) qualitativos e quantitativos. Exercícios: Identifique cada número como discreto ou contínuo 1. Cada cigarro Camel tem 16,13 mg de alcatrão 2. O altímetro de um avião da American Airlines indica uma altitude de 21.359 pés 3. Uma pesquisa efetuada com 1015 pessoas indica que 40 delas são assinante de um serviço de informação on-line. 4. O tempo total gasto anualmente por um motorista de táxi de Nova York ao dar passagem a pedestres é de 2367 segundos. Apresente dois exemplos de dados discretos ou contínuos de sua empresa / pesquisa. Quantitativas Qualitativas Discretas Contínuas Variáveis Prof. Cíntia Paese Giacomello 7 Principais tipos de gráficos: (Fonte: Site da Microsoft – www.microsoft.com.br) Colunas Um gráfico de colunas mostra as alterações de dados em um período de tempo ou ilustra comparações entre itens. As categorias são organizadas na horizontal e os valores são distribuídos na vertical, para enfatizar as variações ao longo do tempo. Gráficos de colunas empilhadas mostram o relacionamento de itens individuais com o todo . O gráfico de colunas em perspectiva 3D compara pontos de dados ao longo dos dois eixos. Nesse gráfico 3D, você pode comparar o desempenho das vendas de quatro trimestres na Europa com o desempenho de outras duas divisões. Vendas por local Barras Um gráfico de barras ilustra comparações entre itens individuais. As categorias são organizadas na vertical e os valores na horizontal para enfocar valores de comparação. Gráficos de barras empilhadas mostram o relacionamento de itens individuais com o todo. Vendas por produto Prof. Cíntia Paese Giacomello 8 Linha Um gráfico de linhas mostra tendências nos dados em intervalos iguais. A união dos pontos faz sentido pois a variável é contínua. Meses usualmente são tratados como variáveis contínuas Valor de venda do produto X Pizza Um gráfico de pizza mostra o tamanho proporcional de itens que constituem uma série de dados para a soma dos itens. Ele sempre mostra somente uma única série de dados, sendo útil quando você deseja dar ênfase a um elemento importante. Totaliza a informação (100%). Cada faixa do gráfico é proporcional à informação. Para facilitar a visualização de fatias pequenas, você pode agrupá-las em um único item do gráfico de pizza e subdividir esse item em um gráfico de pizza ou de barras menor, ao lado do gráfico principal. Diagrama de Dispersão (Dispersão XY) Um gráfico xy (dispersão) mostra a relação existente entre os valores numéricos em várias séries de dados ou plota dois grupos de números como uma série de coordenadas xy. Esse gráfico mostra intervalos irregulares ou clusters de dados e é usado geralmente para dados científicos. Relação entre tempo e temperatura Prof. Cíntia Paese Giacomello 9 Histograma É um gráfico de colunas, porém utilizado para apresentar distribuições de freqüências. Apresenta as classes ao longo do eixo horizontal e as freqüências (absolutas ou relativas) ao longo do eixo vertical. As fronteiras das “barras” coincidem com os pontos extremos dos intervalos de classe. Distribuição da quantidade produzida 0.00 0.05 0.10 0.15 0.20 0.25 0.30 3 a 8 8 a 13 13 a 18 18 a 23 23 a 28 28 a 33 Safras (alq.) % d a s á rv o re s Área Um gráfico de área enfatiza a dimensão das mudanças ao longo do tempo. Exibindo a soma dos valores plotados, o gráfico de área mostra também o relacionamento das partes com um todo. Nesse exemplo, o gráfico de área enfatiza o aumento das vendas em Washington e ilustra a contribuição de cada estado para o total das vendas. Superfície Um gráfico de superfície é útil quando você deseja localizar combinações vantajosas entre dois conjuntos de dados. Como em um mapa topográfico, as cores e os padrões indicam áreas que estão no mesmo intervalo de valores. Esse gráfico mostra as várias combinações de temperatura e tempo que resultam na mesma medida de resistência à tração. Prof. Cíntia Paese Giacomello 12 4 Distribuições de freqüências Distribuição de freqüência é uma tabela resumida na qual os dados são organizados em grupos de classe ou categorias convenientemente estabelecidas e numericamente ordenadas. As distribuições de freqüências são series heterógrafas, isto é, séries na qual o fenômeno ou fato apresenta graduações ou subdivisões. Embora fixo, o fenômeno varia de intensidade. Nas distribuições de freqüência, os dados são agrupados segundo um critério de magnitude, em classe ou pontos, permanecendo constante o fato, local e tempo, de tal forma que se possa determinar a percentagem ou número, de cada classe. É um tipo de apresentação que condensa uma coleção de dados conforme as freqüências ou repetições de seus valores. A construção da distribuição de freqüência depende do tipo de dado com os quais se está lidando: contínuos ou discretos. 4.1 Construção de distribuição de freqüência para dados contínuos Os principais estágios são: 1. Estabelecer a quantidade de classes ou intervalos de grupamento dos dados. O número de classes deve variar entre 5 e 15. Aconselha-se utilizar n onde n é o número de observações. 2. Determinar a amplitude das classes. Aconselha-se fazer amplitude / no de classes. (OBS: amplitude = maior valor – menor valor) 3. Enquadrar os dados nas classes, mediante contagem e apresentar os resultados em uma tabela ou gráfico Exemplo: Os dados a seguir representam o tempo (em minutos) que 45 operadores de máquina demoraram para fazer o setup de uma máquina. 6,5 4,0 7,1 8,3 5,4 7,6 9,0 15,7 16,7 6,4 5,0 8,5 5,7 7,7 7,2 12,4 7,1 5,5 9,7 4,4 7,0 6,3 8,3 6,9 5,7 7,6 7,9 7,9 6,0 8,2 10,4 9,9 3,9 9,8 8,2 5,6 7,9 6,4 7,4 7,0 13,0 8,7 6,4 6,7 7,4 1 – Número de classes  45 valores  45 =6,7 ≅ 7 classes 2 – Amplitude das classes  16,7 – 3,9 = 12,8 (Maior valor = 16,7; Menor valor = 3,9). Logo, tem-se a amplitude das classes 12,8 / 7 = 1,83 ≅ 2 Prof. Cíntia Paese Giacomello 13 3 – Escrever as classes e contar os valores Tempo (minutos) Número de operadores % de operadores 3 –| 5 4 8,9% 5 –| 7 15 33,3% 7 –| 9 18 40,0% 9 –| 11 4 8,9% 11 –| 13 2 4,4% 13 –| 15 0 0,0% 15 –| 17 2 4,4% Total 45 100% 3 –| 5 equivale a 3 < x ≤ 5 Ou seja, são contados no intervalo todos os valores superiores a 3 e inferiores ou iguais a 5. A freqüência absoluta (fi) corresponde ao número de operadores A freqüência relativa (fri) corresponde ao percentual de operadores 4.2 Gráficos das distribuições de freqüência Histograma de freqüências Análise dos tempos para fazer o setup da máquina 4 15 18 4 2 0 2 0 2 4 6 8 10 12 14 16 18 20 3 –| 5 5 –| 7 7 –| 9 9 –| 11 11 –| 13 13 –| 15 15 –| 17 Tempo (minutos) N úm er o de o pe ra do re s Uma alternativa ao histograma de freqüências é o polígono de freqüências, construído mediante a conexão dos pontos médios dos intervalos do histograma, com linhas retas. Prof. Cíntia Paese Giacomello 14 Análise dos tempos para fazer o setup da máquina 4 15 18 4 2 0 2 0 2 4 6 8 10 12 14 16 18 20 3 –| 5 5 –| 7 7 –| 9 9 –| 11 11 –| 13 13 –| 15 15 –| 17 Tempo (minutos) N úm er o de o pe ra do re s OBS: uma vez que a área do polígono deve ser 100%, deve-se ligar o primeiro e o último pontos médios com o eixo horizontal, de modo a cercar a área da distribuição observada. Exercícios: 1. A tabela de dados representa o peso de 30 sacos de arroz da marca A selecionados aleatoriamente em um supermercado. Construa a distribuição de freqüências e apresente em um gráfico. (para facilitar os dados já estão ordenados) 922 930 936 950 954 954 958 965 968 974 977 979 987 989 1001 1006 1008 1010 1013 1017 1018 1034 1034 1035 1042 1044 1044 1048 1070 1116 2. Construa a distribuição de freqüência e o polígono de freqüências. 6,2 9,0 12,2 14,7 7,9 9,8 8,0 13,3 13,3 8,9 8,8 8,3 11,8 11,8 14,7 8,5 7,7 11,4 11,2 10,6 Prof. Cíntia Paese Giacomello 17 4.4 Construção de uma distribuição de freqüência acumulada Uma distribuição de freqüência acumulada tem por objetivo indicar o número ou percentual de itens menores do que, ou iguais a, determinado valor. No caso dos acidentes podemos construir distribuições acumuladas para a distribuição com e sem perda da informação. Sem perda da informação Classe N° dias % dias Freqüências acumuladas 0 3 0,06 0,06 1 3 0,06 0,12 2 4 0,08 0,20 3 5 0,10 0,30 4 10 0,20 0,50 5 10 0,20 0,70 6 6 0,12 0,82 7 4 0,08 0,90 8 3 0,06 0,96 9 2 0,04 1,00 50 1,00 Com perda da informação Classe N° dias % dias Freqüências acumuladas 0-1 6 0,12 0,12 2-3 9 0,18 0,30 4-5 20 0,40 0,70 6-7 10 0,20 0,90 8-9 5 0,10 1,00 50 1,00 Podemos, pela primeira tabela, concluir que 90% dos dados correspondem a valores menores ou iguais a 7. ou seja, Em 90% dos dias o número de acidentes não excede 7. Prof. Cíntia Paese Giacomello 18 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 7 8 9 0.0 0.2 0.4 0.6 0.8 1.0 0-1 2-3 4-5 6-7 8-9 Os polígonos de freqüências acumuladas são também chamados de ogivas. 0,0 0,2 0,4 0,6 0,8 1,0 0 1 2 3 4 5 6 7 8 9 N. acidentes % d o s d ia s 4.5 Distribuições de freqüência para dados nominais e por postos As distribuições de freqüências para dados nominais se assemelham às distribuições de freqüência normais, porém apresentam as categorias em lugar das classes. Por exemplo: Vendas absolutas Vendas relativas Limão 600 0,375 Laranja 400 0,250 Melão 300 0,188 Melancia 200 0,125 Abacaxi 100 0,063 Total 1600 1,000 Usa-se o gráfico de barras ou colunas para representar dados nominais. Prof. Cíntia Paese Giacomello 19 4.6 Gráficos para distribuições de freqüência A distribuição de freqüência é muitas vezes utilizada para determinar o formato da distribuição. A distribuição dos dados pode ser simétrica ou não. Exercício: Construa a distribuição de freqüência e desenhe o histograma dos dados a seguir. Qual é o formato da distribuição? 20,7 18,7 26,2 21,7 18,8 20,6 20,7 20,2 18,5 21,3 19,3 18,3 25,1 18,8 24,3 28,4 23,3 25,3 20,4 18,3 24,0 21,2 19,4 20,6 18,9 26,6 22,4 18,9 22,6 21,4 27,0 23,6 28,3 20,3 21,7 18,2 20,3 19,2 24,7 18,4 Distribuições discretas Simétrica Assimétrica à esquerda Assimétrica à direita Prof. Cíntia Paese Giacomello 22 5.1.5 Relação entre as médias aritmética, geométrica e harmônica A média geométrica de um conjunto de números positivos é menor ou igual à sua média aritmética, mas é maior ou igual à sua média harmônica. Em símbolos: xGH ≤≤ O sinal de igualdade vale somente quando todos os números forem iguais. Exemplo: o conjunto 2,4 e 8 tem média aritmética 4,67, média geométrica 4 e média harmônica 3,43. 5.1.6 Cálculo da média para uma distribuição de freqüência A média de uma distribuição de freqüência é calculada com base valor e na freqüência de cada classe. n xf x ii∑= Onde fi é a freqüência da classe i. Para dados com perda da informação, utiliza-se em lugar de x i o ponto médio do intervalo. Exemplo: Classe Ponto médio (x i) N° dias (f i) f i xi 0-1 0,5 6 3,0 2-3 2,5 9 22,5 4-5 4,5 20 90,0 6-7 6,5 10 65,0 8-9 8,5 5 42,5 n = 50 223 464 50 223 , n xf x ii === ∑ Média harmônica = ∑∑ = − x n xn n i i 111 1 1 Prof. Cíntia Paese Giacomello 23 Classe (x i) N° dias (f i) f i xi 0 3 0 1 3 3 2 4 8 3 5 15 4 10 40 5 10 50 6 6 36 7 4 28 8 3 24 9 2 18 50 222 444 50 222 , n xf x ii === ∑ Se fizéssemos a média a partir da tabela original obteríamos o valor de 4,44. 5.2 Mediana A principal característica da mediana é dividir o conjunto de números em dois grupos iguais: a metade terá valores inferiores ou iguais à mediana e a metade terá valores superiores ou iguais à mediana. Para calcular a mediana inicia-se ordenando os valores em ordem crescente. Em seguida conta-se até a metade deles. Em geral a mediana ocupa a posição (n+1)/2. Para número ímpar de valores a mediana é o valor do meio. Para amostras com número par de unidades, a mediana é a média dos dois valores centrais. Exemplos: Amostra Número de elementos Dados ordenados Mediana 2 3 3 4 2 5 1 4 5 9 elementos  ímpar 1 2 2 3 3 4 4 5 5 3 2 4 3 1 7 3 8 9 2 4 10 elementos  par 1 2 2 3 3 4 4 7 8 9 3,5 3 4 2 3 1 5 3 2 6 7 3 2 5 2 3 6 2 1 Prof. Cíntia Paese Giacomello 24 Uma medida semelhante à mediana é o quartil. Os quartis dividem o conjunto ordenado de dados em quatro grupos iguais. 25% dos valores são inferiores ao primeiro quarti (Q1), 25% estão entre Q1 e a mediana, 25% estão entre a mediana e o terceiro quartil (Q3). OBS: o segundo quartil corresponde à mediana (Q2=mediana). LI Q1 Q2=mediana Q3 LS LI = Limite inferior LS=Limite superior 5.2.1 Cálculo da mediana para uma distribuição de freqüência Da mesma forma que para dados apresentados em série, a mediana é o ponto que divide as informações ao meio. A mediana pode ser obtida por interpolação, e é dada pela fórmula. c f f n LMediana mediana )( 2 1 1             − += ∑ onde: L1= limite inferior da classe mediana, isso é, da classe que contém a mediana n = número de itens dos dados (freqüência total) (Σf)1=soma de todas as freqüências das classes anteriores à mediana fmediana= freqüência da classe mediana c = amplitude do intervalo da classe mediana Exemplo: No caso dos acidentes, temos 50 observações, logo a mediana deve estar localizada na posição (50+1)/2 = 25,5, ou seja, a classe que contém a mediana é a classe 4-5. O limite inferior da classe mediana é 4. Antes da classe mediana ((Σf)1) haviam “passado” 15 dados. A classe mediana contém 20 observações e a amplitude da classe mediana é 1. Então 545041 20 15 2 50 4 ,,xMediana =+=             − += Prof. Cíntia Paese Giacomello 27 2. Determine Q1, Q2 e Q3 nos conjuntos de dados que seguem: a) 15 15 4 7 16 16 4 11 7 8 19 7 6 12 17 16 9 20 16 14 3 12 4 9 8 3 16 b) 4 12 4 7 4 9 11 12 5 8 9 4 3. Qual seria o efeito sobre a média de um conjunto de dados se se adicionasse 10: a) a um dos números? b) a cada um dos números? 4. João possui 5 imóveis localizados nesta cidade. Ele deseja saber qual o valor médio, por metro quadrado, das suas propriedades. Sabendo que imóveis no centro valem R$ 450,00/m2 e imóveis em bairros valem R$ 300,00/m2, calcule o valor médio por m2 do seu capital. Apartamento de 80 m2 no centro Pavilhão de 450 m2 no bairro Casa de 280 m2 no centro Apartamento de 120 m2 no bairro Casa de 320 m2 no bairro Prof. Cíntia Paese Giacomello 28 6 Medidas de variabilidade As medidas de variabilidade ou dispersão indicam se os valores estão relativamente próximos ou não uns dos outros. Na análise de um conjunto de dados é necessário que sejam observados tanto as informações relativas à localização (medidas de tendência central) quanto as informações de dispersão (medidas de variabilidade). Exemplo: Exemplo: Duas máquinas estão sendo comparadas. A seguir está descrita a produção de cada uma durante 5 dias. Produção Média Máq 1 10 10 10 10 10 10 Máq 2 5 18 8 3 16 10 Você acha que a programação da produção para as duas máquinas pode ser a mesma durante 1 semana? Por quê? Consideraremos quatro medidas de dispersão: amplitude, variância, desvio padrão e coeficiente de variação. Todas elas, exceto a amplitude, têm na média o ponto de referência. Em cada caso, o valor zero indica ausência de variação; a dispersão aumenta à proporção que aumenta o valor da medida (intervalo, variância, etc.). 6.1 Amplitude Também conhecida como intervalo. A amplitude de um grupo de dados é, de modo geral, mais simples de calcular e de entender. Consiste na diferença entre o maior e o menor valor, ou seja, entre os valores extremos. Amplitude = Xmax - X mín Pequena variabilidade Grande variabilidade Prof. Cíntia Paese Giacomello 29 A maior limitação da amplitude é o fato de só levar em conta os valores extremos de um conjunto, nada informado sobre os outros valores. Exemplo: 1. Calcule a amplitude dos seguintes conjuntos de dados. Você acha que a dispersão dos conjuntos é igual? a) 15 15 12 14 16 16 4 15 b) 5 4 5 4 6 5 16 4 6.2 Variância Calcula-se a variância de uma amostra elevando-se as diferenças de cada um dos valores em relação à média, somando-se estas diferenças e dividindo-se por n-1. 1 2 2 − − = ∑ n )xx( s ix Quando se deseja a variância populacional, deve-se substituir n-1 por n na fórmula. Usualmente iremos utilizar a variância amostral. Exemplo: Cálculo da variância do conjunto de dados 2,4,6,8, e 10. x i x xx i − ( xx i − ) 2 2 6 -4 16 4 6 -2 4 6 6 0 0 8 6 2 4 10 6 4 16 Somas 0 40 10 15 40 1 2 2 = − = − − = ∑ n )xx( s ix 6.3 Desvio padrão O desvio padrão é simplesmente a raiz quadrada da variância. Assim se a variância é 81, o desvio padrão será 9. Prof. Cíntia Paese Giacomello 32 negativo indica uma distribuição com uma ponta assimétrica que se estende em direção a valores mais negativos. No excel a função correspondente é distorção. Assimetria = ∑       − −− 3 21 s xx )n)(n( n i A curtose é o grau de achatamento de uma distribuição e caracteriza uma distribuição em cume ou plana se comparada à distribuição normal (chamada mesocúrtica). A curtose positiva indica uma distribuição relativamente em cume (chamada leptocúrtica). A curtose negativa indica uma distribuição relativamente plana (chamada platicúrtica). A função correspondente no excel chama-se CURT, e calcula a curtose de um conjunto de dados de, no máximo, 30 valores. Curtose = )n)(n( )n( s xx )n)(n)(n( )n(n i 32 13 321 1 2 4 −− − −               − −−− + ∑ Simétrica a=0 Assimétrica negativa a<0 Assimétrica positiva a>0 Mesocúrtica c=0 Platicúrtica c<0 Leptocúrtica c>0 Prof. Cíntia Paese Giacomello 33 8 Introdução à probabilidade As origens da probabilidade remontam ao século XVI. As aplicações iniciais referiam-se quase todas a jogos de azar. Os jogadores aplicavam o conhecimento da teoria das probabilidades para planejar estratégias de apostas. Atualmente a utilização das probabilidades ultrapassou de muito o âmbito desses jogos. Hoje os governos, as empresas, as organizações profissionais incorporam a teoria das probabilidades em seus processos diários de deliberações. Independentemente de qual seja a aplicação em particular, a utilização das probabilidades indica que existe um elemento de acaso, ou de incerteza, quanto à ocorrência ou não de um evento futuro. Assim é que, em muitos casos, pode ser virtualmente impossível afirmar por antecipação o que ocorrerá, mas é possível dizer o que pode ocorrer. Há numerosos exemplos de tais situações no campo dos negócios e do governo. A previsão da procura de um novo produto, o cálculo dos custos da produção, a previsão das safras, a compra de apólices de seguros, a avaliação da redução de impostos sobre a inflação. As probabilidades são úteis pois ajudam a desenvolver estratégias. O ponto central em todas as situações é a possibilidade de quantificar quão provável é determinado evento. As probabilidades são utilizadas para exprimir a chance de ocorrência de determinado evento. O estudo das probabilidades é importante pois elas são a base para o estudo estatístico. 8.1 Experimento aleatório Experimentos aleatórios são aqueles que, mesmo repetidos várias vezes sob condições semelhantes, apresentam resultados imprevisíveis. Características dos experimentos aleatórios: 1. Podem ser repetidos indefinidamente sob as mesmas condições. 2. Não se pode adiantar um resultado particular, mas pode-se descrever todos os resultados possíveis 3. Se repetidos muitas vezes apresentarão uma regularidade em termos de freqüência de resultados. Exemplos: lançamento de uma moeda, lançamento de um dado, aposta na loteria, .... Ao descrever um experimento aleatório deve-se especificar não somente que operação ou procedimento deva ser realizado, mas também o que deverá ser observado. (Note a diferença entre o 2o e o 3o) • Joga-se um dado e observa-se o número obtido na face superior. • Joga-se uma moeda 4 vezes e o observa-se o número de caras obtido. Prof. Cíntia Paese Giacomello 34 • Joga-se uma moeda 4 vezes e observa-se a seqüência de caras e coroas. • Um lote de 10 peças contém 3 defeituosas. As peças são retiradas uma a uma (sem reposição) até que a última defeituosa seja encontrada. Conta-se o número de peças retiradas. • Uma lâmpada nova é ligada e observa-se o tempo gasto até queimar. • Lança-se uma moeda até que ocorra uma cara e conta-se então o número de lançamentos necessários. • Lançam-se dois dados e anota-se o total de pontos obtidos. • Lançam-se dois dados e anota-se o par obtido. 8.2 Espaço amostral O espaço amostral (S) de um experimento aleatório é o conjunto de todos os possíveis resultados do experimento. n(S) é o número de elementos do conjunto S, ou o número de resultados possíveis. Exemplo: um experimento é o lançamento de uma moeda. Os possíveis resultados são cara ou coroa, então, S={cara, coroa}. Em dois lançamentos de uma moeda, sendo interessante observar a ordem dos resultados, os possíveis resultados são: 1) cara e cara, 2) cara e coroa, 3) coroa e cara e 4) coroa e coroa. O espaço amostral é S={(Ca,Ca), (Ca,Co), (Co,Ca) e (Co,Co)}. n(S)=4 8.3 Eventos Chama-se de evento qualquer subconjunto do espaço amostral S de um experimento aleatório, ou seja, qualquer resultado do espaço amostral. n(A) é o número de resultados associados ao evento A. Exemplo: no lançamento de uma moeda S={cara, coroa}. Um evento de interesse A pode ser “obter cara no lançamento de uma moeda” e n(A)=1. No lançamento de um dado, o evento de interesse (A) pode ser obter face par e n(A)=3. 8.4 A probabilidade de um evento Seja A um evento. A probabilidade deste evento ocorrer é dada por P(A), que é um número entre 0 e 1. Quanto mais próxima a probabilidade estiver de 1, maior será sua chance de ocorrência. A um evento impossível atribui-se probabilidade 0, enquanto que um evento certo tem probabilidade 1. Há três maneiras diferentes de calcular ou estimar probabilidades: o método clássico, quanto o espaço amostral tem resultados igualmente prováveis. O método empírico, que Prof. Cíntia Paese Giacomello 37 6. Um motorista tem uma marca num de seus pneus, e 20% do pneu é visível. Ao parar, qual a probabilidade da marca ficar na parte visível? 7. Um motor tem 6 velas, e uma está defeituosa, devendo ser substituída. Duas estão em posição de difícil acesso, o que torna difícil a substituição. a) Qual a probabilidade de a vela defeituosa estar em posição difícil? b) Qual a de não estar em posição difícil? 8. Os dados compilados pela gerência de um supermercado indicam que 915 dentre 1500 clientes compradores de domingo gastam mais de R$ 40,00 em suas compras. Estime a probabilidade de um comprador em qualquer domingo gastar mais de R$ 40,00. 9. Uma pesquisa de tráfego levada a efeito das 5 às 6 horas da manhã num trecho de uma rodovia federal revelou que, de 200 carros que pararam para uma verificação rotineira de segurança, 25 tinham pneus em más condições. Estime a probabilidade de um carro que pare naquele trecho ter seus pneus em boas condições 8.5 Cálculo das probabilidades Muitas aplicações da estatística exigem a determinação da probabilidade de combinações dos eventos. Há duas características de combinações. Pode ser necessário determinar a probabilidade de ambos os eventos acontecerem P(A e B) ou a probabilidade de um deles, A ou B, ou seja, P(A ou B). Em um prédio com 2 elevadores, poderíamos perguntar: Qual a probabilidade de ambos elevadores estarem em serviço? Ou então, Qual a probabilidade de um ou outro elevador estar em serviço? Ambos implica P(A e B) Um ou outro implica P(A ou B) Prof. Cíntia Paese Giacomello 38 Regra da adição: A regra da adição leva em conta a ocorrência do evento A ou do evento B ou de ambos os eventos e é denotada por P(A∪B). P(A ou B) = P(A) + P(B) – P(A e B) Quando os eventos são mutuamente excludentes (não tem elementos em comum), então a probabilidade de ambos é nula e o termo P(A e B) será zero. Se A e B são mutuamente excludentes  P(A ou B) = P(A) + P(B) OBS: Para apresentar os eventos utilizam-se os Diagramas de Venn [apresentados por John Venn (1834-1923)], que representam os espaços amostrais e os eventos como círculos, quadrados, ou outra figura geométrica conveniente. Exercícios: 1. Numa urna existem 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso. Qual a probabilidade do número ser par ou maior que 4? 2. Numa urna existem 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso. Qual a probabilidade do número ser um número primo ou maior que 8? A B Prof. Cíntia Paese Giacomello 39 Regra da multiplicação Considerando-se dois eventos A e B de um mesmo espaço amostral, a probabilidade de A e B ocorrerem P(A∩B) é dada por: A probabilidade de A e B é igual à probabilidade de A, dado B, vezes a probabilidade de B. P(A e B) = P(A|B) P(B) Onde P(A|B) é a probabilidade de A ocorrer dado que B tenha ocorrido. Quando a probabilidade de B ocorrer não depender de A ter ocorrido, dizemos que A e B são independentes, e P(B| A)=P(B) Se A e B são independentes  P(A e B)=P(A)P(B) Exemplo 1: Deve-se inspecionar uma grande caixa de peças. Os registros indicam que 2% das caixas acusam conteúdo inferior ao estipulado. Escolhidas duas caixas aleatoriamente, qual a probabilidade de ambas acusarem conteúdo inferior, admitindo-se que a remessa inspecionada é semelhante as anteriores (isto é, 2% de deficientes)? P(ambas deficientes)=P(deficiente)P(deficiente) =0,02 x 0,02 =0,0004 ou seja, 0,04% de probabilidade das caixas serem defeituosas. Exemplo 2: Suponha que 20 canetas estão expostas numa papelaria. Seis são vermelhas e 14 azuis. Do conjunto de 20, iremos escolher 2 canetas aleatoriamente. Qual a probabilidade de que as duas canetas selecionadas sejam vermelhas? Neste caso os eventos não são independentes, pois a cor da primeira caneta selecionada vai determinar a probabilidade da segunda caneta ser vermelha. Seja A=a segunda caneta selecionada é vermelha B=a primeira caneta selecionada é vermelha Desejamos P(A e B) = P(A|B) P(B) = 07890 380 30 20 6 19 5 ,=      =            A B Prof. Cíntia Paese Giacomello 42 7. Nos últimos anos, as empresas de cartões de crédito intensificaram esforços no sentido de abrir mais contas para alunos de faculdade. Suponha que uma amostra de 200 alunos em sua faculdade apresentou as seguintes informações em termos de o aluno possuir cartão de crédito bancário e/ou cartão de crédito de viagem e entretenimento: CC de viagem e entretenimento Sim Não Totais Sim 60 60 120 CC bancário Não 15 65 80 Totais 75 125 200 a. Se um aluno é selecionado aleatoriamente, qual a probabilidade de que o aluno possua um cartão de crédito bancário? b. Se um aluno é selecionado aleatoriamente, qual a probabilidade de que o aluno não possua um cartão de crédito bancário? c. Se um aluno é selecionado aleatoriamente, qual a probabilidade de que o aluno possua um cartão de crédito bancário e um cartão de viagem e entretenimento? d. Se um aluno é selecionado aleatoriamente, qual a probabilidade de que o aluno não possua um cartão de crédito bancário nem cartão de viagem e entretenimento? e. Se um aluno é selecionado aleatoriamente, qual a probabilidade de que o aluno possua um cartão de crédito bancário ou possua um cartão de viagem e entretenimento? f. Suponha que um aluno possui um cartão de crédito bancário. Qual a probabilidade de que ele possua um cartão de viagem e entretenimento? g. Suponha que o aluno não possui um cartão de viagem e entretenimento. Qual a probabilidade de que ele ou ela possua um cartão de crédito bancário? h. Os dois eventos, possuir um cartão de crédito bancário e possuir um cartão de viagem e entretenimento, são estatisticamente independentes? Explique. Prof. Cíntia Paese Giacomello 43 9 Distribuições de probabilidade O histograma é usado para apresentar dados amostrais (Amostra=conjunto de observações extraídas de uma população) Por exemplo, 50 valores de satisfação dos clientes são interpretados como uma amostra da satisfação de todos os clientes. O uso de métodos estatísticos permite que se analise essa amostra e se tire alguma conclusão sobre a satisfação dos clientes. Uma distribuição de probabilidade é um modelo matemático que relaciona um certo valor da variável em estudo com a sua probabilidade de ocorrência. Há dois tipos de distribuição de probabilidade 1. Distribuições Contínuas: Quando a variável que está sendo medida é expressa em uma escala contínua, como por exemplo, o peso de peças produzidas, diâmetro, etc. 2. Distribuições Discretas: Quando a variável que está sendo medida só pode assumir certos valores, como por exemplo os valores inteiros 0, 1, 2, etc. No caso de distribuições discretas, a probabilidade que a variável X assuma um valor específico xo é dada por: P {X = xo} = P(xo) No caso de variáveis contínuas, as probabilidades são especificadas em termos de intervalos: Relembrando: uma variável aleatória é uma função com valores numéricos, cujos valores são determinados por fatores de chance. Uma variável aleatória é considerada discreta se toma valores que podem ser contados. Uma variável aleatória é considerada contínua quando pode tomar qualquer valor em determinado intervalo. { }P a x b f x dxa b≤ ≤ = ∫ ( ) Prof. Cíntia Paese Giacomello 44 Os gráficos a seguir apresentam exemplos de distribuições de probabilidades discreta e contínua. Exemplo: Distribuição de probabilidade para a variável aleatória “número de caras em duas jogadas de uma moeda”. Resultado Número de caras Valor da V.A. Prob. do resultado Número de caras Valor da V.A Prob. do resultado Cara Cara 2 ½ x ½ = ¼ 0 ¼ Cara Coroa 1 ½ x ½ = ¼ Coroa Cara 1 ½ x ½ = ¼ 1 ¼ + ¼ = ½ Coroa Coroa 0 ½ x ½ = ¼ 2 ¼ Soma = 1 Soma = 1 O valor esperado, ou esperança matemática, de uma variável aleatória é E(x), que consiste no valor esperado para ela, ou seja, o valor médio da variável. ∑ = = n i iixp)x(E 1 se X é v.a. discreta ou ∫ ∞ ∞− = dx f(x) .x)X(E se X é v.a. contínua E a variância de X é dada por 22 )]X(E[)X(E)X(Var −= . O desvio padrão é )X(Var Prof. Cíntia Paese Giacomello 47 xnx )p(p x n )x(P −−      = 1 e )!xn(!x !n x n − =      onde       x n representa o número de combinações de n objetos tomados x de cada vez P(X) = probabilidade de X sucessos uma vez que n e p são conhecidos n = tamanho da amostra p = probabilidade de sucesso  1-p = probabilidade de falha X = número de sucessos na amostra (X=0, 1, 2, ..., n) A média de uma variável aleatória com distribuição binomial é µ = np e a variância é dada por σ2= np(1-p) onde p é proporção de sucessos na amostra n x p = Exemplo: Um processo industrial opera com média de 1% de defeituosos. Baseado em amostras de 100 unidades, calcule as probabilidades de uma amostra apresentar 0 , 1 , 2 , 3 e 4 defeituosos. Plote a distribuição de probabilidade correspondente. Como a variável aleatória pode apresentar apenas duas possibilidades, ser boa ou defeituosa, a distribuição que melhor se ajusta é a distribuição binomial, com parâmetros p=0,01 e n=100. Então, a probabilidade de uma amostra de tamanho n = 100 apresentar 0 defeituosos é xnx )p(p x n )x(P −−      = 1  P(x=0) = P(0) = =−      − 01000 0101010 0 100 ),(, 0,366 P(x=1) = P(1) = =−      −11001 0101010 1 100 ),(, 0,370 P(x=2) = P(2) = =−      −21002 0101010 2 100 ),(, 0,185 P(x=3) = P(3) = =−      −31003 0101010 3 100 ),(, 0,061 P(x=4) = P(4) = =−      −41004 0101010 4 100 ),(, 0,015 Prof. Cíntia Paese Giacomello 48 0 0,1 0,2 0,3 0,4 x=0 x=1 x=2 x=3 x=4 P (x ) Exercícios: 1. Um processo opera segundo uma chance de falha de 2%. Coletando amostras de 25 unidades, qual a probabilidade de uma amostra selecionada apresentar 2 defeituosos ou menos. 2. Imagine que para o processo anterior, fossem coletadas amostras de 50 unidades e o critério para parar o processo e procurar causas especiais fosse X=1 ou mais. Calcule a percentagem de vezes que o processo seria interrompido logo após a amostragem. Distribuição de Poisson A aplicação típica da distribuição de Poisson no controle da qualidade é como um modelo para o número de defeitos (não-conformidades) que ocorre por unidade de produto (por m2, por volume ou por tempo) Diz-se que existe um processo de Poisson se pudermos observar eventos discretos numa área de oportunidade – um intervalo contínuo (de tempo, de comprimento, de área, ...) de maneira tal que, se encurtarmos a área de oportunidade ou intervalo suficientemente: 1. A probabilidade de se observar exatamente um sucesso no intervalo é estável Prof. Cíntia Paese Giacomello 49 2. A probabilidade de se observar mais de um sucesso no intervalo é zero 3. A ocorrência de um sucesso em qualquer intervalo é estatisticamente independente da ocorrência em qualquer outro intervalo A distribuição de Poisson tem um parâmetro λ (lambda) que é a média ou o número esperado de sucessos por unidade. A variância desta distribuição é σ2=λ. O número de sucessos X da variável aleatória de Poisson varia de 0 a ∞. A expressão matemática para a distribuição de Poisson para se obterem X sucessos, dado que λ sucessos são esperados é: !x e )x(P xλλ− = onde x=0,1,2,.... onde P(X) = probabilidade de X sucessos, dado o conhecimento de λ λ = número esperado de sucessos e = constante matemática (aproximadamente 2,71828) X = número de sucessos por unidade Exemplo: Suponha que o número de defeitos no cordão de solda de uma carroceria siga uma distribuição de Poisson com λ = 2. Então a probabilidade de uma carroceria apresentar mais de 3 defeitos será: P(X> 3) = 1 – P(x≤3) = 1-[ P(x=0) + P(x=1) + P(x=2) + P(x=3)] Onde !x e )x(P xλλ− =  ! e )(P 0 2 0 02− = = 0,135 P(x=1) = ! e )(P 1 2 1 12− = = 0,271 P(x=2) = P(2) = 0,271 P(x=3) = P(3) = 0,180 Logo, P(X> 3) = 1 – P(x≤3) = 1-[ P(x=0) + P(x=1) + P(x=2) + P(x=3)] = 1 – [0,135+0,271+0,271+0,180] = 1 – [0,857] =0,143  14% A probabilidade de uma carroceria apresentar mais de três defeitos é 14%. Exemplo 2: Prof. Cíntia Paese Giacomello 52 Para simplificar a notação de uma v.a.c. com distribuição normal, com média µ e variância σ 2 utiliza-se: X~ N(µ,σ2) A distribuição Normal acumulada é obtida calculando a probabilidade de X ser menor que um dado valor a: ∫ ∞− ==≤ a dx)x(f)a(F)ax(P  Função densidade acumulada Essa integral não pode ser resolvida em forma fechada, mas a solução está apresentada em tabelas onde se entra com a variável reduzida ou variável padronizada Z e encontra-se F(Z) ou vice-versa. )Z(F a ZP)ax(P =       − ≤=≤ σ µ Valor tabelado (Procurar na tabela da distribuição Normal padronizada) µ 99,73% 95,44% 68,26% -1σ +1σ -2σ +2σ -3σ +3σ Prof. Cíntia Paese Giacomello 53 Exemplo: O peso de um produto é uma característica muito importante. Sabe-se que o peso segue um modelo normal com média 1000 gramas e desvio padrão 40 gramas. Se a especificação técnica estabelece que o peso deve ser maior que 950 gramas, qual a probabilidade de que um pacote selecionado aleatoriamente satisfaça a especificação? OBS: este esquema equivale P(x>950) = 894405000039440251 40 1000950 ,,,),Z(PZP =+=−>=       − > A probabilidade de que um pacote selecionado aleatoriamente satisfaça a especificação é de 89%. Exemplo 2: Sabe-se que X representa medições feitas em um processo que segue o modelo Normal com média 100 e desvio padrão 10. Se forem feitas 4000 medições, quantas estarão entre 95 e 112? P(95<x<112)=       − << − 10 100112 10 10095 ZP = P(-0,5<Z<1,2) =0,1915+0,3849 =0,5764  Aproximadamente 58% estarão entre 95 e 112. Se forem feitas 4000 medições, aproximadamente 2305 estarão entre 95 e 112. (4000 x 57,64%) µ=1000 σ=40 X=950 µ=0 σ=1 Z=-1,25 µ=100 σ=10 Valores tabelados T abelado Prof. Cíntia Paese Giacomello 54 Exercícios: 1. A resistência à tração do papel usado em sacolas de supermercado é uma característica de qualidade importante. Sabe-se que essa resistência segue um modelo Normal com média 40 psi e desvio padrão 2 psi. Se a especificação estabelece que a resistência deve ser maior que 35 psi, qual a probabilidade que uma sacola produzida com este material satisfaça a especificação? 2. O diâmetro do eixo principal de um disco rígido segue a distribuição Normal com média 25,08mm e desvio padrão 0,05mm. Se as especificações para esse eixo são 25,00 ± 0,15mm (isto é, varia de 24,85 a 25,15mm), determine o percentual de unidades produzidas em conformidades com as especificações. 3. A resistência à tração de isoladores cerâmicos apresenta distribuição Normal com média 95 Kg e desvio padrão 4 Kg. Se são produzidas 10.000 unidades desses isoladores, quantos apresentarão resistência inferior a 85 Kg? E quantos apresentarão resistência superior a 90 Kg? 4. A saída de uma bateria segue o modelo Normal com média 12,15 V e desvio padrão 0,2 V. Encontre o percentual que irá falhar em atender às especificações 12 V ± 0,5 V. Prof. Cíntia Paese Giacomello 57 Distribuição amostral das médias Uma distribuição amostral de médias é uma distribuição de probabilidade que indica quão prováveis são diversas médias amostrais. A distribuição é função da média, do desvio padrão da população e do tamanho da amostra. Para cada combinação da média, desvio padrão e tamanho da amostra haverá uma única distribuição amostral de médias. Sejam: xµ = média da população = µ xµ = média da distribuição amostral xσ = desvio padrão da população = σ xσ = desvio padrão da distribuição amostral N = tamanho da população n = tamanho da amostra Admita-se que todas as amostras possíveis de tamanho n sejam retiradas de uma população finita de tamanho N>n. Então: População Finita: µµ =x e 1− − = N nN n x σ σ Se a população for infinita, ou se amostragem for tomada com reposição, os resultados serão: População Infinita: µµ =x e n x σ σ = A fórmula do desvio padrão nos diz que a quantidade de dispersão na distribuição amostral depende de dois fatores: - a dispersão da população - o tamanho da amostra (utilizando raiz quadrada) Por exemplo, em qualquer população, o aumento do tamanho das amostras extraídas resultará em menor variabilidade entre as possíveis médias amostrais. E se o mesmo tamanho de amostra é usado com diferentes populações, as populações com maior quantidade de dispersão σx tenderão a gerar maior quantidade de variabilidade entre as médias de amostras extraídas delas. Para amostras grandes n>30 a distribuição amostral das médias é aproximadamente normal, com média xµ e desvio padrão xσ , independente da população, desde que a variância e a média da população sejam finitas e o tamanho da população seja, no mínimo, o dobro da amostra. Este resultado para população infinita é um caso especial do Prof. Cíntia Paese Giacomello 58 teorema do limite central da teoria avançada de probabilidade, que mostra que a precisão da aproximação melhora quando n cresce. Isto é indicado, algumas vezes, dizendo-se que a população é assintoticamente normal. No caso da população ser normalmente distribuída, a distribuição amostral das médias também o será, mesmo para pequenos valores de n (n<30). Teorema do limite central 1. Se a população sob amostragem tem distribuição normal, a distribuição das médias amostrais também será normal para todos os tamanhos de amostra. 2. Se a população básica é não normal, a distribuição de médias amostrais será aproximadamente normal para grandes amostras. Exemplos: Calcule o desvio padrão da distribuição amostral de médias onde o desvio padrão da distribuição populacional é 2 e o tamanho da amostra é 40. 31620 40 2 , n x x === σ σ Determine a média das distribuições de médias amostrais, sendo que a média populacional é 678. 678== xx µµ A média de uma distribuição amostral de médias é 50 e seu desvio padrão é 10 (desvio padrão da distribuição amostral das médias). Suponha normal a distribuição amostral. Que percentagem das médias amostrais estará entre 45 e 55? O procedimento é análogo ao visto no capítulo referente à distribuição normal, entretanto deve-se utilizar o valor de xµ = 50 e xσ =10. Então P(45< xµ <55)=0,3830 Um fabricante de baterias alega que seu artigo de primeira categoria tem uma vida esperada (média) de 50 meses. Sabe-se que o desvio padrão correspondente é de 4 meses. Que percentagem de amostras de 36 observações acusará vida média no intervalo de 1 mês em torno de 50 meses, admitindo ser de 50 meses a verdadeira vida média das baterias? Sabemos que, como n>30, a distribuição das médias amostrais será aproximadamente normal com média igual à média populacional e desvio padrão igual ao desvio padrão populacional dividido pela raiz quadrada do tamanho da Prof. Cíntia Paese Giacomello 59 amostra. Além disso vamos pressupor população infinita, pois a produção de baterias não termina (teoricamente!) A solução envolve a determinação do número de desvios padrões que 49 e 51 distam da média (amostral). Determinemos primeiro o desvio padrão da distribuição amostral: 670 36 4 , n x x === σ σ para n=36 Então devemos trabalhar com x ∼N(50;0,67) P(49< x <51) x xx z σ − =  51 670 5049 , , −= −  51 670 5051 , , += − P(49< x <51)=P(-1,5<z<1,5) = 0,4332+0,4332=0,8664 Então o percentual de amostras que apresentará problemas entre 49 e 51 meses é de 87%. 49 50 51 Meses xµ ??? Prof. Cíntia Paese Giacomello 62 11 Estimação A estimação é o processo que consiste em utilizar dados amostrais para estimar parâmetros populacionais. As estatísticas amostrais são utilizadas como estimadores de parâmetros populacionais. Assim, uma média amostral é usada como estimativa da média populacional, a proporção de defeituosos de uma caixa é utilizada para estimar a proporção de defeituosos na produção toda, etc. Tais estimativas chamam-se estimativas pontuais, porque originam apenas uma única estimativa do parâmetro. Em virtude da variabilidade amostral, é usual incluir uma “estimativa intervalar” para acompanhar a estimativa pontual. Esta nova estimativa proporciona um intervalo, ou âmbito, de possíveis valores do parâmetro populacional. Estimativa pontual: estimativa única de um parâmetro populacional Estimativa intervalar: intervalo de valores possíveis, o qual se admite que esteja contendo o parâmetro. Um intervalo de confiança dá um intervalo de valores, centrado na estatística amostral, no qual julgamos, com um risco conhecido de erro, estar o parâmetro da população. Exemplos: Tipo de estimativa Parâmetro populacional Pontual Intervalar Média Um carro de motor 1.0 anda, em média, 14 km com um litro de combustível Um carro de motor 1.0 anda, em média, entre 12 e 16 km com 1 litro de combustível Proporção A proporção de peças defeituosas é de 2% A proporção de peças defeituosas está entre 1,5 % e 2,5 % Desvio padrão O desvio padrão da temperatura numa piscina não aquecida é da ordem de 2oC O desvio padrão da temperatura numa piscina não aquecida está entre 1oC e 3 oC Os intervalos de confiança podem ser unilaterais (por exemplo, a proporção de defeitos é maior de 3%) ou bilaterais (a proporção de defeitos está entre 2% e 4%). Prof. Cíntia Paese Giacomello 63 A capacidade de estimar parâmetros populacionais por meio de dados amostrais está ligada diretamente ao conhecimento da distribuição amostral da estatística que está sendo usada como estimador. Os intervalos de confiança para os parâmetros são construídos de forma que se considera uma variação em torno do valor amostral e, assim, pode-se escrever que o parâmetro situa-se entre dois limites: Valor do parâmetro = estimativa pontual ± erro de amostragem O erro de amostragem depende da distribuição amostral do parâmetro, do nível de confiança adotado e do tamanho da amostra. A tabela a seguir apresentada resume as informações necessárias para intervalos de confiança. População Infinita Finita Estimativa de médias Pontual x x Intervalar σx conhecido n zx x σ ± 1− − ± N nN n zx x σ σx desconhecido n s tx x± 1− − ± N nN n s tx x Estimativa das proporções Pontual p = n x p = n x Intervalar n )p(p zp − ± 1 1 1 − −− ± N nN n )p(p zp Onde: z representa o valor tabelado da distribuição Normal, com nível de confiança α. t representa o valor tabelado da distribuição t de Student, com nível de confiança α e GL graus de liberdade1 N é o tamanho da população n é o tamanho da amostra 1 O valor da distribuição t de Student depende do número de graus de liberdade Prof. Cíntia Paese Giacomello 64 Exemplo: Intervalo de confiança para a média µ quando se conhece a variância de população σx Seja uma amostra de tamanho 36 de uma população infinita, sabe-se que σx=3 e x =24,2 Confiança desejada Z (tabelado) Fórmula Cálculo E Intervalo 90% 1,65 n zx x σ ± 36 3 651224 ,, ± 24,2±0,825 23,375 a 25,025 95% 1,96 n zx x σ ± 36 3 961224 ,, ± 24,2±0,980 23,220 a 25,180 99% 2,58 n zx x σ ± 36 3 582224 ,, ± 24,2±1,290 23,110 a 25,690 Tamanho da amostra Uma das perguntas mais freqüentes em estatística é: “Qual o tamanho da amostra que devemos tomar?” O tamanho da amostra dependerá do grau de confiança desejado (z), da quantidade de dispersão entre os valores individuais (σx), e de certa quantidade específica de erro tolerável (e). “O tamanho da amostra que você afinal selecionará dependerá de seu orçamento, da importância econômica das decisões e da variabilidade na população. Desses três problemas, dois são de ordem gerencial, cabendo a você a decisão; apenas o terceiro (variabilidade) está fora do seu controle.”(Brenda Landy, citada no livro Pesquisa de Marketing – Naresh Malhotra. - 2001) A fórmula do erro pode ser resolvida em relação a n. Assim, para o caso de estimação de médias, tem-se: n ze x σ =  e zn x σ =  2       = e zn x σ E, para estimação de proporções n p)p(1 z e − =  2         − = n p)p(1 z e2  2 2 e p)-p(1z n = Prof. Cíntia Paese Giacomello 67 7. Determine o número de observações necessário para estimar o tempo médio de serviço de atendimento a chamadas de um bombeiro hidráulico, se o erro máximo deve ser de 0,6 hora para um nível de confiança de 95%, sabendo que o tempo de atendimento tem um desvio padrão de 1 hora. Suponha normalidade na população. 8. Um engenheiro deseja estimar a quantidade de açúcar existente nos alimentos produzidos pela empresa. Ele coletou uma amostra de 18 unidades do alimento e verificou média 24 gr de açúcar, com desvio padrão de 5 gr. Construa o intervalo de confiança de 90% para a quantidade de açúcar presente nos alimentos. 9. Numa pesquisa com funcionários de uma empresa questionou-se a satisfação com a política desenvolvida pela diretoria. De 300 funcionários, 36 estavam insatisfeitos. Construa uma estimativa para a proporção de funcionários insatisfeitos, com 95% de confiança. 10. O IBOPE está interessado em estimar a proporção de residências que assistem ao programa do Faustão. Qual o número mínimo de residências que se deve analisar para ter 95% de confiança e margem de erro máxima de 0,03 para a estimativa? Prof. Cíntia Paese Giacomello 68 12 Testes de hipóteses Os testes de hipóteses são também conhecidos como testes de significância. A finalidade dos testes de hipóteses é avaliar afirmações sobre os valores de parâmetros populacionais. Os testes de hipóteses e a estimação são dois ramos principais da inferência estatística. Enquanto o objetivo da estimação é estimar algum parâmetro populacional, o objetivo dos testes de hipóteses é decidir se determinada afirmação sobre um parâmetro populacional é verdadeira. Por exemplo, podemos querer determinar se são verdadeiras as afirmações: - o tempo médio de realização do teste é 80 minutos - três por cento da população (de determinado item) é defeituosa - os percentuais de não conformes dos dois processos são iguais Utilizam-se duas hipóteses, sendo chamadas de hipótese nula (H0) e hipótese alternativa (H1) A hipótese nula H0 é uma afirmação que diz que o parâmetro populacional é tal como especificado (isto é, a afirmação é verdadeira) A hipótese alternativa H1 é uma afirmação que oferece uma alternativa à alegação (isto é, o parâmetro é maior (ou menor) que o valor alegado) Exemplo: O estudo de uma amostra de tamanho 55 peças indicou que o diâmetro médio é de 27,5 mm. Então: H0: o diâmetro médio da população (de peças) é 27,5 mm H1: o diâmetro médio da população (de peças) é diferente de 27,5 mm Os testes de hipótese utilizam a significância adotada pelo pesquisador. A significância é a probabilidade de uma hipótese nula ser rejeitada, quando verdadeira. Que coincide com o erro tipo I. Ao testar uma hipótese, há dois tipos de erros que podemos cometer: α = P {rejeitar H0/ H0 é verdadeira} = erro do tipo I β = P {aceitar H0/ H0 é falsa} = erro do tipo II O procedimento usual é fixar o valor de α e verificar o valor de β. O risco β é uma função do tamanho da amostra, e é controlado indiretamente. Quanto maior o tamanho da amostra, menor será o risco β. Prof. Cíntia Paese Giacomello 69 Se H0 é Verdadeira Falsa Aceitar H0 Decisão correta Erro tipo II (β) Ação Rejeitar H0 Erro tipo I (α) Decisão correta Basicamente os testes de hipótese envolvem as seguintes etapas: 1. Estabelecer as hipóteses nula e alternativa; 2. Identificar a distribuição amostral adequada; 3. Escolher um nível de significância (e assim os valores críticos); 4. Calcular a estatística do teste e compará-la com os valores críticos; 5. Rejeitar a hipótese de nulidade se a estatística do teste excede o(s) valor (es) crítico(s); caso contrário, aceitá-la. Os testes de hipótese podem ser unilaterais ou bilaterais. Nos testes unilaterais a hipótese alternativa H1 é do tipo µ>33 ou µ<33, por exemplo. Nos testes bilaterais a hipótese alternativa é do tipo µ≠33. A hipótese nula permanece igual nos dois casos. A área de rejeição é dividida quando o teste é bilateral. Exercícios 1. Para cada um dos seguintes casos, trace uma curva normal, indicando a área de rejeição na figura. a) H0: µ=10, H1: µ≠10, α=0,02 b) H0: µ=120, H1: µ≠120, α=0,05 c) H0: µ=2000, H1: µ≠2000, α=0,01 d) H0: µ=2000, H1: µ>2000, α=0,01 e) H0: µ=2000, H1: µ<2000, α=0,01 α/2 α/2 α α Rejeitar H0 Rejeitar H0 Rejeitar H0 Rejeitar H0 H1: µ<33 H1: µ>33 H1: µ≠33 Prof. Cíntia Paese Giacomello 72 12.2 Testes de duas amostras para médias Os testes de duas amostras são usados para decidir se as médias de duas populações são iguais. Exigem-se amostras independentes, ou seja, uma de cada população. Eles são freqüentemente utilizados para comparar dois métodos de ensino, duas cidades, duas marcas, duas fábricas, .... OBS: dados provenientes de antes-depois são dependentes, não podendo, portanto, serem tratados por este método. σx conhecido Quando há duas populações com médias desconhecidas, digamos µa e µb e desvios padrões conhecidos, σa e σb , o teste para verificar a hipótese que as médias sejam iguais é o seguinte: 211 21 µµ µµ ≠ = :H :Ho 2 2 2 1 2 1 21 nn XX Z teste σσ + − = E rejeita-se H0 se |Zteste| > Zα/2 σx desconhecido Similarmente, quando , σa e σb , não são conhecidos, o teste para verificar a hipótese que as médias sejam iguais é: 2 2 2 1 2 1 21 n S n S XX t xx teste + − = E rejeita-se H0 se |tteste| > tα/2, n1+n2-2 12.3 Teste para proporções Este tipo de teste é apropriado quando os dados sob análise consistem de contagem ou freqüências de itens em duas ou mais classes. A finalidade de tal teste é avaliar afirmações sobre a proporção (ou percentagem) de uma população. O teste se baseia na premissa de que uma proporção amostral será igual à verdadeira proporção populacional, a menos da variabilidade amostral. O teste foca na diferença entre o número esperado de ocorrências (supondo-se verdadeira uma afirmação) e o número efetivamente observado. A diferença é então comparada com a variabilidade prescrita por uma distribuição amostral baseada na hipótese de que H0 é realmente verdadeira. Prof. Cíntia Paese Giacomello 73 Quando a finalidade da amostragem é julgar a validade de uma alegação acerca de uma proporção populacional, é apropriado o teste para proporções.Onde: H0: p = p0 H1: p ≠p0 O valor da estatística de teste é dado por n/)p(p pn x zteste 00 0 1 − − = e deve ser comparada com o valor crítico de Z (retirado de uma tabela da distribuição normal) Exemplo: Um fabricante afirma que uma remessa de pregos contém menos de 1% de defeituosos. Uma amostra aleatória de 200 pregos acusa 4 defeituosos. Teste a afirmação ao nível 0,01. H0 : p = 1% H1 : p > 1%  pois desejamos evitar a aceitação de uma remessa com mais de 1% de defeituosos, mas nada há contra aceitar o fato da remessa apresentar qualidade superior à acordada. n/)p(p pn x zteste 00 0 1 − − = = 421 2000101010 010 200 4 , /),(, , zteste = − − = Na tabela da distribuição normal, z0,01=2,33 Aceita-se H0, e pode-se dizer que a quantidade de pregos defeituosos é 1% ou menos, ao nível de significância 0,01. 12.4 Teste do qui-quadrado (k amostras para proporções) A finalidade de um teste de k amostras é avaliar se as proporções de k amostras independentes provenham de populações que contenham a mesma proporção de determinado item. Conseqüentemente, tem-se: H0: As proporções populacionais são todas iguais H1: As proporções populacionais não são iguais Ou seja, estamos testando se as duas variáveis são ou não associadas, por exemplo, se queremos testar se a proporção de mulheres e de homens que trabalham no horário Prof. Cíntia Paese Giacomello 74 noturno em uma fábrica são iguais, automaticamente estaremos testando se sexo e turno de trabalho são variáveis associadas. Este teste baseia-se na distribuição qui-quadrado, onde o valor calculado deve ser comparado com o valor tabelado. A decisão de aceitar ou rejeitar H0 dependerá da comparação deste valor com o valor tabelado da distribuição qui-quadrado. Por exemplo, tem-se a distribuição de peças produzidas por turno e se essas peças são boas ou apresentam algum tipo de defeito. No turno da manhã foram produzidas 967 peças, onde 183 apresentaram algum tipo de defeito. Turno de produção Manhã Tarde Noite Total Peças com algum defeito 183 30 11 224 Peças boas 784 264 308 1356 Total 967 294 319 1580 O teste baseia-se na pressuposição que, se as duas variáveis fossem independentes, então o valor esperado de cada célula poderia ser encontrado fazendo-se: geral_total )coluna_total(x)linha_total( Esperada_Frequência = Neste caso, a tabela com as freqüências esperadas seria: Tabela de freqüências esperadas Turno de produção Manhã Tarde Noite Total Peças com algum defeito 137,1 41,7 45,2 224 Peças boas 829,9 252,3 273,8 1356 Total 967 294 319 1580 1137 1580 967224 , x esperada_Freq == Prof. Cíntia Paese Giacomello 77 6. Um psicólogo de indústrias deseja estudar os efeitos da motivação nas vendas, em determinada empresa. Foi selecionada uma amostra aleatória de 24 indivíduos, 12 de cada grupo. Os dados a seguir representam o volume de vendas (em milhares de reais) alcançado durante o primeiro mês de emprego. Há evidências de que o volume médio de vendas seja diferente entre os grupos? (utilize nível de significância 0,05) Por hora Comissão 256 207 224 285 212 219 261 225 239 228 254 237 216 225 228 232 222 241 273 277 236 230 234 245 7. No caso judicial EUA versus Cidade de Chicago, foram postas em dúvida as práticas honestas de emprego. Um grupo minoritário (A) e um grupo majoritário (B) fizeram o exame para capitão do corpo de bombeiros, com os seguintes resultados: Aprovados Reprovados Grupo A 10 14 Grupo B 417 145 Com os resultados acima, e com nível de significância de 5%, teste a afirmação de que o sucesso no teste é independente do grupo. 8. Solicitou-se a quatro amostras de 30 funcionários de uma grande empresa que opinassem sobre a nova direção da empresa. Ao nível de significância 0,01, o que se pode concluir? Estagiários Treinees Técnicos Gerentes Aprovam 5 4 20 27 Desaprovam 25 26 10 3 Prof. Cíntia Paese Giacomello 78 9. Um estudo de usuários e não usuários do cinto de segurança resultou nos dados amostrais aleatórios resumidos na tabela a seguir. Teste a afirmação de que a quantidade de fumo é independente do uso do cinto de segurança. Uma teoria plausível é que as pessoas que fumam mais estão menos preocupadas com a sua saúde e segurança, sendo assim, menos propensas a usar cintos. Com nível de significância 0,01, os dados amostrais apóiam esta teoria? Número de cigarros fumados por dia 0 1-14 15-34 35 ou + Usam cinto de segurança 175 20 42 6 Não usam cinto de segurança 149 17 41 9 10. A tabela abaixo apresenta dados relativos ao time vencedor em diferentes esportes. Com o nível de 0,05 de significância, teste a afirmação de que as vitórias casa/visitante são independentes do esporte. Basquete Beisebol Hockey Futebol O time da casa ganha 127 53 50 57 O time visitante ganha 71 47 43 42 Prof. Cíntia Paese Giacomello 79 13 Análise de variância (ANOVA - Analysis of Variance) Há situações onde se deseja comparar várias médias, cada uma oriunda de um grupo diferente. Esses grupos, também chamados tratamentos, poderiam ser 5 máquinas de corte, ou 4 pressões de operação, ou 4 layouts, 5 planos econômicos do governo, taxas de câmbio em 3 diferentes países, resultados da implantação de um novo sistema em duas filiais, etc. Exemplo: Para verificar se existe diferença significativa entre os salários médios dos economistas da Região Sul, o sindicato da classe resolveu analisar os dados de algumas amostras. Assim foram selecionados aleatoriamente 5 economistas de cada estado. Econ.1 Econ.2 Econ.3 Econ.4 Econ.5 Rio Grande do Sul 370 420 280 340 410 Santa Catarina 280 350 430 290 405 Paraná 325 400 295 350 380 Exemplo: Uma classe com 24 crianças foi dividida em três grupos. Cada grupo de crianças aprendeu a ler de acordo com um método (três métodos diferentes). Após 3 meses as crianças foram testadas, utilizando uma escala de 1 a 10. Os resultados foram Método A 5 0 3 5 4 5 8 2 Método B 4 5 4 7 5 10 3 10 Método C 3 5 0 3 3 9 4 9 Prof. Cíntia Paese Giacomello 82 A Análise de Variância se baseia na decomposição da variabilidade total. Mais especificamente, os desvios das observações individuais em relação à média global podem ser escritos como: ( ) ( ) ( )Y Y Y Y Y Yij i ij i− = − + −.. . .. . (1) onde: ( )Y Yi. ..− é o desvio da média do tratamento i em relação à média global; ( )Y Yij i− . é o desvio da observação individual em relação à média do tratamento correspondente; Elevando ao quadrado ambos os termos da equação (1) e efetuando o somatório, resulta: ( ) ( ) ( )Y Y n Y Y Y Yij i ii j i ij i ij − = − + −∑∑ ∑.. , . .. . 2 2 2 (2) Na equação (2), identificamos as seguintes somas quadradas: SQT = SQG + SQR onde: SQT  é a soma dos quadrados totais, decomposta em: SQG  soma dos quadrados dos grupos (tratamentos), associada exclusivamente a um efeito dos grupos; SQR  soma dos quadrados dos resíduos, devida exclusivamente ao erro aleatório, medida dentro dos grupos. As divisões das somas de quadrados (SQ) pelos graus de liberdade fornecem as médias quadradas (MQ), que são as estimativas de variabilidade de cada parcela. Os graus de liberdade são obtidos através do número de níveis do fator e da quantidade de repetições para cada nível, ou seja, se o fator tem 5 níveis, terá 4 graus de liberdade (k-1). Os graus de liberdade totais são obtidos através do total de observações menos 1 (N-1) e os graus de liberdade dentro dos grupos será a diferença entre eles (N-1)-(k-1) = (N-k). Para testar a hipótese referente ao efeito dos grupos, usamos a distribuição F : MQR MQG F = Prof. Cíntia Paese Giacomello 83 O valor resultante do teste F deve ser comparado com uma tabela de valores F, que indica o valor máximo da estatística no caso de Ho ser verdadeira, a um determinado nível de confiança. Como o valor tabelado de F é contínuo e depende da combinação dos graus de liberdade do numerador e do denominador, é usual apresentar seus valores apenas para os níveis de confiança 0,05 e 0,01. Os graus de liberdade para a determinação do valor F são os mesmos apresentados na tabela da ANOVA. Os valores constantes na tabela F são valores críticos: apresentam a linha divisória entre a variação aleatória e a não aleatória. Ao fazer a análise de variância, utilizam-se as duas estimativas amostrais da variância para calcular uma razão F. Compara-se então o número resultante com o número tabelado. Se o valor calculado é maior que o valor tabelado, rejeita-se a hipótese nula. Se o valor calculado é menor que o valor tabelado, a hipótese nula não pode ser rejeitada. 13.1 Formulário para solução Para o cálculo das Somas Quadradas é recomendado o uso do seguinte formulário: TC T N= ( .. )2 ( )SQT Y TCij= −∑ 2 ( )SQG T n TCi i= −∑ .2 ( ) ( )SQR Y T n SQT SQGij i i= − = −∑∑ 2 2. onde TC é o termo de correção T.. é a soma de todas as observações Ti. é a soma das observações no grupo i Valor tabelado Concluir pelo não-acaso Rejeitar Ho Concluir pelo acaso Aceitar Ho Nível de significância = área da cauda 0 Distribuição F Prof. Cíntia Paese Giacomello 84 Resolvendo o exemplo dos métodos de ensino através deste formulário obtém-se: Uma classe com 24 crianças foi dividida em três grupos. Cada grupo de crianças aprendeu a ler de acordo com um método (três métodos diferentes). Após 3 meses as crianças foram testadas, utilizando uma escala de 1 a 10. Os resultados foram Método A 5 0 3 5 4 5 8 2 Método B 4 5 4 7 5 10 3 10 Método C 3 5 0 3 3 9 4 9 k = 3 (três níveis do fator, método A, B e C) N = 24 (oito alunos por método) T.. = 5 + 0 + 3 + ... + 4 + 9 = 116 (somar todas as observações) TA. = 5 + 0 + 3 + 5 + 4 + 5 + 8 + 2 = 32 (somar as observações do método A) TB. = 48 (somar as observações do método B) TC. = 36 (somar as observações do método C) TC = 1162 / 24 = 560,67 SQT = (52 + 02 + 32 + ... + 42 + 92 ) – 560,67 = 738 – 560,67 = 177,33 17,33 560,67-578,00 560,67 8 36 8 48 8 32 SQG 222 ==−      ++= SQR = SQT – SQG = 177,33 – 17,33 = 160,00 Então a tabela da ANOVA ficaria: Fonte de variação SQ GDL MQ Teste F Entre grupos 17,33 2 8,67 1,14 Dentro de grupos 160,00 21 7,62 Total 177,33 23 O valor de F tabelado com 2 e 21 graus de liberdade no numerador e denominador, respectivamente, e nível de significância de 0,05 é F0,05≈ 3,49. Como F calculado < F tabelado, concluímos que não há evidências de que os métodos de ensino alterem a aprendizagem das crianças, ou seja, os métodos de ensino devem ser equivalentes. Prof. Cíntia Paese Giacomello 87 Exercícios: 1. Suponha que o valor crítico de F na análise de variância seja 1,99 ao nível de 0,05. Com base na figura: a) Como você interpretaria uma estatística de teste maior que 1,99? b) Como você interpretaria uma estatística de teste menor que 1,99? 2. Duas turmas de pilotos de corrida de automóveis estão sendo treinadas para uma grande corrida no domingo. Cada turma faz cinco provas de troca dos quatro pneus num carro. As turmas são equivalentes ou uma delas é superior, ao nível de significância 0,05? Complete a tabela da ANOVA e conclua a respeito. Fonte de variação SQ GDL MQ Teste F Entre grupos Dentro de grupos 0,12 Total 0,22 3. Realiza-se um experimento para determinar-se as produções de cinco variedades de trigo: A, B, C, D e E. São atribuídos quatro lotes de terra para cada variedade e as produções, em toneladas, estão apresentadas na tabela. Supondo-se que os lotes possuem fertilidades semelhantes e que as variedades são atribuídas aos lotes aleatoriamente, determinar se existe diferença entre as produções ao nível de significância 0,01. A 20 12 15 19 B 17 14 12 15 C 23 16 18 14 D 15 17 20 12 E 21 14 17 18 1,99 0 Distribuição F 0,05 Prof. Cíntia Paese Giacomello 88 4. Uma empresa deseja testar quatro tipos diferentes de pneus: K, L, M e N. Suas durações, determinadas pelas bandas de rodagem, estão na tabela (em milhares de quilômetros), onde cada tipo foi testado, aleatoriamente, em seis automóveis semelhantes. Determinar de existe diferença significante entre os pneus ao nível de significância 0,05. K 33 38 36 40 31 35 L 32 40 42 38 30 34 M 31 31 37 35 33 30 N 29 34 32 30 33 31 5. Um professor deseja testar três métodos diferentes de ensino I, II e III. Para isso são escolhidos aleatoriamente três grupos de cinco estudantes, e cada grupo é instruído por um método diferente. É dada a mesma prova a todos os estudantes e os graus obtidos constam na tabela. Determinar se existe diferença entre os métodos de ensino ao nível de significância 0,01. I 75 62 71 58 73 II 81 85 68 92 90 III 73 79 60 75 81 6. A tabela apresenta os dados sobre a ferrugem acumulada sobre o ferro, que foi tratado quimicamente com os produtos A, B ou C. Determinar se existe diferença significativa nos tratamentos ao nível de 0,05. A 3 5 4 4 B 4 2 3 3 C 6 4 5 5 7. Um experimento mede os quocientes de inteligência (QI) de estudantes do sexo masculino de estaturas alta, média e baixa, cujos resultados aparecem na tabela. Determinar se existe qualquer diferença nas contagens do QI em relação às diferentes alturas ao nível de significância de 0,01. Alta 110 105 118 90 Média 95 103 119 104 Baixa 108 112 104 93 Prof. Cíntia Paese Giacomello 89 8. A fim de produzir um tipo superior de ração para galinhas, adicionou-se à ração tradicional quatro quantidades diferentes de um mesmo produto químico. Cada quantidade de ração é dada a 8 pintos e o peso das aves após 3 meses é anotado. Concluir se houve diferença entre as quantidades do produto químico ao nível de significância 0,05. 20 mg 46 46 46 45 45 45 46 46 30 mg 48 48 47 47 47 47 47 48 40 mg 49 49 50 50 49 50 50 49 50 mg 52 53 52 52 52 52 53 53 9. Uma empresa deseja estudar três tipos de enxerto para ver se todos apresentam o mesmo crescimento anual. O que se pode concluir a respeito? (use nível de significância 0,05) Enxerto 1 Enxerto 2 Enxerto 3 14,4 10,8 11,1 14,8 12,2 9,5 12,7 11,2 10,8 12,2 12,8 12,7 10,9 13,0 10,9 10. Os dados abaixo dão a vida observada dos pneus de quatro caminhões distribuidores de sorvete, conforme a posição. Supondo comparáveis os caminhões e os motoristas, poderemos afirmar que a duração média é independente da posição do pneu no veículo? (use nível de significância 0,01). Disponha os cálculos numa tabela ANOVA. Qual a importância da comparabilidade dos motoristas e veículos? Dianteiro direito 17 19 20 24 Dianteiro esquerdo 25 27 18 22 Traseiro direito 22 21 19 26 Traseiro esquerdo 26 24 30 28 Prof. Cíntia Paese Giacomello 92 n xby a )x()x(n )y)(x()xy(n b 22 ∑∑ ∑∑ ∑ ∑∑ − = − − = 14.3.2 Erro padrão da estimativa linear Uma vez que as estimativas a e b são funções de variáveis aleatórias (x e y são variáveis aleatórias) é necessário verificar a precisão das estimativas, conhecendo o erro padrão das estimativas. 2n )xybya(y S 2 E − +− = ∑ ∑ ∑ 14.3.3 Intervalo de confiança para a estimativa Para criar intervalos de confiança com base nos estimadores utiliza-se a equação: Eervaloint S tŷy ±= Onde: ŷ é obtido da equação. t é o valor da distribuição t de Student para n-2 graus de liberdade e nível de confiança determinado (tabelado) e SE é o erro padrão da estimativa Exemplo: Seja y o consumo pessoal médio e x o PIB do Brasil em anos consecutivos. Encontre o Intervalo de confiança 90% para a estimativa quando o PIB for 10,0. x y x2 xy 7,0 10,1 49,00 70,70 7,3 10,6 53,29 77,38 7,8 11,3 60,84 88,14 8,6 12,4 73,96 106,64 8,1 11,9 65,61 96,39 8,3 11,9 68,89 98,77 8,2 11,5 67,24 94,30 8,6 12,1 73,96 104,06 9,0 13,1 81,00 117,90 9,6 14,1 92,16 135,36 9,1 14,6 82,81 132,86 Σx = 91,6 Σy = 133,6 Σ x2 = 768,76 Σ xy = 1122,50 Prof. Cíntia Paese Giacomello 93 É ideal que sempre se inicie o estudo de regressão com o gráfico de dispersão dos valores. Consumo pessoal em função do PIB 8,0 10,0 12,0 14,0 6,5 7,5 8,5 9,5 10,5 PIB C o n s u m o p e s s o a l E o cálculo de a e b fica: 668,1b 2(91,6) - (768,76) 11 (133,6) (91,6) - (1122,5) 11 == e 744,1 11 91,6 (1,668) - 133,6 a −== x668,1744,1ŷ +−= , ou PIB668,1744,1Consumo +−= ou seja, para cada unidade acrescida do PIB, o consumo pessoal aumentará 1,668 unidades. E o intervalo de confiança para y quando x=10 será: 4653,0 211 ))50,1122(668,1)6,133)(744,1((28,1641 S E = − +−− = 936,14)10(668,1744,1ŷ =+−= )4653,0( 833,1936,14int ±=ervaloy 853,0936,14int ±=ervaloy Ou seja, quando o PIB estiver em 10,0 o Consumo Pessoal poderá variar na faixa entre 14,083 e 15,789, com 90% de confiança. Valor de t tabelado Prof. Cíntia Paese Giacomello 94 Correlação 14.4 Objetivo da correlação O objetivo da correlação é determinar a força do relacionamento entre duas observações emparelhadas, porque indica até que ponto os valores de uma variável estão relacionados com os valores da outra variável. O resultado da análise de correlação é chamado de coeficiente de correlação – um valor que quantifica o grau de correlação. O método mais comum de análise de correlação envolve observações em valores numéricos. Neste caso utiliza-se o coeficiente r de Pearson. 14.5 O coeficiente r de Pearson (correlação) O coeficiente r de Pearson mede o grau de associação linear em duas variáveis. Ele possui duas propriedades importantes: • Seu sinal. Positivo indica correlação linear positiva, ou seja, à medida que uma variável cresce, a outra cresce também. Sinal negativo indica correlação linear negativa, ou seja, à medida que uma variável cresce, a outra decresce. • Sua grandeza indica quão próximos da reta estão os pontos individuais caso fosse ajustada uma reta de regressão. O valor do coeficiente pode variar de –1 a 1. -1 0 1 Correlação negativa forte Inexistência de correlação Correlação positiva forte O cálculo do valor do coeficiente r de Pearson pode ser obtido através da equação:         −        − − = ∑∑∑∑ ∑∑∑ n )y( y n )x( x n )y)(x( xy r 2 2 2 2 14.6 Coeficiente de determinação O coeficiente de determinação ou de explicação (r2) indica quantos por cento a variação explicada pela regressão representa da variação total. r2 = r.r e 0 ≤ r2 ≤ 1
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved