Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Estatística Completa, Notas de estudo de Administração Empresarial

APOSTILA DE ESTATÍSTICA

Tipologia: Notas de estudo

Antes de 2010

Compartilhado em 11/03/2007

flavio-tessutti-11
flavio-tessutti-11 🇧🇷

5

(2)

1 documento

1 / 139

Documentos relacionados


Pré-visualização parcial do texto

Baixe Estatística Completa e outras Notas de estudo em PDF para Administração Empresarial, somente na Docsity! APOSTILA ESTATÍSTICA Luis Felipe Dias Lopes, Dr. lflopes@smail.ufsm.br, phil.zaz@zaz.com.br D E - UFSM 2 0 0 3 Sumário 1 Conceitos básicos 1.1 População x Amostra 1.2 Censo x Amostragem 1.3 Dado x Variável 1.4 Parâmetros x estatísticas 1.5 Arredondamento de dados 1.6 Fases do método estatístico 2 Representação tabular 2.1 Representação esquemática 2.2 Elementos de uma tabela 2.3 Séries estatísticas 2.4 Distribuição de freqüência 3 Representação gráfica 3.1 Gráficos de Linhas 3.2 Gráficos de colunas ou barras 3.3 Gráficos circulares ou de Setores (Pie Charts) 3.4 Gráfico Pictorial - Pictograma 3.5 Gráfico Polar 3.6 Cartograma 3.7 Gráficos utilizados para a análise de uma distribuição de freqüência 4 Medidas descritivas 4.1 Medidas de posição 4.2 Medidas de variabilidade ou dispersão 4.3 Medidas de dispersão relativas 4.4 Momentos, assimetria e curtose 4.5 Exercícios 5 Probabilidade e variáveis aleatórias 5.1 Modelos matemáticos 5.2 Conceitos em probabilidade 5.3 Conceitos de probabilidade 5.4 Exercícios 5.5 Teorema de Bayes 5.6 Variáveis aleatórias 5.7 Função de probabilidade 2 - Qualitativas (ou atributos): São características de uma população que não pode ser medidas. Nominal : são utilizados símbolos, ou números, para representar determinado tipo de dados, mostrando, assim, a qual grupo ou categoria eles pertencem. Ordinal ou por postos: quando uma classificação for dividida em categorias ordenadas em graus convencionados, havendo uma relação entre as categorias do tipo “maior do que”, “menor do que”, “igual a”, os dados por postos consistem de valores relativos atribuídos para denotar a ordem de primeiro, segundo, terceiro e, assim, sucessivamente. - Quantitativas: São características populacionais que podem ser quantificadas, sendo classificadas em discretas e contínuas. Discretas: são aquelas variáveis que pode assumir somente valores inteiros num conjunto de valores. É gerada pelo processo de contagem, como o número de veículos que passa em um posto de gasolina, o número de estudantes nesta sala de aula. Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. É gerada pelo processo de medição. Neste caso serve como exemplo o volume de água em um reservatório ou o peso de um pacote de cereal. 1.4 Parâmetros x Estatísticas • Parâmetros: são medidas populacionais quando se investiga a população em sua totalidade, neste caso é impossível fazer inferências, pois toda a população foi investigada. • Estatísticas ou Estimadores: são medidas obtidas da amostra, torna-se possível neste caso utilizarmos as teorias inferências para que possamos fazer conclusões sobre a população. 3 1.5 Arredondamento de Dados Regras: Portaria 36 de 06/07/1965 - INPM ⇒ Instituto Nacional de Pesos e Medidas. 1a) Se o primeiro algarismo após aquele que formos arredondar for de 0 a 4, conservamos o algarismo a ser arredondado e desprezamos os seguintes. Ex.: 7,34856 (para décimos) → 7,3 2a) Se o primeiro algarismo após aquele que formos arredondar for de 6 a 9, acrescenta-se uma unidade no algarismo a ser arredondado e desprezamos os seguintes. Ex.: 1,2734 (para décimos) → 1,3 3a) Se o primeiro algarismo após aquele que formos arredondar for 5, seguido apenas de zeros, conservamos o algarismo se ele for par ou aumentamos uma unidade se ele for ímpar, desprezando os seguintes. Ex.: 6,2500 (para décimos) → 6,2 12,350 (para décimos) → 12,4 Se o 5 for seguido de outros algarismos dos quais, pelo menos um é diferente de zero, aumentamos uma unidade no algarismo e desprezamos os seguintes. Ex.: 8,2502 (para décimos) → 8,3 8,4503 (para décimos) → 8,5 4a) Quando, arredondarmos uma série de parcelas, e a soma ficar alterada, devemos fazer um novo arredondamento (por falta ou por excesso), na maior parcela do conjunto, de modo que a soma fique inalterada. Ex.: 17,4% + 18,4% + 12,3% + 29,7% + 22,2% = 100% arredondando para inteiro: 17% + 18% + 12% + 30% + 22% = 99% 17% + 18% + 12% + 31% + 22% = 100% 4 1.6 Fases do método estatístico O método estatístico abrange as seguintes fases: a) Definição do Problema Consiste na: - formulação correta do problema; - examinar outros levantamentos realizados no mesmo campo (revisão da literatura); - saber exatamente o que se pretende pesquisar definindo o problema corretamente (variáveis, população, hipóteses, etc.) b) Planejamento Determinar o procedimento necessário para resolver o problema: - Como levantar informações; - Tipos de levantamentos: Por Censo (completo); Por Amostragem (parcial). - Cronograma, Custos, etc. c) Coleta ou levantamento dos dados Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer. A coleta pode ser: Direta - diretamente da fonte; Indireta - feita através de outras fontes. Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de terceiros (secundários). d) Apuração dos Dados ou sumarização Consiste em resumir os dados, através de uma contagem e agrupamento. É um trabalho de coordenação e de tabulação. Apuração: manual, mecânica, eletrônica e eletromecânica. e) Apresentação dos dados É a fase em que vamos mostrar os resultados obtidos na coleta e na organização. Esta apresentação pode ser: Tabular (apresentação numérica) Gráfica (apresentação geométrica) f) Análise e interpretação dos dados É a fase mais importante e também a mais delicada. Tira conclusões que auxiliam o pesquisador a resolver seu problema. 7 • Série Mista ou Composta: A combinação entre duas ou mais séries constituem novas séries denominadas compostas e apresentadas em tabelas de dupla entrada. O nome da série mista surge de acordo com a combinação de pelo menos dois elementos. Local + Época = Série Geográfica Temporal População Urbana do Brasil por Região de 1940 a 1980 (x 1000) R E G I Õ E S Anos N NE SE S CO 1940 406 3 381 7 232 1 591 271 1950 581 4 745 10 721 2 313 424 1960 958 7 517 17 461 4 361 1 007 1970 1 624 11 753 28 965 7 303 2 437 1980 3 037 17 567 42 810 11 878 5 115 Fonte: Anuário Estatístico (1984) 2.4 Distribuição de Freqüência É o tipo de série estatística na qual permanece constante o fato, o local e a época. Os dados são colocados em classes preestabelecidas, registrando a freqüência de ocorrência. Uma distribuição de freqüência pode ser classificada em discreta e intervalar. a) Distribuição de Freqüência Discreta ou Pontual: É uma série de dados agrupados na qual o número de observações está relacionado com um ponto real. Notas do Aluno "X" na Disciplina de Estatística segundo critérios de avaliação do DE da UFSM – 1990 Xi fi 6.3 2 8.4 3 5.3 2 9.5 3 6.5 5 Σ 15 Fonte: Departamento de Estatística (1990) 8 b) Distribuição de Freqüências Intervalar: Na distribuição de freqüência, os intervalos parciais deverão ser apresentados de maneira a evitar dúvidas quanto à classe a que permanece determinado elemento. O tipo de intervalo mais usado é do tipo fechado a esquerda e aberto a direita, representado pelo símbolo: |---. Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 Altura (cm) Xi fi 150 |--- 158 154 18 158 |--- 166 162 25 166 |--- 174 170 20 174 |--- 182 178 52 182 |--- 190 186 30 190 |--- 198 194 15 Σ ---- 160 Fonte: Departamento de Estatística (1990) Elementos de uma Distribuição de Freqüências: Ø Classe ou Classe de Freqüência (K): É cada subintervalo (linha) na qual dividimos o fenômeno. Para determinar o número de classes a partir dos dados não tabelados, podemos usar a Fórmula de Sturges, mas deve-se saber que existem outros métodos de determinação do número de classes em uma tabela de freqüência. O que se deseja fazer é apenas comprimir um conjunto de dados em uma tabela, para facilitar a visualização e interpretação dos mesmos. n log 3.31n(K) += , onde “n” é no de informações. Além da Regra de Sturges, existem outras fórmulas empíricas para resolver o problema para determinação do número de classes [n(k)], há quem prefira n)k(n ≅ . Entretanto, a verdade é que essas fórmulas não nos levam a uma decisão final; esta vai depender na realidade de um julgamento pessoal, que deverá estar ligado a natureza dos dados, procurando, sempre que possível, evitar classes com freqüências nulas ou freqüências relativas exageradamente grandes. Ø Limite de Classe (li ou Li): São os valores extremos de cada classe. li = limite inferior da i-ésima classe; Li = limite superior da i-ésima classe; 9 Ø Amplitude do intervalo de classe (h): É a diferença entre dois limites inferiores ou superiores consecutivos. llh 1nn −−= ou 1nn LL=h −− A amplitude do intervalo de classe deve ser constante em todo a distribuição de freqüências intervalar. Ø Amplitude total (H): É a diferença entre o limite superior da última classe e o limite inferior da 1ª classe, ou a diferença entre último e o primeiro elemento de um conjunto de dados postos em ordem crescente. 1n lLH −= Ø Ponto médio de classe (Xi): É a média aritmética simples do limite inferior com o limite superior de uma mesma classe. 2 Ll X iii + = ou a partir do X1 os demais pontos médios pode ser determinado por: hXX 1nn += − Quando substituirmos os intervalos de classes pelos pontos médios (Xi), ter-se´-á uma distribuição de freqüência pontual . Ø Freqüência absoluta (fi): É a quantidade de valores em cada classe n21 n 1i i f...fffn +++== ∑ = Ø Freqüência Acumulada (Fi): É o somatório da freqüência absoluta da i-ésima classe com a freqüência absoluta das classes anteriores, ou a freqüência acumulada da classe anterior. nfF n 1i in == ∑ = Ø Freqüência Relativa (fri): É o quociente entre a freqüência absoluta da i-ésima classe com o somatório das freqüências. ∑ = = n 1i i i i f ffr Obs.: 1fr n 1i i =∑ = Ø Freqüência Relativa Acumulada (Fri): É o somatório da freqüência relativa da i-ésima classe com as freqüências relativas das classes anteriores. 1frFr n 1i in == ∑ = 12 b) Colunas Sobrepostas (gráfico comparativo) População Urbana do Brasil por Região de 1940 a 1980 (x 1000) 0 20000 40000 60000 80000 100000 1940 1950 1960 1970 1980 CO S SE N NE Fonte: Anuário Estatístico (1984) 3.2.2 Gráfico de Barras As regras usadas para o gráfico de barras são igua is as usadas para o gráfico de colunas. População Urbana do Brasil em 1980 (x 1000) Regiões População 0 10000 20000 30000 40000 50000 N NE SE S CO 3037 17568 42810 11878 5115 Fonte: Anuário Estatístico (1984)  Assim como os gráficos de Colunas podem ser construídos gráficos de barras comparativas. 3.3 Gráficos circulares ou de Setores (Pie Charts) Representação gráfica da freqüência relativa (percentagem) de cada categoria da variável. Este gráfico é utilizado para variáveis nominais e ordinais. É uma opção ao gráfico de barras quando se pretende dar ênfase à comparação das percentagens de cada categoria. A construção do gráfico de setores segue uma regra de 3 simples, onde as freqüências de cada classe correspondem ao ângulo que se deseja representar em relação a freqüência total que representa o total de 360°. 13 Características: - A área do gráfico equivale à totalidade de casos (360o = 100%); - Cada “fatia” representa a percentagem de cada categoria População Urbana e Rural do Brasil em 1980 (x 1000) 68% 32% Urbana Rural Fonte: Anuário Estatístico (1984) 3.4 Gráfico Pictorial - Pictograma Tem por objetivo despertar a atenção do público em geral, muito desses gráficos apresentam grande dose de originalidade e de habilidade na arte de apresentação dos dados. Evolução da matricula no Ensino Superior no Brasil de 1968 a 1994 (x 1000) 1968 1974 1980 1986 1990 1994 0 250 500 750 1000 1250 1500 Fonte: Grandes números da educação brasileira março de 1996 14 3.4.1 Exemplos de pictogramas Evolução da frota nacional de carros à álcool de 1979 à 1987 9.645 1979 1.277.107 1983 2.473.581 1985 3.631.647 1987 Os métodos mais eficientes para deixar de fumar segundo 30.000 fumantes entrevistados no Canadá 36% 30% 27% 19,5% 18,5% Goma de mascar com nicotina mais sessões de apoio psicológico Internamento em hospital e uso de drogas relaxantes Acumpuntura Hipnose Injeção de Clonidina, droga que reduz os efeitos da abstinência Devastação Selvagem: extração de madeiras no Brasil Eucalipto Madeira nativa Pinus 24,4% 68,8% 6,8% 17 3.7 Gráficos utilizados para a análise de uma distribuição de freqüência 3.7.1 Histograma Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 Fonte: Departamento de Estatística (1990) 3.7.2 Polígono de Freqüências Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 Fonte: Departamento de Estatística (1990) 18 3.6.3 Ogivas Altura em centímetros de 160 alunos do Curso de Administração da UFSM – 1990 Ogiva Crescente Ogiva Decrescente 3.7.4 Gráfico em segmentos de reta vertical É utilizado para representar uma distribuição de freqüência pontual, onde os segmentos de reta são proporcionais às respectivas freqüências absolutas. Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 Fonte: Departamento de Estatística (1990) 3.7.5 Como se interpreta um histograma? A representação gráfica da distribuição da variável, por histogramas. Este gráfico é utilizado para variáveis contínuas. Características: - Cada barra representa a freqüência do intervalo respectivo; - Os intervalos devem ter a mesma amplitude; - As barras devem estar todas juntas. 19 A simples observação da forma do histograma permite algumas conclusões. Veja a figura 4.1. A medida dos dados está no centro do desenho. As freqüências mais altas também estão no centro da figura. Nos processos industriais, esta é a forma desejável. Figura 4.1 Histograma 60 50 40 30 20 10 0 A figura 4.2 apresenta um histograma com assimetria positiva. A média dos dados está localizada à esquerda do centro da figura e a cauda à direita é alongada. Esta ocorre quando o limite inferior é controlado ou quando não podem ocorrer valores abaixo de determinado limite. Figura 4.2 Histograma com assimetria positiva 60 50 40 30 20 10 0 A figura 4.3 apresenta um histograma com assimetria negativa. A média dos dados está localizada à direita do centro da figura e a cauda à esquerda é alongada. Esta forma ocorre quando o limite superior é controlado ou quando não podem ocorrer valores acima de certo limite Figura 4.3 Histograma com assimetria negativa 60 50 40 30 20 10 0 31 Altura em centímetros de 40 alunas do Curso de Enfermagem da UFSM - 1996 Fonte: Departamento de Estatística (1997) 3.7.7 Curvas em forma de sino As curvas em forma de sino caracterizam-se pelo fato de apresentarem um valor máximo na região central. Distinguem-se as curvas em forma de sino em: simétrica e assimétrica a) Curva simétrica Esta curva caracteriza-se por apresentar o valor máximo no ponto central e os pontos eqüidistantes desse ponto terem a mesma freqüência. 32 b) Curvas assimétricas Na prática, não se encontram distribuições perfeitamente simétricas. As distribuições obtidas de medidas reais são mais ou menos assimétricas, em relação à freqüência máxima. Assim, as curvas correspondentes a tais distribuições apresentam a cauda de um lado da ordenada máxima mais longa do que o outro. Se a cauda mais longa fica a direita é chamada assimétrica positiva ou enviesada à direita, se a cauda se alonga a esquerda, a curva é chamada assimétrica negativa ou enviesada à esquerda. Assimétrica Positiva Assimétrica Negativa 33 4 Medidas Descritivas Tem por objetivo descrever um conjunto de dados de forma organizada e compacta que possibilita a visualização do conjunto estudado por meio de suas estatísticas, o que não significa que estes cálculos e conclusões possam ser levados para a população. Podemos classificar as medidas de posição conforme o esquema abaixo: 4.1 Medidas de Posição Média Aritmética Representativas - Médias Média Geométrica Média Harmônica Mediana Separatrizes Quartis Decis Centis ou Percentis Dominantes Moda de Czuber Moda de King Moda de Pearson 4.1.1 Representativas (Médias) São medidas descritivas que tem por finalidade representar um conjunto de dados. a) Média Aritmética: Amostral (X ); Populacional (µ) Dados Não Tabelados X X n ou = X N i i 1 n i i 1 N = = = ∑ ∑ µ 36 c) Média Harmônica (Xh) É usada para dados inversamente proporcionais. Ex.: Velocidade Média, Preço de Custo Médio 4.1.2 Emprego da média 1) Deseja-se obter a medida de posição que possui a maior estabilidade; 2) Houver necessidade de um tratamento algébrico ulterior. Dados Não Tabelados n21 n 1i i h X 1... X 1 X 1 X 1 X +++ == ∑ = nn Dados Tabelados X f f X f f .. . f f X f X . .. f X h i i 1 n i ii 1 n 1 2 n 1 1 2 2 n n = = + + + + + + = = ∑ ∑ Deve-se observar esta propriedade entre as médias hg XXX ≥≥ 4.1.3 Separatrizes (Mediana, Quartis, Decis e Centis ou Percentis) São medidas de posição que divide o conjunto de dados em partes proporcionais, quando os mesmos são ordenados. a) Dados não tabelados Antes de determinarmos as separatrizes devemos em primeiro lugar encontrar a posição da mesma. - Se o número de elementos for par ou ímpar, as separatrizes seguem a seguinte ordem: S 1)+i(n Posição = se for mediana    = = 2S 1i se for quartis    = ≤≤ 4S 3 i 1 37 se for decis    = ≤≤ 10S 9 i 1 se for centis    = ≤≤ 100S 99 i 1 Dados Tabelados b) Distribuição de freqüências pontual: segue a mesma regra usada para dados não tabelados c) Distribuição de freqüências intervalar i i S ant Si f .hF S i.n l S       − += onde: S Md i =1i = ⇒ ; S Q 1 i 3i i= ⇒ ≤ ≤ ; S D 1 ii i= ⇒ ≤ ≤ 9; S C ou P 1 ii i i= ⇒ ≤ ≤ 99 lSi ⇒ limite inferior da classe que contém a separatriz; i.n S ⇒ posição da separatriz; Fant ⇒ freqüência acumulada da classe anterior a que contém a separatriz; h ⇒ amplitude do intervalo de classe; fSi ⇒ freqüência absoluta da classe que contém a separatriz; 4.1.4 Emprego da mediana 1) Quando se deseja obter um ponto que divide a distribuição em partes iguais; 2) Há valores extremos que afetam de uma maneira acentuada a média; 3) A variável em estudo é salário. 4.1.5 Dominantes - Moda (Mo) É definida como sendo a observação de maior freqüência. 38 a) Dados não tabelados Ex.: 3 4 4 4 5 5 6 6 7 8 9 ⇒ Mo = 4 (unimodal) 5 6 7 8 9 10 11 12 13 ⇒ Mo = /∃ (amodal) 1 1 2 2 3 3 3 4 5 5 5 ⇒ Mo1 = 3 Mo2 = 5 (bimodal) 5 5 6 6 7 7 8 8 ⇒ Mo = /∃ (amodal) 5 5 6 6 7 7 8 ⇒ Mo1 = 5 Mo2 = 6 Mo3 = 7 (multimodal) Acima de 3 modas usamos o termo multimodal. Dados Tabelados a) Distribuição de freqüências pontual - Moda Bruta (Mob): é o ponto médio da classe de maior freqüência ib XMo = b) Distribuição de freqüências intervalar - Moda de Czuber (Moc): O processo para determinar a moda usado por Czuber leva em consideração as freqüências anteriores e posteriores à classe modal.    −=∆ −=∆ ⇒      ∆+∆ ∆ += posMo2 antMo1 21 1 Moc ff ff .hlMo onde: lMo ⇒ limite inferior da classe modal; fMo ⇒ freqüência absoluta da classe modal; h ⇒ amplitude do intervalo de classe; fant ⇒ freqüência absoluta da classe anterior a classe modal; fpos ⇒ freqüência absoluta da classe posterior a classe modal; - Moda de King (Mok): O processo proposto por King considera a influência existente das classes anterior e posterior sobre a classe modal. A inconveniência deste processo é justamente não levar em consideração a freqüência máxima. .h ff f lMo antpos pos Mok         + += 41 Para estudarmos as medidas de variabilidade para dados não tabelados usaremos um exemplo prático. Supomos que uma empresa esteja querendo contratar um funcionário, e no final da concorrência sobraram dois candidatos para uma única vaga. Então foi dado 4 tarefas para cada um, onde as mesmas tiveram como registro o tempo (em minutos) de execução. TAREFAS 1 2 3 4 OPERÁRIO 1 (TEMPO) 55 45 52 48 OPERÁRIO 2 (TEMPO 30 70 40 60 - Análise Gráfica - Medidas de dispersão Absoluta: - Desvio Extremo ou Amplitude de Variação (H): É a diferença entre o maior e o menor valor de um conjunto de dados H X Xmax min= − - Desvio Médio (d ): Em virtude do ( )∑ = =− n i i XX 1 0 , usamos para calcular o desvio médio X Xi i n − = = ∑ 0 1 , assim ficando: Para dados não tabelados d X X n X X X X X X n i i n n= − = − + − + + − = ∑ 1 1 2 ... Para dados tabelados 42 ( ) ∑∑ ∑ == = −++−+− = − = n i i nn n i i n i ii f XXfXXfXXf f XXf d 1 2211 1 1 ... - Desvio Quadrático ou Variância : S2 (amostra) ou σ2 (população) Para dados não tabelados: ( ) ( ) ( ) ( ) n XXXXXX n XX n n i i 22 2 2 11 2 2 ... −++−+−= − = ∑ =σ ( ) ( ) ( ) ( ) 1 ... 1 22 2 2 11 2 2 − −++−+− = − − = ∑ = n XXXXXX n XX S n n i i Para dados tabelados ( ) ( ) ( ) ( ) ∑∑ ∑ == = −++−+−= − = n i i nn n i i n i ii f XXfXXfXXf f XXf 1 22 22 2 11 1 1 2 2 ...σ ( ) ( ) ( ) ( ) 1 ... 1 1 22 22 2 11 1 1 2 2 − −++−+− = − − = ∑∑ ∑ == = n i i nn n i i n i ii f XXfXXfXXf f XXf S 43 - Desvio Padrão: S (amostra) ou σ (população) Para dados não tabelados: ( ) ( ) ( ) ( ) n XXXXXX n XX n n i i 22 2 2 11 2 ... −++−+− = − = ∑ =σ ( ) ( ) ( ) ( ) 1 ... 1 22 2 2 11 2 − −++−+− = − − = ∑ = n XXXXXX n XX S n n i i Para dados tabelados ( ) ( ) ( ) ( ) ∑∑ ∑ == = −++−+−= − = n i i nn n i i n i ii f XXfXXfXXf f XXf 1 22 22 2 11 1 1 2 ... σ ( ) ( ) ( ) ( ) 1 ... 1 1 22 22 2 11 1 1 2 − −++−+− = − − = ∑∑ ∑ == = n i i nn n i i n i ii f XXfXXfXXf f XXf S (n - 1) é usado como um fator de correção, onde devemos considerar a variância amostral como uma estimativa da variância populacional. - Propriedades da Variância 1ª) Somando-se ou subtraindo-se uma constante k a cada valor observado a variância não será alterada; 2ª) Multiplicando-se ou dividindo-se por uma constante k cada valor observado a variância ficará multiplicada ou dividida pelo quadrado dessa constante. Outra forma de calcular o desvio padrão O desvio padrão mede bem a dispersão de um conjunto de dados, mas é difícil de calcular. Então, você pode obter o desvio padrão através da seguinte relação: 2d Rˆ =σ onde R é a amplitude e o valor de d2 , que depende do tamanho da amostra, é encontrado na tabela a seguir. Este método de calcular o desvio padrão fornece boas estimativas para amostras de pequeno tamanho (n=4, 5 ou 6), mas perde a eficiência se n>10. De qualquer 46 - Momentos abstratos (αr) São definidos da seguinte forma: r r r s M =α onde: s = desvio padrão. 4.4.2 Assimetria Uma distribuição de valores sempre poderá ser representada por uma curva (gráfico). Essa curva, conforme a distribuição, pode apresentar várias formas. Se considerarmos o valor da moda da distribuição como ponto de referência, vemos que esse ponto sempre corresponde ao valor de ordenada máxima, dando-nos o ponto mais alto da curva representativa da distribuição considerada, logo a curva será analisada quanto à sua assimetria. - Distribuição Simétrica: É aquela que apresenta a X ≡ Mo ≡ Md e os quartis Q1 e Q3 eqüidistantes do Q2. X ≡ Mo ≡ Md - Distribuição Assimétrica Assimétrica Positiva Mo < Md < X Assimétrica Negativa X < Md < Mo Podemos medir a assimetria de uma distribuição, calculando os coeficientes de assimetria. Sendo o mais utilizado o Coeficiente de Assimetria de Pearson. As X Mo S = − - Se As < 0 ⇒ a distribuição será Assimétrica Negativa ; - Se As > 0 ⇒ a distribuição será Assimétrica Positiva; - Se As = 0 ⇒ a distribuição será Simétrica. 47 Quando não tivermos condições de calcularmos o desvio padrão podemos usar a seguinte fórmula: As Q Q Md Q Q = + − − 3 1 3 1 2 - Coeficiente momento de assimetria ( α3): É o terceiro momento abstrato. 3 3 3 s M =α O campo de variação do coeficiente de assimetria é: -1 ≤ α3 ≤ +1 - Intensidade da assimetria: |α3 | < 0,2 ⇒ simetria; 0,2 < |α3| < 1,0 ⇒ assimetria fraca; |α3| > 1,0 ⇒ assimetria forte. 4.4.3 Curtose Já apreciamos as medidas de tendência central, de dispersão e de assimetria. Falta somente examinarmos mais uma das medidas de uso comum em Estatística, para se positivarem as característ icas de uma distribuição de valores: são as chamadas Medidas de Curtose ou de Achatamento, que nos mostra até que ponto a curva representativa de uma distribuição é a mais aguda ou a mais achatada do que uma curva normal, de altura média. - Curva Mesocúrtica (Normal): É considerada a curva padrão. - Curva Leptocúrtica: É uma curva mais alta do que a normal. Apresenta o topo relativamente alto, significando que os valores se acham mais agrupados em torno da moda. - Curva Platicúrtica: É uma curva mais baixa do que a normal. Apresenta o topo achatado, significando que várias classes apresentam freqüências quase iguais. 48 - Coeficiente de Curtose K Q Q P P = − − 3 1 90 102( ) - Se K > 0.263 ⇒ a distribuição será Platicúrtica. - Se K = 0.263 ⇒ a distribuição será Mesocúrtica; - Se K < 0.263 ⇒ a distribuição será Leptocúrtica; Coeficiente momento de curtose (α 4 ): Corresponde ao momento abstrato de quarta ordem. 4 4 4 s M =α onde: M4 = momento centrado de quarta ordem. Interpretação: - Se α4 < 3 ⇒ curva Platicúrtica; - Se α4 = 3 ⇒ curva Mesocúrtica; - Se α4 > 3 ⇒ curva Leptocúrtica. 4.5 Exercícios Para os exercícios abaixo construa uma tabela de dispersão o suficiente para determinar as medidas de posição (média aritmética, mediana e moda de czuber), dispersão (desvio padrão e variância, coeficiente de variação de Pearson), assimetria (coeficiente de assimetria, e coeficiente de curtose). Faça um relatório referente ao comportamento dos dados em função dos resultados obtidos. 1) De um exame final de Estatística, aplicado a 50 alunos da Universidade Luterana,Ano 1999 resultaram as seguintes notas: 4,0 4,2 4,3 4,4 4,5 4,5 4,6 5,0 5,1 5,2 5,3 5,3 5,5 5,7 5,8 6,0 6,1 6,3 6,4 6,5 6,6 6,7 6,8 6,9 7,0 7,2 7,5 7,6 7,7 7,9 8,0 8,3 8,5 8,6 8,8 8,9 9,0 9,1 9,2 9,3 9,3 9,4 9,4 9,5 9,5 9,6 9,7 9,8 9,9 10,0 51 b - embora não se possa prever que resultados ocorrerão, pode-se descrever o conjunto de resultados possíveis; c - a medida que se aumenta o número de repetições, aparece uma certa regularidade nos resultados. 5.2.2 Espaço Amostral (S) É o conjunto de resultados possíveis, de um experimento aleatório. Quanto ao número de elementos pode ser: 5.2.2.1 Finito Número limitado de elementos; Ex.: S = {1, 2, 3, 4, 5, 6} 5.2.2.2 Infinito Número ilimitado de elementos, pode ser sub-dividido em: a - Enumerável Quando os possíveis resultados puderem ser postos em concordância biunívoca com o conjunto dos números naturais (N) (caso das variáveis aleatórias discretas). Ex.: N b - Não Enumerável Quando os possíveis resultados não puderem ser postos em concordância biunívoca com o conjunto dos números naturais (caso das variáveis aleatórias contínuas). Ex.: R 5.2.3 Evento (E) Um evento (E) é qualquer subconjunto de um espaço amostral (S). Pode-se ter operações entre eventos da mesma forma que com conjuntos, como mostra a seguir. 5.2.4 Operações com Eventos 5.2.4.1 A união B Símbolo utilizado "U", é o evento que ocorrerá se, e somente se, A ou B ou ambos ocorrerem; 52 BA S FIGURA 6.1 - Evento A união B 5.2.4.2 A interseção B Símbolo utilizado "I", é o evento que ocorrerá se, e somente se, A e B ocorrem simultaneamente. BA S A B U FIGURA 6.2 - Evento A interseção B 5.2.4.3 Complementar de A Simbologia " A _ ", é o evento que ocorrerá se, e somente se A não ocorrer. A S FIGURA 6.3 - Evento complementar de A (A _ ) 53 5.2.5 Tipos de eventos 5.2.5.1 Eventos Mutuamente Excludentes São ditos eventos mutuamente excludentes, quando a ocorrência de um implica ou não ocorrência de outro, isto é, não pode ocorrer juntos, e conseqüentemente, A I B é o conjunto vazio (∅). FIGURA 6.4 - Eventos mutuamente excludentes 5.2.5.2 Eventos Não Excludentes ou Quaisquer São ditos eventos não excludentes quando a ocorrência de um implica na ocorrência do outro, isto é, são aqueles que ocorrem ao mesmo tempo, A BI ≠ ∅. FIGURA 6.5 - Evento não excludentes 5.2.5.3 Eventos Independentes São aqueles cuja ocorrência de um evento, não possui efeito algum na probabilidade de ocorrência do outro. 56 P(E) = a a + b , onde os resultados devem ser verossímeis (possível e verdadeiro) e permite a observação dos valores da probabilidade antes de ser observado qualquer amostra do evento (E). 5.3.3 Definição Axiomática Seja (Ω) um experimento, seja (S) um espaço amostral associado a (Ω). A cada evento (E) associa-se um número real representado por P(E) e denominaremos de probabilidade de E, satisfazendo as seguintes propriedades: a - 0 ≤ P(E) ≤ 1; b - P(S) = 1; c - Se A e B são eventos mutuamente excludentes, então: P(A U B) = P(A) + P(B). d - Se A1, A2, ..., An são eventos mutuamente excludentes dois a dois, então: P(A1 U A2 U ... U An ) = P(A1) + P(A2) + ... +P(An) ou P( A P(A i=1 n i i i=1 n U ) )= ∑ . As propriedades anteriores são conhecidas como axiomas da teoria da probabilidade. Os axiomas, muitas vezes, se inspiram em resultados experimentais e que, assim, definem a probabilidade de forma que possa ser confirmada experimentalmente. 5.3.4 Teoremas Fundamentais Teorema 1 - Se ∅ for evento vazio, então P(∅) = 0. Prova: Seja um evento A = ∅. Assim, A = A U ∅, como A I ∅ = ∅, de acordo com o item (3.2.3.4), A e ∅ são mutuamente excludentes, então: P(A) = P(A U ∅) P(A) = P(A) + P(∅) 57 P(∅) = P(A) - P(A) P(∅) = 0. Teorema 2 - Se o evento A _ for o evento complementar de A, então P(A _ )=1-P(A). Prova: A U A _ = S, mas A e A _ são mutuamente excludentes, então: P(A U A _ ) = P(S) P(A U A _ ) = P(A) + P(A _ ) P(A) + P(A _ ) = 1 logo, P(A _ ) = 1 - P(A). Teorema 3 - Se A e B são eventos quaisquer, então: P(A U B) = P(A) + P(B) - P(A I B) Prova: Para provar o Teorema 3 devemos transformar A U B em eventos mutuamente excludentes, conforme a FIGURA 6. FIGURA 6 - Decomposição de eventos quaisquer em mutuamente excludentes Tem-se então que: (A U B) = A U (B I A _ ) 58 e B = (A I B) U (B I A _ ) logo pela propriedade (c) temos: P(A U B) = P[A U (B I A _ )] P(A U B) = P(A) + P(B I A _ ) (­) e P(B) = P[(A I B) U (B I A _ )] P(B) = P(A I B) + P(B I A _ ) ou P(B I A _ ) = P(B) - P(A I B) (­­) substituindo-se a equação (­) na equação (­­) tem-se: P(A U B) = P(A) + P(B) - P(A I B). Decorrências do Teorema 3: Sejam A, B e C eventos quaisquer: P(A U B U C) = P[(A U B) U C] P(A U B U C) = P(A U B) + P(C) - P[(A U B) I C] P(A U B U C) = P(A) + P(B) + P(C) - P(A I B) - P[(AIC) U (BIC)] P(A U B U C) = P(A) + P(B) + P(C) - P(AIB) - [P(AIC) + P(BI C) - P(AI BIC)] P(A U B U C) = P(A) + P(B) + P(C) - P(AIB) - P(AIC) - P(BIC) + P(AIBIC) Sejam A1, A2, ..., An eventos quaisquer: 61 9) Um conjunto de 80 pessoas tem as características abaixo: BRASILEIRO ARGENTINO URUGUAIO TOTAL MASCULINO 18 12 10 40 FEMININO 20 05 15 40 TOTAL 38 17 25 80 Se retirarmos uma pessoa ao acaso, qual a probabilidade de que ela seja: a) brasileira ou uruguaia. (63/80) b) do sexo masculino ou tenha nascido na argentina. (9/16) c) brasileiro do sexo masculino. (18/80) d) uruguaio do sexo feminino. (15/80) e) ser mulher se for argentino. (5/17) 10) Um grupo de pessoas está assim formado: Médico Engenheiro Veterinário Masc. 21 13 15 Femin. 12 08 17 Escolhendo-se, ao acaso, uma pessoa do grupo, qual a probabilidade de que seja: a) Uma mulher que fez o curso de medicina ? b) Uma pessoa que fez o curso de medicina ? c) Um engenheiro dado que seja homem ? d) Não ser médico dado que não seja homem ? 11) Num ginásio de esportes, 26% dos frequentadores jogam vôlei, 36% jogam basquete e 12% praticam os dois esportes. Um dos frequentadores é sorteado para ganhar uma medalha. Sabendo-se que ele joga basquete, qual a probabilidade de que também jogue vôlei ? 12) A probabilidade de um aluno resolver um determinado problema é de 1/5 e a probabilidade de outro é de 5/6. Sabendo que os alunos tentam solucionar o problema independentemente. Qual a probabilidade do problema ser resolvido : a) somente pelo primeiro ? b) ao menos por um dos alunos ? c) por nenhum ? 62 5.5 Teorema de Bayes Definição: Seja S um espaço amostral e A , A , ..., A ,1 2 k k eventos. Diz-se que A , A , ..., A ,1 2 k formam uma partição de S se: A , i 1, 2, ..., ki ≠ ∅ = A S,i i 1 k = = U A A , i ji jI = ∅ ≠ A , A , A , A , A , ..., A1 2 3 4 5 k formam uma partição de S. FIGURA 6.7 - Diagrama representativo do Teorema de Bayes Seja B um evento qualquer de S, onde: B (B A ) (B A ) ... (B A1 2 k= I U I U U I ) ( )∑ =      = k 1j j j A B.PAPP(B) , j = 1, 2, ..., k (­)     = i ii A B).PP(A)AP(B I , (­­) como 63 P(B) )AP(B B AP ii I =     , (­­­) substituindo as equações (­) e (­­) na equação (­­­) temos: ( ) ( )∑ =            =     k 1j j j i i i A B.PAP A B.PAP B AP , j = 1, 2, ..., k . Exemplo: Urna U1 U2 U3 Azul 3 4 3 Branca 1 3 3 Co re s Preta 5 2 3 Escolhe-se uma urna ao acaso e dela extrai-se uma bola ao acaso, verificando-se que ela é branca. Qual a probabilidade dela ter saído da urna: U1 ? U2 ? U3 ? 2) Temos 2 caixas: na primeira há 3 bolas brancas e 7 pretas e na segunda, 1 branca e 5 pretas. De uma caixa escolhida aleatoriamente, selecionou-se uma bola e verificou-se que é preta. Qual a probabilidade de que tenha saído da primeira caixa ? segunda caixa ? 5.6 Variáveis aleatórias Ao descrever um espaço amostral (S) associado a um experimento (Ω) especifica-se que um resultado individual necessariamente, seja um número. Contudo, em muitas situações experimentais, estaremos interessado na mensuração de alguma coisa e no seu registro como um número. Definição: Seja (Ω) um experimento aleatório e seja (S) um espaço amostral associado ao experimento. Uma função de X, que associe a cada elemento s ∈ S um número real x(s), é denominada variável aleatória. 66 E(X) x P(x )i i i 1 = = ∞ ∑ se a série E(X) x P(x )i i i 1 = = ∞ ∑ convergir absolutamente, isto é, se |x | P(x )i i i 1= ∞ ∑ < ∞, este número é também denominado o valor médio de X, ou expectância de X. 5.7.4 Variância de uma V.A.D. Definição: Seja X uma V.A.D. . Define-se a variância de X, denotada por V(X) ou σ2x, da seguinte maneira: ( )V(X) x E(X) .P(x )i 2 i i 1 = − = ∞ ∑ ou V(X) E(X ) E( X)2 2= − onde E(X ) x P(x )2 i 2 i i 1 = = ∞ ∑ e a raiz quadrada positiva de V(X) é denominada o desvio-padrão de X, e denotado por σx. 5.7.5 Função de Probabilidade de uma V.A.C. No instante em que X é definida sobre um espaço amostral contínuo, a função de probabilidade será contínua, onde a curva limitada pela área em relação ao valores de x será igual a 1. FIGURA 6.2 - Distribuição de probabilidade de uma V.A.C. Se quisermos calcular a probabilidade de X assumir um valor x entre "a" e "b" devemos calcular: P(a x b) f(x) dx a b ≤ ≤ = ∫ 67 Pelo fato de que a área representa probabilidade, e a mesma tem valores numéricos positivos, logo a função precisa estar inteiramente acima do eixo das abscissas (x). Definição: A função f(x) é uma Função Densidade de Probabilidade (f.d.p.) para uma V.A.C. X, definida nos reais quando f (x) 0≥ ; f(x) dx = 1 −∞ +∞ ∫ ; P(a x b) f(x) dx a b ≤ ≤ = ∫ . 5.7.6 Função de Repartição para V.A.C. Seja X uma variável aleatória contínua. Define-se Função de Repartição da Variável aleatória X, no ponto xi, como sendo: F(X f x dx x ) ( )= −∞∫  ( ) ( ) ( ) ( )P a x b P a x b P a x b P a x b≤ ≤ = < < = < ≤ = ≤ < 5.7.7 Esperança Matemática de uma V.A.C. Definição: Seja X uma V.A.C. com f.d.p. f(x). O valor esperado de X é definido como ∫ ∞ ∞ = + - dx x.f(x)E(X) pode acontecer que esta integral imprópria não convirja. Conseqüentemente, diremos que E(X) existirá se, e somente se, ∫ +∞ ∞− f(x) |x| for finita. 68 5.7.8 Variância de uma V.A.C. Definição: Seja X uma V.A.C. de uma função distribuição de probabilidade (f.d.p.). A variância de X é: ( )V(X) x E(X) f(x) dx2= − −∞ +∞ ∫ ou V(X) E(X ) E( X)2 2= − onde E(X ) x f(x) dx2 2= −∞ +∞ ∫ 5.8 Exemplos - Variável Aleatória Discreta Seja X o lançamento de duas moedas e descrever o experimento em função da obtenção do número de caras: i) determinar a função de probabilidade e represente graficamente; ii) construir a função de repartição e represente graficamente; iii) Use as propriedades para determinar: a) P(0 < x < 2); b) P(0 ≤ x ≤ 1); c) P(0 < x ≤ 2); d) F(1); e) F(2) iv) E(X) e V(X) i) Representação gráfica 0 1 2 0 0,1 0,2 0,3 0,4 0,5 0,6 71 Representação gráfica iii) [ ]P x x14 34 2 34 14 816 0 51 4 3 4 1 4 3 4 2 2 ≤ ≤    = =     −     = =∫ dx = x2 , iv) [ ]E(X) f(x) dx = 2x dx = f(x) dx = 23= =∫ ∫ ∫x x x x0 1 0 1 2 0 1 3 0 1 2 2 3 [ ]E(X ) f(x) dx = 2x dx = f(x) dx = 242 = =∫ ∫ ∫x x x x20 1 2 0 1 3 0 1 4 0 1 2 1 2 logo, [ ]V(X) E(X ) E(X)2 2= − = −    = − = 1 2 2 3 9 8 18 1 18 2 5.9 Exercícios 1) Admita que a variável X tome valore 1, 2 e 3 com probabilidades 1/3, 1/6 e 1/2 respectivamente. a) Determine sua função de repartição e represente graficamente. b) Calcule usando as propriedades: b.1) a) P(1 < x < 3); b) P(1 ≤ x ≤ 2); c) P(1 < x ≤ 3); d) F(1); e) F(2) c) E(X) e V(X) 2) No lançamento simultâneo de dois dados, considere as seguintes variáveis aleatórias: 72 X = número de pontos obtidos no 1o dado. Y = número de pontos obtidos no 2o dado. a) Construir a distribuição de probabilidade através de uma tabela e gráfico das seguinte variáveis: i) W = X - Y ii) A = 2 Y iii) Z = X . Y b) Construir a função de repartição das Variáveis W, A e Z c) Aplicar as propriedades e determinar: i) P (-3 < W ≤ 3) v) P (Z = 3) ii) P (0 ≤ W ≤ 4) vi) P (A ≥ 11) iii) P (A > 6) vii) P (20 ≤ Z ≤ 35) iv) P (Z ≤ 5.5) viii) P 3,5 < Z < 34) d) Determine E(W), E(A), E(Z), V(W), V(A) e V(Z) 3) Uma variável aleatória discreta tem a distribuição de probabilidade dada por: ( )P X K x = para x = 1, 3, 5 e 7 a) calcule o valor de k b) Calcular P(X=5) c) E(X) d) V(X) 4) Seja Z a variável aleatória correspondente ao número de pontos de uma peça de dominó. a) Construir a tabela e traçar o gráfico P(Z). b) Determinar F(Z) e traçar o gráfico. c) Calcular P(2≤ Z < 6). d) Calcular F(8). e) E(Z) e V(Z). 73 5) Seja ( )     <<−= contrário caso 0, 1x0 ,x1 2 3 )x(f 2 , i) Ache a função de repartição e esboce o gráfico. ii) Determine E(X) e V(X). 6) Seja     ≤≤= contrário caso 0, 2x0 ,x 2 1 )x(f , i) Ache a função de repartição e esboce o gráfico. ii) P(1< x < 1,5). iii) E(X) e V(X). 7) Uma variável aleatória X tem a seguinte f.d.p.: x < 0 f(x) = 0 0 ≤ x < 2 f(x) = k 2 ≤ x < 4 f(x) = k(x - 1) x ≥ 4 f(x) = 0 a) Represente graficamente f(x). b) Determine k. c) Determine F(X) e faça o gráfico d) E(X) e V(X) 8) A função de probabilidade de uma V.A.C. X é ( )    <<− = contrário caso 0, 1x0 ,x1x6 )x(f a) Determine F(X) e represente graficamente. b) Calcule P x ≤     1 2 c) E(X) e V(X) 76 nessa condição a variável aleatória X tem distribuição de Bernoulli, e sua função de probabilidade (f. p.) (função de probabilidade) é dada por: P(X x) p .qx n x= = − . 6.1.1.1 Esperança Matemática da Distribuição de Bernoulli E(X) x P(x )i i i 1 = = ∞ ∑ E(X) x P(x ) x P(x )1 1 2 2= + E(X) P(0) P(1)= +0 1. . E(X) 0.q 1.p= + E (X) p = 6.1.1.2 Variância da Distribuição de Bernoulli V(X) E(X ) E( X)2 2= − onde E(X ) x P(x )2 i 2 i i 1 = = ∞ ∑ E(X ) x P(x ) x P(x )2 1 2 1 2 2 2= + E(X ) 1.p = p2 = +0.q logo V(X) p p2= − ( )p-1p.V(X) = V(X) p . q= 6.1.2 Distribuição Binomial O termo "Binomial" é utilizado quando uma variável aleatória esta agrupada em duas classes ou categorias. As categorias devem ser mutuamente excludentes, de modo a deixar bem claro a qual categoria pertence determinada observação; e as classes devem ser coletivamente exaustivas, de forma que nenhum outro resultado fora delas é possível 77 Sejam, "p" probabilidades de sucesso e "q" probabilidades de falha, ou seja p + q = 1. A probabilidade de x sucessos em x tentativas é dado por px e de (n - x) falhas em (n - x) tentativas é dado por qn-x, onde o número de vezes em que pode ocorrer x sucessos e (n-x) falhas é dado por: x)!(n x! n! x n C xn, − =      = logo, a probabilidade de ocorrer x sucessos com n tentativas será xnx q p x n x)P(X −      == Propriedades necessárias para haver uma utilização da Distribuição Binomial: 1a) Número de tentativas fixas; 2a) Cada tentativa deve resultar numa falha ou sucesso; 3a) As probabilidades de sucesso devem ser iguais para todas as tentativas; 4a) Todas as tentativas devem ser independentes. 6.1.2.1 Esperança Matemática de Distribuição Binomial E(X) x P(x )i i i 1 = = ∞ ∑ xnx q p x n x.E(X) −      = como P(X) segue uma Distribuição de Probabilidade, temos: ∑∑ ∞ − ∞ = =      = 0 1=x xnx 1i i 1qpx n ou 1)x=P(X logo, E(X) x. n! x(x -1)!(n -x)! p qx n x x = − = ∞ ∑ 1 E(X) . (n -1)! (x -1)!(n - x)! p qx n x x = − = ∞ ∑n 1 , ou seja para s = x - 1 e x = s + 1, temos 1)(sn1s 1=x qp s 1-n n.E(X) +−+ ∞ ∑       = 78 s)1(ns 1=x q .pp s 1-n n.E(X) −− ∞ ∑       = 444 3444 21 1 s)1(ns 1=x q .p s 1-n n.pE(X) −− ∞ ∑       = p .n E(X) = 6.1.2.2 Variância de uma Distribuição Binomial V(X) E(X ) E(X)2 2= − onde E(X ) x P(x )2 i 2 i i 1 = = ∞ ∑ E(X ) x.x n! x.(x 1)!(n x)! p q para s= x -1 e x = s+1, temos:2 x n x x = − − − = ∞ ∑ 1 , E(X ) n! s!(n )! p q2 s+1 n x = + − + − + = ∞ ∑( ) ( ) ( )s s s1 1 1 1 E(X ) s.n (n -1)! s!(n -1- s)! p .p q n (n -1)! s!(n -1-s)! p . p q2 s n 1 s s n 1 s xx = +− − − − = ∞ = ∞ ∑∑ 11                   +      − = ∑∑ ∞ = −− − ∞ = −− 444 3444 21444 3444 21 1 1x s1ns 1)p(n 1x s1ns2 q p s 1-n q .pp s 1n sn.p)E(X E(X )2 = − +n p n p. ( )1 1 E(X )2 = − +n p np p. ( 1 E( X ) n p np np2 2 2 2= − + V(X) p np np - (np)2 2 2= − +n2 V(X) n. p.(1- p)= V(X) n. p.q= 81 E(X ) (s + 1) e s! 2 - s+1 x 1 = = ∞ ∑ λλ E(X ) (s+1) e s! 2 - s x 1 = = ∞ ∑λ λ λ             λ + λ λ= ∑∑ ∞ = λ∞ = λ 4342143421 1 1x s- E(X) 1x s- 2 s! e s! e s )E(X E(X)2 = +λ λ2 V(X) = + −λ λ λ2 2( ) V(X) = λ 6.2 Exercícios 1) Admitindo-se o nascimento de meninos e meninas sejam iguais, calcular a probabilidade de um casal com 6 filhos ter: a) 4 filhos e 2 filhas b) 3 filhos e 3 filhas 2) Em 320 famílias com 4 crianças cada uma, quantas se esperaria que tivessem: a) nenhuma menina; b) 3 meninos c) 4 meninos 3) Um time X tem 2/3 de probabilidade de vitória sempre que joga. Se X jogar 5 partidas, calcule a probabilidade de: a) X vencer exatamente 3 partidas; b) X vencer ao menos uma partida; c) X vencer mais da metade das partidas; d) X perder todas as partidas; 4) A probabilidade de um atirador acertar um alvo é 1/3. Se ele atirar 6 vezes, qual a probabilidade de: a) acertar exatamente 2 tiros; b) não acertar nenhum tiro. 5) Num teste de certo-errado, com 100 perguntas, qual a probabilidade de um aluno, respondendo as questões ao acaso, acertar 70% das perguntas ? 82 6) Se 5% das lâmpadas de certa marca são defeituosas, achar a probabilidade de que, numa amostra de 100 lâmpadas, escolhidas ao acaso, tenhamos: a) nenhuma defeituosa (use binomial e poisson) b) 3 defeituosas; c) mais do que uma boa; 7) Uma fabrica de pneus verificou que ao testar seus pneus nas pistas, havia em média um estouro de pneu a cada 5.000 km. a) qual a probabilidade que num teste de 3.000 km haja no máximo um pneu estourado ? b) Qual a probabilidade de um carro andar 8.000 km sem estourar nenhum pneu ? 8) Certo posto de bombeiros recebe em média 3 chamadas por dia. Calcular a probabilidade de: a) receber 4 chamadas num dia; b) receber 3 ou mais chamadas num dia; c) 22 chamadas numa semana. 9) A média de chamadas telefônicas em uma hora é 3. Qual a probabilidade: a) receber exatamente 3 chamadas numa hora; b) receber 4 ou mais chamadas em 90 minutos; c) 75 chamas num dia; 10) Na pintura de paredes aparecem defeitos em média na proporção de 1 defeito por metro quadrado. Qual a probabilidade de aparecerem 3 defeitos numa parede 2 x 2 m ? 11) Suponha que haja em média 2 suicídios por ano numa população de 50.000 hab. Em uma cidade de 100.000 habitantes, encontre a probabilidade de que um dado ano tenha havido: a) nenhum suicídio; b) 1 suicídio; c) 2 ou mais suicídios. 12) Suponha 400 erros de impressão distribuídos aleatoriamente em um livro de 500 páginas. Encontre a probabilidade de que uma dada página contenha: a) nenhum erro; b) 100 erros em 200 páginas. 83 6.3 Distribuições Contínuas de Probabilidade 6.3.1 Distribuição Uniforme É uma distribuição de probabilidade usada para variáveis aleatórias contínuas, definida num intervalo a, b , e sua função densidade de probabilidade é dada por:     ≤≤ −= b>ou x a< xse0 bxa se ab 1 f(x) . FIGURA 6.1 - Representação de uma Distribuição Uniforme 6.3.1.1 Esperança Matemática da Distribuição Uniforme ∫ +∞ ∞− = dx f(x)x E(X) ∫= b a dx a-b 1 x E(X) b a 2 2 x a-b 1 E(X)    = E(X) b a 2(b a) 2 2 = − − E(X) (b -a) (b + a) 2(b a) = − E(X) (b + a) 2 = 86 I 2 = = 1 2 2 1 π π I² = 1 , logo I = 1 como queríamos mostrar. b) O aspecto gráfico da função f tem: - Semelhança de um sino, unimodal e simétrico em relação a média µ. - A especificação da média µ e do desvio padrão σ é completamente evidenciado. - A área total da curva equivale a 100%. - A área total da curva equivale a 100%. FIGURA 7.2 - Distribuição Normal em função da µ e σ 6.3.2.2 Esperança Matemática da Distribuição Normal ∫ +∞ ∞− = dx f(x)x E(X) ∫ ∞+ ∞−      σ µ− − πσ = dx e 2 1 x E(X) 2x 2 1 fazendo z x = − µ σ ,∂ ∂ σ σ µ x e x = z +z = , ∫ ∞+ ∞− − µσ π = dz e )+z ( 2 1 E(X) 2 z 44 344 2143421 um 2 z zero 2 z dz e 2 1dz e z 2 1E(X) ∫∫ ∞+ ∞− −∞+ ∞− − π µ+σ π = 87 E(X) = µ 6.3.2.3 Variância da Distribuição Normal V(X) E(X ) E( X)2 2= − ∫ +∞ ∞− = dx f(x) x)E(X 22 ∫ ∞+ ∞−       σ µ−− πσ = dx e 2 1 x)E(X 2x 2 1 22 fazendo z x = − µ σ ,∂ ∂ σ σ µz = x e x = z + , ∫ ∞+ ∞− − µσσ πσ = dz e )+z ( 2 1 )E(X 2 z 22 44 344 2143421 um 2 z 2 zero 2 z 2 z 222 dz e 2 1dz e z 2 2 1dz e z 2 1)E(X ∫∫∫ ∞+ ∞− −∞+ ∞− −∞+ ∞− − π µ+σµ π +σ π = 22 z 222 dz e z 2 1 )E(X µ+σ π = ∫ ∞+ ∞− − integrando por partes temos que ∫ ∫ du v-dvu = dvu z u dv e dz du 1 dz v e 2 z 2 z 2 2 2 = = = = − − − ∫ ∞+ ∞− − +∞ ∞− − µ−−   σ π = 22 z 2 z 222 +dz e e z 2 1 )E(X 2 um 2 z 22 dz e 2 10)E(X µ+− π σ+= ∫ ∞+ ∞− − 444 3444 21 E(X )2 = +σ µ2 2 logo, V(X) = σ² 88 6.3.2.4 Distribuição Normal Padronizada Tem como objetivo solucionar a complexidade da f(x) através da mudança de variável. f(z). FIGURA 7.4 - Complemento da Distribuição Normal Padronizada Fazendo z x = − µ σ e z ~ N(0,1) temos que f(z) = 1 e z 2 2 2π − −∞ +∞ ∫ , com E(z) = 0 e VAR(z) = 1. onde: z = número de desvios padrões a contar da média x = valor arbitrário µ = média da distribuição normal σ = desvio padrão da distribuição normal Estas probabilidades estão tabeladas e este caso particular é chamado de Forma Padrão da Distribuição Normal. 91 7 Amostragem 7.1 Conceitos em Amostragem Inferência Estatística - é o processo de obter informações sobre uma população a partir de resultados observados ma Amostra. Amostragem: É o processo de retirada de informações dos "n" elementos amostrais, na qual deve seguir um método adequado (tipos de amostragem). 7.2 Plano de Amostragem 1o) Definir os Objetivos da Pesquisa 2o) População a ser Amostrada - Parâmetros a ser Estimados (Objetivos) 3o) Definição da Unidade Amostral - Seleção dos Elementos que farão parte da amostra 4o) Forma de seleção dos elementos da população 92 - Tipo de Am Estratificada ostragem Aleatoria Simples Sistematica por Conglomerados       5o) Tamanho da Amostra Ex.: Moradores de uma Cidade (população alvo) Objetivo: Tipo de Residência própria alugada emprestada tres ou ma um piso dois pisos is pisos           Unidade Amostral: Domicílios (residências) Elementos da População: Família por domicílio Tipo de Amostragem: aleatoria simples estratificada sistematica     7.3 Tipos de Amostragem 7.3.1 Amostragem Simples ou Ocasional É o processo mais elementar e freqüentemente utilizado. Todos os elementos da população tem igual probabilidade de serem escolhidos. Para uma população finita o processo deve ser sem reposição. Todos os elementos da população devem ser numerados. Para realizar o sorteio dos elementos da população devemos usar a Tabela de Números Aleatórios . 7.3.2 Amostragem Sistemática Trata-se de uma variação da Amostragem Aleatória Ocasional, conveniente quando a população está naturalmente ordenada, como fichas em um fichário, lista telefônica, etc. Ex.: N = 5000 n = 50, então r N n = = 10, (P.A. de razão 10) Sorteia-se usando a Tabela de Números Aleatórios um número entre 1 e 10, (x=3), o número sorteado refere-se ao 1o elemento da amostra, logo os elementos da amostra serão: 93 3 13 23 33 43 .... .. Para determinar qualquer elemento da amostra podemos usar a fórmula do termo geral de uma P.A. a a n rn = + −1 1( ). 7.3.3 Amostragem Estratificada É um processo de amostragem usado quando nos depararmos com populações heterogêneas, na qual pode-se distinguir subpopulações mais ou menos homogêneas, denominados estratos. Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada uma subpopulação (estrato). As diversas subamostras retiradas das subpopulações devem ser proporcionais aos respectivos números de elementos dos estratos, e guardarem a proporcionalidade em relação a variabilidade de cada estrato, obtendo-se uma estratificação ótima. Tipos de variáveis que podem ser usadas em estratificação: idade, classes sociais, sexo, profissão, salário, procedência, etc. 7.3.4 Amostragem por Conglomerados (ou Agrupamentos) Algumas populações não permitem, ou tornam-se extremamente difícel que se identifiquem seus elementos, mas podemos identificar subgrupos da população. Em tais casos, uma amostra aleatória simples desses subgrupos (conglomerados) podem ser escolhida, e uma contagem completa deve ser feita no conglomerado sorteado. Agregados típicos são: quarteirões, famílias, organizações, agências, edifícios, etc. 7.4 Amostragem "COM" e "SEM" reposição Seja "N" o número de elementos de uma população, e seja "n" o número de elementos de uma amostra, então: Se o processo de retirada dos elementos for COM reposição (pop. infinita (f ≤ 5%) ), o número de amostra s possíveis será: no de amostras = Nn Se o processo de retirada de elementos for SEM reposição (pop. finita (f > 5%) ), o número de amostras possíveis será: 96 7.7 TAMANHO DA AMOSTRA 7.7.1 Introdução Os pesquisadores de todo o mundo, na realização de pesquisas científicas, em qualquer setor da atividade humana, utilizam as técnicas de amostragem no planejamento de seus trabalhos, não só pela impraticabilidade de poderem observar, numericamente, em sua totalidade determinada população em estudo, como devido ao aspecto econômico dessas investigações, conduzidos com um menor custo operacional, dentro de um menor tempo, além de possibilitar maior precisão nos respectivos resultados, ao contrário, do que ocorre com os trabalhos realizados pelo proceso censitário (COCHRAN, 1965; CRUZ, 1978). A técnica da amostragem, a despeito de sua larga utilização, ainda necessita de alguma didática mais adequada aos pesquisadores iniciantes. Na teoria da amostragem, são consideradas duas dimensões: 1a) Dimensionamento da Amostra; 2a) Composição da Amostra. 7.7.2 Procedimentos para determinar o tamanho da amostra 1o) Analisar o questionário, ou roteiro da entrevista e escolher uma variável que julgue mais importante para o estudo. Se possível mais do que uma; 2o) Verificar o nível de mensuração da variável: nominal, ordinal ou intervalar; 3o) Considerar o tamanho da população: infinita ou finita 4o) Se a varíavel escolhida for: - intervalar e a população considerada infinita, você poderá determinar o tamanho da amostra pela fórmula: n Z =     . d σ 2 97 onde: Z = abscissa da curva normal padrão, fixado um nível de confiança (1- )α Z = 1,65 → (1 - α) = 90% Z = 1,96 → (1 - α) = 95% Z = 2,0 → (1 - α) = 95.5% Z = 2,57 → (1 - α) = 99% Geralmente usa-se Z = 2 σ = desvio padrão da população, expresso na unidade variável, onde poderá ser determinado por: • Especificações Técnicas • Resgatar o valor de estudos semelhantes • Fazer conjeturas sobre possíveis valores d = erro amostral, expresso na unidade da variável. O erro amostral é a máxima diferença que o investigador admite suportar entre µ e x , isto é: µ − <x d . - intervalar e a população considerada finita, você poderá determinar o tamanho da amostra pela fórmula: n Z N Z = − + 2 2 2 21 . N d 2 . ( ) . σ σ onde: Z = abscissa da normal padrão σ2 = variância populacional N = tamanho da população d = erro amostral - nominal ou ordinal, e a população considerada infinita, você poderá determinar o tamanho da amostra pela fórmula: n Z = 2 p . q d2 . $ $ onde: Z = abscissa da normal padrão $p = estimativa da verdadeira proporção de um dos níveis da variável escolhida. Por exemplo, se a variável escolhida for parte da empresa, $p poderá ser a estimativa da 98 verdadeira proporção de grandes empresas do setor que está sendo estudado. $p será expresso em decimais ( $p = 30% → $p = 0.30). $ $q p= −1 d = erro amostral, expresso em decimais. O erro amostral neste caso será a máxima diferença que o investigador admite suportar entre π e $p , isto é: π − <$p d , em que π é a verdadeira proporção (freqüência relativa do evento a ser calculado a partir da amostra. - nominal ou ordinal, e a população considerada finita, você poderá determinar o tamanho da amostra pela fórmula: n Z N Z = − + 2 21 p . q . N d p . q2 . $ $ ( ) . $ $ onde: Z = abscissa da normal padrão N = tamanho da população $p = estimativa da proporção $ $q p= −1 d = erro amostral Estas fórmulas são básicas para qualquer tipo de composição da amostra; todavia, existem fórmulas específicas segundo o critério de composição da amostra. - Se o investigador escolher mais de uma variável, poderá acontecer de ter que aplicar mais de uma fórmula, assim deverá optar pelo maior valor de "n".  Quando não tivermos condições de prever o possível valor para $p , admita $p = 0.50, pois, dessa forma, você terá o maior tamanho da amostra, admitindo-se constantes os demais elementos. 7.8 Distribuições amostrais de probabilidade 7.8.1 Distribuição amostral das médias Se a variável aleatória "x" segue uma distribuição normal: ( )x ~ N (x); (x)µ σ2 , onde z x xx= − µ σ ( ) ( ) 101 8 Estimação de Parâmetros É um processo de indução, na qual usamos dados extraídos de uma amostra para produzir inferência sobre a população. Esta inferência só será válida se a amostra for significativa. - Tipos de Estimações de Parâmetros i) Estimação Pontual ii) Estimação Intervalar 8.1 Estimação Pontual É usada quando a partir da amostra procura-se obter um único valor de certo parâmetro populacional, ou seja, obter estimativas a partir dos valores amostrais. a) Estatísticas Seja (X1, X2, ..., Xn) uma amostra aleatória e (x1 ,x2, ..., xn) os valores tomados pela amostra; então y = H(x1 ,x2, ..., xn) é uma estatística. Principais estatísticas: - Média Amostral - Proporção Amostral - Variância Amostral 8.2 Estimação Intervalar Uma outra maneira de se calcular um estimativa de um parâmetro desconhecido, é construir um intervalo de confiança para esse parâmetro com uma probabilidade de 1− α (nível de confiança) de que o intervalo contenha o verdadeiro parâmetro. Dessa maneira α será o nível de significância, isto é, o erro que se estará cometendo ao afirmar que o parâmetro está entre o limite inferior e o superior calculado. 8.2.1 Intervalo de confiança para a média (µ) com a variância (σ2) conhecida. (n > 30 → Z) Seja ( )2NX σµ,~ 102 Como já vimos anteriormente, x (média amostral) tem distribuição normal de média µ e desvio padrão σ n ,ou seja: X N n ~ ;µ σ 2      Portanto, z X n = − µ σ tem distribuição N (0,1) Então, ( )P z z z− ≤ ≤ + = −α α α2 2 1 P z x n z− ≤ − ≤ +       = −α α µ σ α2 2 1 P z n X z n X− − ≤ ≤ + −     = −α α σ µ σ α2 2 1 P X z n X z n − ≤ ≤ +    = −α α σ µ σ α2 2 1 (Pop. Infinita) Para caso de populações finitas usa-se a seguinte fórmula: P X Z n Z n + ≤ ≤       = − N - n N -1 N - n N -1α α σ µ σ α2 2 1 (Pop. Finita) Obs.: Os níveis de confiança mais usados são: 1 90 1 642− = ⇒ = ±α α% , z 1 95 1 962− = ⇒ = ±α α% , z 1 85 2− = ⇒ =α α% z 1 99 2− = ⇒ = ±α α% 2 ,58z 103 Ex.: Seja X a duração da vida de uma peça de equipamento tal que σ = 5 horas. Admita que 100 peças foram ensaiadas fornecendo uma duração de vida média de 500 horas e que se deseja obter um intervalo de 95% para a verdadeira média populacional. R = P (499,02 ó µ ó 500,98) = 95%. Obs.: Podemos dizer que 95% das vezes, o intervalo acima contém a verdadeira média populacional. Isto não é o mesmo que afirmar que 95% é a probabilidade do parâmetro µ cair dentro do intervalo, o que constituirá um erro, pois µ é um parâmetro (número) e ele está ou não no intervalo. 8.2.2 Intervalo de confiança para a média (µ) com a variância (σ2) desconhecida ( n ≤ 30) Neste caso precisa-se calcular a estimativa S (desvio padrão amostral) a partir dos dados, lembrando que: ( ) S x x n i i n 2 2 1 1 = − − = ∑ onde n -1 = graus de liberdade X N n ~ ;µ σ2      Portanto, t X S n = − µ tem distribuição N (0,1) t X S n z S N S = − = =µ σ σ σ . S ( , )0 1 Esta distribuição é conhecida como distribuição "t" de Student, no caso com (ϕ = n -1) graus de liberdade
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved