Estatística Apostila Teste de hipóteses

Estatística Apostila Teste de hipóteses

TESTES DE HIPÓTESES COM DUAS AMOSTRAS

  • O teste de hipóteses da diferença das médias de duas populações é freqüentemente utilizado para determinar se é ou não razoável concluir que as médias das duas populações são diferentes. Por exemplo:

    • É de interesse do controle de qualidade determinar se o mesmo produto oferecido por dois fornecedores diferentes apresenta a mesma quantidade de peças com defeitos.
    • Ao médico do laboratório farmacêutico interessa determinar se o novo remédio para controle de diabetes é eficiente acompanhando dois grupos de pacientes, o primeiro grupo que recebeu o remédio e o outro que recebeu apenas placebo, produto com a mesma forma, porém sem o elemento ativo.

    • O gerente de compras pode estar interessado em determinar se o mesmo produto oferecido por dois fornecedores diferentes apresenta o mesmo prazo real de entrega.
    • Da mesma forma, o gerente de salários necessita conhecer se os salários da mesma categoria de trabalhadores têm o mesmo valor em duas cidades diferentes.
  • Os exemplos mostram o objetivo do analista em determinar se há diferença entre as médias de duas populações independentes considerando que as respostas de um grupo são independentes das respostas do outro grupo.

TH – Diferenças entre Médias

Amostras Grandes

  • Qual é a forma da distribuição da diferença de duas médias?

  • A resposta é dada pelo teorema central do limite, que foi apresentado anteriormente. Se for retirado um numero grande de amostras das duas populações, a distribuição da diferença das duas médias será aproximadamente normal.

    • Para amostras grandes, n>30, o Z observado Zo é obtido da normalização da diferença entre as duas médias utilizando a expressão:

Sendo as variâncias das populações desconhecidas, as variâncias das amostras fornecerão uma boa aproximação, sendo o denominador da fórmula seguinte o erro amostral.

  • Sendo as variâncias das populações desconhecidas, as variâncias das amostras fornecerão uma boa aproximação, sendo o denominador da fórmula seguinte o erro amostral.

Na célula F12 o modelo registra o Z observado, resultado obtido com:

  • Na célula F12 o modelo registra o Z observado, resultado obtido com:

  • Na célula F13 é calculado o p-value para duas caudas da distribuição. Como o p-value é maior que o nível de significância =0,05, a hipótese nula deve ser aceita, pois há evidencias de que a diferença de médias não seja significativa.

  • Na célula F14 é apresentada a decisão por extenso, Aceitar Ho ou Rejeitar Ho.

Esse procedimento com a distribuição Z deve ser aplicado quando as variâncias das populações são conhecidas, o que, na prática, é difícil de ocorrer.

  • Esse procedimento com a distribuição Z deve ser aplicado quando as variâncias das populações são conhecidas, o que, na prática, é difícil de ocorrer.

  • Daí que se o tamanho de uma das amostras for igual ou menor que trinta e um, o modelo não apresentará os títulos e resultados relevantes.

  • Como em geral as variâncias das populações não são conhecidas, é recomendado utilizar o procedimento com a distribuição t.

FdeA - Teste Z: Duas amostras para Médias

Amostras Pequenas Variâncias das Populações Iguais

FdeA - Teste T: Duas amostras Variâncias Eq.

Amostras Pequenas Variâncias das Populações Diferentes

  • O procedimento do teste de hipóteses da diferença das médias de duas populações com variâncias desconhecidas, ou presumindo que sejam diferentes, tem as mesmas premissas do procedimento do teste de hipóteses com variâncias iguais, incluindo as seguintes alterações de cálculo:

  • Deve ser utilizada a estatística teste t* definida com a expressão:

O teste t* pode ser aproximado ao teste t obtendo o número de graus de liberdade gl com a expressão:

  • O teste t* pode ser aproximado ao teste t obtendo o número de graus de liberdade gl com a expressão:

  • Como, em geral, o resultado de gl não é um número inteiro, deve ser adotado o número inteiro mais próximo.

FdeA - Teste T: Duas amostras Variâncias Dif.

Amostras Emparelhadas

  • Quando for necessário comparar, por exemplo, as vendas diárias de duas filiais que operam com os mesmos produtos, ou os resultados de um treinamento, confrontando o conhecimento antes e depois do treinamento, os procedimentos de teste de hipóteses para diferença das médias utilizados até este momento não podem ser aplicados, pois se referem a duas populações independentes.

  • Agora, necessitamos analisar duas populações relacionadas, isto é, duas populações dependentes.

  • Neste caso, a variável de interesse será a diferença entre os pares das duas amostras, no lugar das próprias amostras, que devem ter o mesmo tamanho.

Como premissa, a população das diferenças tem distribuição aproximadamente normal e a amostra das diferenças é extraída aleatoriamente da população das diferenças.

  • Como premissa, a população das diferenças tem distribuição aproximadamente normal e a amostra das diferenças é extraída aleatoriamente da população das diferenças.

  • O procedimento é o seguinte:

    • Das duas variáveis X1e X2 definidas pelos valores X11, X12, ... X1ne X21, X22, ... X2né formada a nova variável D das diferenças entre esses valores D1= X11- X21, ... , Dj= X1j- X2j, ..., Dn= X1n- X2n.
    • Na variável D é calculada a médiaD e a variância
    • O t observado é calculado com a fórmula:

Definido o nível de significância , é realizado o teste de hipóteses.

  • Definido o nível de significância , é realizado o teste de hipóteses.

    • Ho: D=0
    • H1: D0

FdeA – Teste T: Duas amostras em Par para Médias

Distribuição F

  • O teste de hipóteses para a diferença das médias é utilizado para determinar se é ou não razoável concluir que as médias das duas populações são diferentes.

  • Também é freqüente verificar se é ou não razoável concluir que as variâncias das duas populações são diferentes.

  • Para verificar se duas populações independentes têm a mesma variância é utilizada a estatística da relação das variâncias das amostras

  • retiradas de duas populações.

  • Se as distribuições das duas populações forem normais, então a relação

  • tem distribuição F.

  • Sempre que as distribuições das populações forem normais, a distribuição F será também utilizada para comparar simultaneamente duas ou mais médias, procedimento denominado análise da variância.

  • As principais características da distribuição F são as seguintes:

    • A distribuição F é contínua e sempre positiva com valores no intervalo (0, +).
      • A distribuição F tem inclinação positiva.
    • Há uma família de distribuições F identificadas por dois parâmetros, graus de liberdade do numerador1 e graus de liberdade do denominador2. A forma final da distribuição depende dos graus de liberdade1 e 2, como mostra o slide da distribuição.

Exemplo

  • Calcular o F crítico Fc da distribuição F com probabilidade de 5% na cauda superior de superar o valor do F crítico, considerando que o número de graus de liberdade do numerador é 6, e o do denominador, 10.

  • Tradicionalmente, os cálculos são realizados com a tabela da distribuição F.

    • No capítulo Tabelas do livro o leitor encontrará duas tabelas da distribuição F, uma para o nível de significância =0,01 e a outra para =0,05.
    • A Tabela F_DISTR permite construir a tabela de valores críticos de F para qualquer valor de nível de significância.

  • A tabela seguinte apresenta parte da tabela da distribuição F para o nível de significância =0,05.

    • Nos cabeçalhos das colunas estão registrados os graus de liberdade do numerador, e nos cabeçalhos das linhas, os graus de liberdade do denominador.
  • O Fc da distribuição F com 6 graus de liberdade do numerador e 10 graus de liberdade do denominador correspondente ao nível de significância 0,05 na cauda superior obtido da tabela F é 3,22.

    • Para informar os valores que participam do F crítico, costuma-se escrever: Fc(;1;2)=Fc(0,05;6;10)=3,22.
  • A fórmula =INVF(0,05;6;10) retornará o Fc=3,2172.

    • A fórmula =DISTF(3,2173;6;10) retornará o valor 0,0500, que é a probabilidade P(F3,2173) na cauda superior da distribuição F. Ou, a função DISTF retornou o nível de significância 5%.

Como proceder se for necessário realizar cálculos na cauda inferior da distribuição F?

  • Como proceder se for necessário realizar cálculos na cauda inferior da distribuição F?

  • Denominando FS ao F crítico da cauda superior e Fi ao F crítico da cauda inferior, para o nível de significância , demonstra-se que:

  • Nessa expressão, 1 é o número de graus de liberdade do numerador, e 2 é o número de graus de liberdade do denominador.

    • Observe que para o cálculo do F crítico na cauda inferior é utilizado o procedimento de cálculo do F crítico da cauda superior, porém permutando os graus de liberdade.

Teste F

  • Freqüentemente, é necessário verificar se é ou não razoável concluir que as variâncias das duas populações são diferentes.

  • O teste F é um teste de hipóteses utilizado para verificar se as variâncias de duas populações com distribuição normal são diferentes, ou para verificar qual das duas populações com distribuição normal têm mais variabilidade.

  • De outra maneira, conhecidas duas amostras com qualquer tamanho, o teste F dá condições para determinar se as duas amostras pertencem à mesma população.

Exemplo

  • Verificar se há diferença nas variâncias de duas populações com distribuição normal conhecendo as medidas estatísticas registradas na tabela seguinte e extraídas dessas populações, considerando o nível de significância =5%.

  • Como os tamanhos das amostras são n1=17 e n2=21, a distribuição F possui 1=16 graus de liberdade do numerador e 2=20 graus de liberdade do denominador.

  • O F crítico é igual a Fc=2,18398, com =5%.

    • Como Fo>Fc, a hipótese nula não deve ser aceita, há evidência de que a diferença entre as variâncias é significativa.
  • O p-value é igual a 4,72%.

    • Como ou p-value< a hipótese nula não deve ser aceita.

FdeA – Teste F: Duas amostras para variâncias

DISTRIBUIÇÃO 2

  • Na maioria dos testes de hipóteses aplicados até este momento a distribuição da população era conhecida.

  • Há casos em que a distribuição da população não é conhecida e se deseja verificar se um grupo de valores segue um determinado modelo de probabilidade teórico utilizando a distribuição Qui-Quadrado, ou 2.

  • O slide seguinte mostra uma das possíveis distribuições 2 dependente do número de graus de liberdade gl.

As principais características da distribuição2 são:

  • As principais características da distribuição2 são:

  • A distribuição2é contínua e sempre positiva com valores no intervalo (0, +), a distribuição2tem inclinação positiva.

  • Há uma família de distribuições2 identificadas pelo parâmetro graus de liberdade gl.

Questão

  • O diretor de RH da empresa multinacional deseja conhecer se o hábito de fumar observado dos funcionários classificados por sexo na nova planta em outro país é diferente do hábito de fumar dos funcionários da matriz considerado como hábito esperado.

  • Os resultados da pesquisa estão registrados nos intervalos B3:D5 e B7:D9 da figura seguinte.

  • Considerando o nível de significância de 5%, verificar se há diferença entre as duas filiais.

Comentários