Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Estatistica Basica, Notas de estudo de Estatística

Apostila 5

Tipologia: Notas de estudo

Antes de 2010
Em oferta
30 Pontos
Discount

Oferta por tempo limitado


Compartilhado em 07/12/2009

flavia-mckenzie-1
flavia-mckenzie-1 🇧🇷

4.6

(8)

18 documentos

Pré-visualização parcial do texto

Baixe Estatistica Basica e outras Notas de estudo em PDF para Estatística, somente na Docsity! Material Didático MM oO Série Estatística Basica Texto VW Correlação e Regressão Entfoc pf o» 7” 2jyfoo XATAS Prof. Lori Viali, Dr. S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 1 SUMÁRIO 1. CORRELAÇÃO .............................................................................................2 1.1. Introdução................................................................................................................................................... 2 1.2. Padrões de associação ................................................................................................................................ 3 1.3. Indicadores de associação.......................................................................................................................... 3 1.4. O coeficiente de correlação........................................................................................................................ 5 1.5. Hipóteses básicas ........................................................................................................................................ 5 1.6. Definição...................................................................................................................................................... 6 1.7. Distribuição amostral de r (quando ρ = 0) ............................................................................................... 6 1.8. Distribuição amostral de r (quando ρ ≠ 0) ............................................................................................... 7 1.9. Propriedades de r ....................................................................................................................................... 8 2. REGRESSÃO................................................................................................9 2.1. Estimativa dos parâmetros de regressão................................................................................................ 11 2.2. Estimativa da variância do termo erro................................................................................................... 12 2.3. Distribuições das estimativas................................................................................................................... 15 2.3.1. Distribuição do estimador “b”.............................................................................................................................. 15 2.3.2. Distribuição do estimador “a” .............................................................................................................................. 16 2.4. Decomposição da soma dos quadrados .................................................................................................. 16 2.4.1. Decomposição dos desvios................................................................................................................................... 16 2.4.2. Cálculo das variações ........................................................................................................................................... 17 2.5. Intervalos de confiança ............................................................................................................................ 18 2.5.1. Intervalo para o coeficiente linear (α) .................................................................................................................. 18 2.5.2. Intervalo para o coeficiente angular (β) ............................................................................................................... 18 2.5.3. Intervalo para previsões ....................................................................................................................................... 18 2.6. Testes de hipóteses.................................................................................................................................... 20 2.6.1. Teste para a existência da regressão..................................................................................................................... 20 2.6.2. Teste para o coeficiente linear.............................................................................................................................. 20 2.7. Coeficiente de determinação ou de explicação....................................................................................... 21 3. EXERCÍCIOS...............................................................................................22 4. RESPOSTAS...............................................................................................27 5. REFERÊNCIAS ...........................................................................................30 S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 4 A tabela 1.2 mostra outras possíveis saídas para este tipo de esquema de classificação cruzada. Novamente 100 elementos são classificados em 4 células de acordo com o critério anterior. A parte (a) da tabela mostra uma associação positiva, a parte (b) uma negativa e a parte (c) que não deve existir associação entre duas variáveis X e Y. Tabela 1.2 - Indicativos da presença de associação entre duas variáveis X e Y. (a) Relação positiva (b) Relação negativa (c) Sem relação Valor de Y Valor de Y Valor de Y Valor de X Abaixo da mediana Acima da mediana Valor de X Abaixo da mediana Acima da mediana Valor de X Abaixo da mediana Acima da mediana Acima da mediana 15 35 Acima da mediana 35 15 Acima da mediana 25 25 Abaixo da mediana 35 15 Abaixo da mediana 15 35 Abaixo da mediana 25 25 Diagramas de dispersão. As tabelas de contingência 2x2 fornecem somente a indicação grosseira da relação entre duas variáveis, a não ser o fato de que os valores estão situados acima e abaixo da mediana, qualquer outra informação é desperdiçada. Vamos considerar um exemplo, envolvendo duas variáveis contínuas. Um comerciante de temperos está curioso sobre a grande variação nas vendas de loja para loja e acha que as vendas estão associadas com o espaço nas prateleiras dedicados a sua linha de produto em cada ponto de venda. Dez lojas foram selecionadas ao acaso através do país e as duas seguintes variáveis foram mensuradas: (1) total de espaço de frente (comprimento x altura em cm2) dedicados a sua linha de produtos e (2) total das vendas dos produtos, em reais, no último mês. Os dados são apresentados na tabela 1.3. Tabela 1.3 – Vendas x espaço dedicado aos produtos (em cm2). Local Espaço Vendas 1 340 71 2 230 65 3 405 83 4 325 74 5 280 67 6 195 56 7 265 57 8 300 78 9 350 84 10 310 65 Pela observação da tabela não é fácil perceber o tipo de relacionamento que possa existir entre as duas variáveis. Para ter uma idéia melhor, as variáveis são colocadas no que é denominado de diagrama de dispersão. Uma das variáveis (X) é representada no eixo horizontal e a outra variável (Y) no eixo vertical, conforme figura 1.2. S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí V Figura 1.2 − Diagrama de dispersão das variáveis apresentadas na tabela 1.3. U as variá não hou mostrare 1.4. O A entre du medida o coefic correlaç O uma cor termos d uma das correlaç iguais em U situado um relac 1.5. H A variávei relacion forma li U mínimo uma da experim U bivariadiali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 5 ma olhada rápida no diagrama de dispersão mostra a existência de um relacionamento entre veis, com altos valores de uma das variáveis associados a altos valores da outra variável. Se vesse relacionamento entre elas, os pontos estariam distribuídos ao acaso no gráfico sem m alguma tendência. COEFICIENTE DE CORRELAÇÃO pesar do diagrama de dispersão nos fornecer uma idéia do tipo e extensão do relacionamento as variáveis X e Y, seria altamente desejável ter um número que medisse esta relação. Esta existe e é denominada de coeficiente de correlação. Quando se está trabalhando com amostras iente de correlação é indicado pela letra r que é, por sua vez, uma estimativa do coeficiente de ão populacional: ρ (rho). coeficiente de correlação pode variar de –1,00 a + 1,00, com um coeficiente de +1, indicando relação linear positiva perfeita. Neste caso, as duas variáveis serão exatamente iguais em e escores padronizados z, isto é, um elemento apresentando um escore padronizado de 1,5 em variáveis vai apresentar o mesmo escore padronizado na outra variável. Um coeficiente de ão de –1, indica correlação linear perfeita negativa, com os escores padronizados exatamente valores absolutos, diferindo apenas no sinal. ma correlação de +1 ou –1 é raramente observado. O mais comum é que o coeficiente fique no intervalo entre estes dois valores. Um coeficiente de correlação “0”, significa que não existe ionamento linear entre as duas variáveis. IPÓTESES BÁSICAS suposição básica sobre o coeficiente de correlação é que o relacionamento entre as duas s seja linear. Isto é, o coeficiente de correlação é adequado para avaliar somente o amento linear. As duas variáveis podem estar perfeitamente relacionadas, mas se não for de near o valor do coeficiente pode ser zero ou próximo de zero. ma segunda hipótese é que as variáveis envolvidas sejam aleatórias e que sejam medidas no em escala de intervalo. Ele não se aplica a variáveis em escala nominal ou ordinal ou quando s variáveis é manipulada experimentalmente, pois neste caso, a escolha dos valores entais vai influenciar o valor de r obtido. ma terceira hipótese é que as duas variáveis tenham uma distribuição conjunta normal a. Isto é equivalente a dizer que para cada x dado a variável y é normalmente distribuída. Vendas x Áreas de prateleira 50 60 70 80 90 100 150 200 250 300 350 400 450 S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 6 Suponha-se que existam apenas duas variáveis X e Y. Uma amostra da variável “X”, assumindo os valores particulares X1, X2, ..., Xn e uma amostra da variável “Y” assumindo os valores particulares Y1, Y2, ..., Yn são obtidas e suponha-se ainda que o objetivo é saber se existe algum tipo de relacionamento linear entre estas duas variáveis. Isto poderá ser medido pelo coeficiente de correlação que fornece o grau de relacionamento linear entre duas variáveis. 1.6. DEFINIÇÃO Na população o coeficiente de correlação é representado por ρ e na amostra por r. Assim dadas duas amostras, uma da variável X e outra da variável Y, o coeficiente de correlação amostral poderá ser calculado através da seguinte expressão: ( ) ( ) ( ) ( ) =   −− − −= YYi.XXi YY.XXr ii 22 ( ) ( ) ( )[ ] ( )[ ] − −  − YiYn.XiXn Y.XY.Xn ii iiii 2222 Uma população que tenha duas variáveis não correlacionadas linearmente pode produzir uma amostra com coeficiente de correlação diferente de zero. Para testar se a amostra foi ou não retirada de uma população de coeficiente de correlação não nulo entre duas variáveis, precisamos saber qual é a distribuição amostral da estatística r. 1.7. DISTRIBUIÇÃO AMOSTRAL DE R (QUANDO ρ = 0) A distribuição amostral de r depende somente do valor de ρ (coeficiente de correlação populacional) e do tamanho da amostra. Se for admitido que ρ = 0, a distribuição amostral de r (coeficiente de correlação na amostra) será simétrica em torno de “0” com variabilidade dada por: 2 1 2 − −=σ n r r Neste caso, pode-se mostrar que o quociente: 2 1 2 − −=σ n rr/r r tem uma distribuição t com n - 2 graus de liberdade. Isto é: 2 1 2 − −= n rrt . Exemplo: Quer-se testar se existe ou não correlação linear entre X = toneladas de adubo orgânico por ha e Y = produção da cultura A por ha. Para tanto é realizado um experimento com duração de 5 anos que mostrou os resultados da tabela 1.4. Verificar se existe relacionamento linear entre as duas variáveis. Tabela 1.4 − Valores das variáveis X e Y Anos X Y 1989 2 48 1990 4 56 1991 5 64 1992 6 60 1993 8 72 S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 9 2. REGRESSÃO Uma vez constatado que existe correlação linear entre duas variáveis, pode-se tentar prever o comportamento de uma delas em função da variação da outra. Para tanto será suposto que existem apenas duas variáveis. A variável X (denominada variável controlada, explicativa ou independente) com valores observados X1, X2, ..., Xn e a variável Y (denominada variável dependente ou explicada) com valores Y1, Y2, ..., Yn. Os valores de Y são aleatórios, pois eles dependem não apenas de X, mas também de outras variáveis que não estão sendo representadas no modelo. Estas variáveis são consideradas no modelo através de um termo aleatório denominado “erro”. A variável X pode ser aleatória ou então controlada. Desta forma pode-se considerar que o modelo para o relacionamento linear entre as variáveis X e Y seja representado por uma equação do tipo: Y = α + βX + U, onde “U” é o termo erro, isto é, “U” representa as outras influências na variável Y além da exercida pela variável “X”. Esta equação permite que Y seja maior ou menor do que α + βX, dependendo de “U” ser positivo ou negativo. De forma ideal o termo “U” deve ser pequeno e independente de X, de modo que se possa modificar X, sem modificar “U”, e determinar o que ocorrerá, em média, a Y, isto é: E(Y/X) = α + βX Os dados {(Xi, Yi), i = 1, 2, ..., n} podem ser representados graficamente marcando-se cada par (Xi, Yi) como um ponto de um plano. Os termos Ui são iguais a distância vertical entre os pontos observados (Xi, Yi), e os pontos calculados (Xi, α + βXi). Isto está ilustrado na figura 2.1. Um modelo de regressão consiste em um conjunto de hipóteses sobre a distribuição dos termos “erro” e as relações entre as variáveis X e Y. Algumas destas hipóteses são: (i) E(Ui) = 0; (ii) Var(Ui) = σ2 Figura 2.1 − O modelo de regressão linear Y • E(Y/X) = α + βX Erro U Y  • X S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 10 Na hipótese (i) o que se está supondo é que os Ui são variáveis aleatórias independentes com valor esperado igual a zero e na (ii) que a variância de cada Ui é a mesma e igual a σ2, para todos os valores de X. Supõem-se ainda que a variável independente X, permaneça fixa, em observações sucessivas e que a variável dependente Y seja função linear de X. Os valores de Y devem ser independentes um do outro. Isto ocorre em geral, mas em alguns casos, como, por exemplo, observações diferentes são feitas no mesmo indivíduo em diferentes pontos no tempo está suposição poderá não ocorrer. Como o valor esperado de Ui é zero, o valor esperado da variável dependente Y, para um determinado valor de X, é dado pela função de regressão α + βX ou seja: E(Y/X) = E(α + βX + U) = α + βX + E(U) = α + βX [1] já que α + βX é constante para cada valor de X dado. O símbolo E(Y/X) é lido valor esperado de Y, dado X. A variância de Y, para determinado valor de X, é igual a: V(Y/X) = V(α + βX + U) = V(U) = σ2 [2] A hipótese de que V(Y/X) é a mesma para todos os valores de X, denominada de homocedasticidade, é útil pois permite que se utilize cada uma das observações sobre X e Y para estimar σ2. O termo “homo” significa “o mesmo” e “cedasticidade” significa “disperso”. De [1] e [2] decorre que, para um dado valor de X, a variável dependente Y tem função densidade de probabilidade (condicional) com média α + βX e variância σ2. A figura 2.2, ilustra a função densidade. Na parte superior da figura é ilustrado o caso heterocedástico e na parte inferior o caso homocedástico. A posição da função densidade f(Y/X) varia em função da variação do valor de X. Note-se que a média da função densidade se desloca ao longo da função de regressão α + βX. Figura 2.2 − Função densidade de Y dado X S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 11 Em resumo, o modelo de regressão proposto consiste nas seguintes hipóteses: 1. Y = α + βX + U; 2. E(Y/X) = α + βX; 3. V(Y/X) = σ2; 4. Cov(Ui, Uj) = 0, para i ≠ j; 5. A variável X permanece fixa em observações sucessivas; 6. Os erros U são normalmente distribuídos. 2.1. ESTIMATIVA DOS PARÂMETROS DE REGRESSÃO Se fosse conhecido toda a população de valores (Xi, Yi) então seria possível determinar os valores exatos dos parâmetros α, β e σ2. Como, em geral, se trabalha com amostras se faz necessário, então, estimar estes parâmetros com base nos valores da amostra. Existem alguns métodos para ajustar uma linha entre as variáveis X e Y o mais utilizado é o denominado método dos mínimos quadrados (MMQ). A reta obtida através deste método, não é necessariamente, o “melhor” ajustamento possível, mas possui muitas propriedades estatísticas que são desejáveis. Sejam a e b estimadores de α e β e Ei = Yi - a - bXi o desvio observado em relação a reta ajustada, isto é, Ei é um estimador do termo Ui. O método dos mínimos quadrados exige que os estimadores a e b sejam escolhidos de tal forma que a soma dos quadrados dos desvios dos mesmos em relação à reta de regressão ajustada seja mínima, isto é: φ =  = − − = = i i n i n E Y a bXi i2 1 2 1 ( ) = mínimo. Para tornar mínima esta soma em relação a a e b, é necessário diferenciar a expressão parcialmente em relação aos valores a e b. Após algumas simplificações vai-se obter: Yi = na + bXi (i) XiYi = aXi + b(Xi)2 (ii) que são denominadas de equações normais da regressão, onde “n” é o número de pares de observações. Obs.: Para simplificar a notação foram desconsiderados os índices nos somatórios. Dividindo-se a equação (i) por “n” e isolando o valor de a vem: a y n b X n Y bXi i=  −  = −( ) levando-se este resultado na equação (ii) tem-se: b =  −  −− )XX( YX i 2 )Yi)(Xi( = i i i i i i X Y X Y n X X n −  −  2 2( ) = n X Y X Y n X X i i i i i i −  −  2 2( ) A reta estimada de regressão será então: bXaY +=  S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 14 2n SXYbSYY 2n SXXb2SYY s − − = − − = Exemplo: Considerando as variáveis X e Y acima e a linha de regressão anterior determinar uma estimativa do erro padrão da regressão. Os cálculos necessários estão na tabela 2.2. Tabela 2.2 − Determinação do erro padrão da regressão X Y Yc E = Y - Yc E2 1 3 2,3 0,7 0,49 2 3 3,6 -0,6 0,36 4 7 6,2 0,8 0,64 5 6 7,5 -1,5 2,25 8 12 11,40 0,6 0,36 20 31 31 0 4,10 O erro padrão da regressão será então: S E n =  − 2 2 = 2 2 ( )Y a bX n − − − = 410 5 3 , − = 13667, = 1,17 Este mesmo cálculo poderá ser efetuado pela expressão definida acima, sem a necessidade de se obter os valores estimados. Tabela 2.3 − Determinação do erro padrão da regressão X Y X2 Y2 XY 1 3 1 9 3 2 3 4 9 6 4 7 16 49 28 5 6 25 36 30 8 12 64 144 96 20 31 110 247 163 Neste caso, tem-se: ( )  −=  n X 2 X2SXX = 110 – 20 2/5 = 30 ( )  −=  n Y 2 Y2SYY = 247 - 31 2/5 = 54,80   −= n YXXYSXY = 163 – (20.31)/5 = 39 S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 15 O valor de “b” será: b = SXY/SXX = 39/30 = 1,30 Portanto o erro padrão da regressão será: 2n SXYbSYY 2n SXXb2SYY s − − = − − = = 25 39.3,180,54 − − = 3 10,4 = 3667,1 = 1,1690 = 1,17 2.3. DISTRIBUIÇÕES DAS ESTIMATIVAS Observando-se as expressões dos estimadores “a” e “b” da reta estimada, pode-se notar que ambos dependem de Y que é uma variável aleatória com distribuição supostamente normal de média f(X) e desvio padrão σ2. Como os estimadores “a” e “b” são funções lineares de uma variável aleatória normal, também serão variáveis aleatórias com distribuição normal. O que precisa ser determinado, então, é a média e a variância de cada um deles. Antes disso vai-se determinar uma estimativa de σ2 a variância da variável Y, que no modelo é suposta a mesma para cada valor de X (homocedasticidade). 2.3.1. DISTRIBUIÇÃO DO ESTIMADOR “B” Tem-se que: b = SXY / SXX = ( )( )X X Y Y SXX − − = Y X X Y X X SXX ( ) ( )− − − Mas ( )X X− = 0, logo: b = Y X X SXX ( )− Mas Y = α + βX + U, então: b = Y X X SXX ( )− = ( )( )α β+ + − X U X X SXX = α ( )X X SXX − + β X(X X SXX − ) + U X X SXX ( )− Como SXX = 2( )X X− = ( )( )X X X X− − = X(X X X X X− − − ) ( ) = X(X X− ) , pois ( )X X− = 0 Vem: b = β + U X X SXX ( )− Logo a expectância de “b” será: E(b) = E(β) + E( U X X SXX ( )− ) = E(β) + ( )X X SXX − E(U). Mas E(U) = 0, por hipótese. Então: E(b) = E(β) = β, uma vez que a média de uma constante é a própria constante. Isto, também, mostra que “b” é um estimador não-tendencioso de β. Para a variância, tem-se: V(b) = V(β + U X X SXX ( )− ) = V( U X X SXX ( )− ) = 2 2 ( ) ( ) X X SXX − V(U). S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 16 Tendo em vista que por hipótese do modelo V(U) = σ2 e que 2( )X X− = SXX, segue: V(b) = XX XX S S . ( ) 2 2 σ = 2σ XXS . Portanto, a distribuição da estatística “b” é N(β, σ XXS ). 2.3.2. DISTRIBUIÇÃO DO ESTIMADOR “A” Quanto à distribuição da variável aleatória “a”, tem-se: a = Y - b X . Mas Y = Y / n, então: a = Y n bX − = ( )α β+ + −X U n bX = α β +  +  − n X n U n bX = α + β X + U n bX − Assim: E(a) = E(α) + E(β X ) + E U n E bX( ) ( ) − = α + β X + E U n X( ) − β , pois E(b) = β Então E(a) = α, pois E(U) = 0. Vê-se que “a” é um estimador não-tendencioso de α. Quanto à variância, tem-se: V(a) = V(α) + V(β X ) + V( U n V(bX +) ) = 0 + 0 + 1 2 2 n V(U V(b)X) + = 12 2 2 2 n X SXX σ σ + = = 2 2 2σ σ n X SXX + = 2 21 σ ( )n X SXX + . Portanto a distribuição de “a” é: N(α, σ 1 2 n X SXX + ). 2.4. DECOMPOSIÇÃO DA SOMA DOS QUADRADOS 2.4.1. DECOMPOSIÇÃO DOS DESVIOS Pelo figura 2.3, pode-se perceber que o desvio em relação a Y (desvio total), isto é, Y - Y pode ser decomposto em dois outros desvios: Y Y - Y  Y - Y  Y Y Y  - Y X X Figura 2.3 − Desvios na regressão S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 19 E(  Y ) = E(a + bX) = E(a) + E(bX) = α + βE(X) = α + βX = f(X) = E(Y/X), pois, neste caso, X é constante para cada valor de Y. Tem-se:  Y = a + bX, mas a = Y - b X , então:  Y = Y - b X + bX = Y + b(X - X ). A variância de  Y , será: V(  Y ) = V[ Y - b(X - X )] = V( Y ) + V[b(X - X )] = V ( )Y n  + (X - X )2 V(b) = 1 2n V(Y) + (X - X )2 2σ XXS = 2σ n + (X - X )2 2σ XXS = σ2 1 2 n X X SXX + −         ( ) . Portanto:  Y tem distribuição N(α + βX, σ 1 2 n X X SXX + −( ) ) Conhecida a distribuição de  Y , então o intervalo de confiança de “1 - α“ de probabilidade para f(X) ou E(Y/X) será: P(  Y - tn-2. S. 1 2 n X X SXX + −( ) ) ≤ E(Y/x) ≤  Y + tn-2. S. 1 2 n X X SXX + −( ) ) = 1 - α, onde tn-2 é o valor da distribuição t com “n - 2” graus de liberdade. (b) Intervalo para um valor individual ( Y ) Uma estimativa do valor individual de Y é dado pela reta de regressão  Y = a + bX, para um dado X e o desvio de previsão será dado por Y -  Y , cujas propriedades são: Para a média: E(Y -  Y ) = E(Y) - E(  Y ) = f(X) - f(X) = 0 Para a variância, tem-se: V(Y -  Y ) = V(Y) + V(  Y ) = σ2 + σ2 1 2 n X X SXX + −         ( ) = σ2 1 1 2 + + −        n X X SXX ( ) . Então: Y -  Y tem distribuição N(0, σ 1 1 2 + + − n X X SXX ( ) ) Conhecida a distribuição de Yi -  Y , então o intervalo de confiança de “1 - α“ de probabilidade para um valor individual de Y (Yi) para um dado X, será:  Y - tn-2. S. 1 1 2 + + − n X X SXX ( ) );  Y + tn-2. S. 1 1 2 + + − n X X SXX ( ) , onde tn-2 é o valor da distribuição t com “n - 2” graus de liberdade. S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 20 2.6. TESTES DE HIPÓTESES Conhecidas as distribuições dos estimadores dos coeficientes angular e linear, pode-se realizar um teste de hipóteses. 2.6.1. TESTE PARA A EXISTÊNCIA DA REGRESSÃO Testar a existência da regressão é testar se o parâmetro β é diferente de zero. Desta forma o que se quer testar é: H0: β = 0 contra as alternativas: H1: β ≠ 0; β > 0 ou β < 0 Fixado um nível de significância α a variável teste será a “t” de Student com “n - 2” graus de liberdade, pois sabe-se que: b tem distribuição Normal com média β e desvio padrão σ XXS , ou seja, Z = b SXX − β σ tem distribuição normal padrão. Porém como σ não é conhecido é necessário estimá-lo através de S. Então: tn-2 = b S SXX − β 2.6.2. TESTE PARA O COEFICIENTE LINEAR Testar o coeficiente linear da regressão “α“ é testar o valor inicial da regressão, isto é, é testar o valor de Y quando X = 0. As hipóteses são: H0: α = 0 contra as alternativas: H1: α ≠ 0; α > 0 ou α < 0 Fixado um nível de significância a variável teste será a “t” de Student com “n - 2” graus de liberdade, pois sabe-se que o estimador “a”, tem uma distribuição: N(α, 2 21 σ ( )n X SXX + ). Então: S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 21 Z = a n X SXX − +         α σ 1 2 tem distribuição normal padrão. Porém como σ não é conhecido é necessário estimá-lo através de S. Então: tn-2 = a S n X SXX − +         α 1 2 2.7. COEFICIENTE DE DETERMINAÇÃO OU DE EXPLICAÇÃO Além dos testes de hipóteses e dos intervalos de confiança, outro indicador que fornece elementos para a análise do modelo adotado é o coeficiente de determinação ou de explicação, definido por: R2 = VE / VT = b S S XY YY O coeficiente de determinação indica quantos por cento a variação explicada pela regressão representa sobre a variação total. Deve-se ter: 0 ≤ R2 ≤ 1 Se R2 for igual a 1, isto significa que todos os pontos observados se situam “exatamente” sobre a reta de regressão. Tendo-se, neste caso, um ajuste perfeito. As variações da variável Y são 100% explicadas pelas variações da variável X, não ocorrendo desvios em torno da função estimada. Por outro lado, se R2 = 0, isto quer dizer que as variações de Y são exclusivamente aleatórias e explicadas pelas variações de outros fatores que não X. S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 24 (11.3) Há evidência suficiente nestes dados de que o tempo de decisão se relaciona linearmente ao número de alternativas oferecidas a esses consumidores? (12) Na fabricação de um antibiótico, a produção depende do tempo. Os dados indicados na tabela, mostram que um processo resultou na seguinte produção (em quilogramas) de antibióticos por período de tempo (dias) indicados: Tempo (X = dias) 1 2 3 4 5 6 Produção (Y = em kg.) 23 31 40 46 52 63 (12.1) Por várias razões é conveniente esquematizar a produção em ciclos de 4 dias. Estime o valor médio da produção final de antibiótico produzido em um período de 4 dias. Considere um intervalo de 95% de confiança. (12.2) Suponha que o processo de produção, no futuro, se desenvolverá em 4 dias. Determine um intervalo de previsão de 95% para a produção. Compare com o intervalo para a produção média de um período de 4 dias que foi obtido em (12.1). (13) Mediu-se a altura de uma amostra de 5 meninos (em polegadas) na idade de 4 anos e novamente na idade de 18 anos. Os resultados obtidos estão abaixo: Na idade de 4 anos 40 43 40 40 42 Na idade de 18 anos 68 74 70 68 70 (13.1) Determine o coeficiente de correlação entre as duas categorias de alturas. (13.2) Teste a hipótese de que existe uma relação linear entre a altura aos 4 anos de idade e a altura aos 18 anos de idade. (13.3) Se fosse feito o gráfico de toda a população de alturas, calculando-se a correspondente reta dos mínimos quadrados, qual seria o seu coeficiente angular? Responda com um intervalo suficientemente amplo que permita uma aposta de 95%. (13.4) Repita o item 13.3 só que para o coeficiente linear. (14) A equação de regressão estimada abaixo resume um estudo da relação entre o uso do fumo e a incidência de câncer pulmonar, relacionando o número X de anos que uma pessoa fumou com a percentagem Y de incidência de câncer pulmonar em cada grupo. Ŷ = -2 + 1,70.X e r = 0,60. (14.1) Explique o significado das estimativas “-2” e “ 1,70” na equação de regressão. (14.2) Qual a taxa de incidência de câncer pulmonar para as pessoas que fumam há 20 anos? (14.3) Se “r” fosse igual a “um” seria possível concluir que o fumo é a única causa de câncer pulmonar? (14.4) Suponha-se que a equação estimada tenha sido obtida de uma amostra aleatória de 50 fumantes. Teste a hipótese de que o coeficiente de correlação seja igual a zero a uma significância de 1%. (15) Explique se concorda ou não com as seguintes afirmativas: (15.1) Um coeficiente de correlação de +1,0 entre duas variáveis X e Y indica que X causa Y, mas um coeficiente de correlação de -1,0 significa que X não causa Y. (15.2) Se o coeficiente de regressão é zero, o coeficiente de correlação é também zero. (15.3) Se o coeficiente angular é 1 (um), isto significa que existe perfeita correlação entre X e Y. (15.4) É possível que o coeficiente de correlação amostral seja positivo, quando não existe, de fato, nenhuma correlação entre as variáveis X e Y. S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 25 (15.5) Não se pode utilizar a técnica da regressão pelo método dos mínimos quadrados quando a relação básica entre X e Y não for linear. (16) Um estudo de duas safras forneceu as seguintes informações: Safra A:  Y = 200 + 0,8X, r = 0,70 e S = 30 Safra B:  Y = 50 + 1,20X, r = 0,9 e S = 20, onde Y é a produção por alqueire e X é a quantidade de chuva (em polegadas) no período da safra. (16.1) Se não houvesse chuva, estas duas equações poderiam ser usadas para predizer a quantidade produzida nas duas safras? Por quê? (16.2) Qual das duas safras tira mais proveito do aumento das chuvas? Por quê? (16.3) Para qual das duas safras é possível predizer a produção com melhor aproximação? Por quê? (17) Os dados abaixo foram obtidos de cinco fábricas diferentes de uma determinada indústria. Custo total (Y = em milhões) 80 44 51 70 61 Produção (X = toneladas) 12 4 6 11 8 (17.1) Determine um intervalo de confiança de 90% para o custo fixo dessa indústria. (17.2) Determine um intervalo de confiança de 95% para o custo marginal dessa indústria. (17.3) Faça uma previsão, através de um intervalo, para o custo total médio dessa indústria, para uma produção de 15t, utilizando uma confiança de 95%. (17.4) Faça uma previsão, através de um intervalo, para o custo total dessa indústria, para uma produção de 15t, utilizando uma confiança de 95%. (17.5) é possível afirmar, com uma significância de 1%, que o custo total dessa indústria está linearmente relacionado ao nível de produção? (17.6) Testar se o custo fixo pode ser considerado menor do que 30. (17.7) Testar se o custo marginal pode ser considerado menor do que 5. (18) Qual é o tamanho mínimo da amostra necessária para que se possa concluir que um coeficiente de correlação de 0,32 difere significativamente de zero ao nível de 0,05? (19) Um coeficiente de correlação, baseado em uma amostra de tamanho n = 18, foi calculado como sendo 0,32. Pode-se concluir aos níveis de significância (19.1) 0,05 e (19.2) 0,01, que o coeficiente de correlação, correspondente na população é diferente de zero? (20) Se o coeficiente de correlação entre X e Y é 0,80, que percentagem da variação total permanece não-explicada pela equação de regressão? (21) Examine os cinco pares de pontos dados na tabela X -2 -1 0 1 2 Y 4 1 0 1 4 (21.1) Qual é a relação matemática entre X e Y? (21.2) Determine o valor de r. (21.3) Mostre que calculando-se a linha de regressão de Y em relação a X tem-se b = 0. (21.4) Por que, aparentemente, não existe relação entre X e Y como estão indicando b e r? (22) Os dados abaixo representam o número de rendas pessoais tributáveis e o registro de automóveis de passageiros, em uma determinada região. X = número de rendas tributáveis (em milhares) 192 80 162 246 310 Y = Número de carros de passageiros (milhares) 23 11 13 31 91 S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 26 (22.1) Verificar se existe correlação entre as duas variáveis. (22.2) Determine a equação de regressão de Y em função de X, caso o coeficiente de correlação seja significativamente diferente de zero. (22.3) Faça uma previsão do número de carros se o número de contribuintes tributáveis for de 500 mil. (22.4) Determine a equação de regressão de X em função de Y. S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 29 (15.5) A técnica dos mínimos quadrados pode ser utilizado para ajustar vários tipos de equação. (16) (16.1) Neste caso, a interpretação deve ser mais cuidadosa, pois tanto o excesso de chuvas quanto a falta vão distorcer os dados e estas equações podem não ser mais válidas. (16.2) A safra B tira mais proveito, provavelmente por ser uma cultura que precisa de mais chuvas. (16.3) Para a safra B pois existe uma melhor aderência dos dados a equação. (17) (17.1) 26,28 ± 7,56 (17.2) 4,26 ± 1,17 (17.3) [81,46; 98,86] (17.4) [78,45; 101,87] (17.5) t3 = 11,57 (17.6) tc = -1,159 e tt -2,353, Aceito H0. (17.7) ) tc = -2,010 e tt -2,353, Aceito H0. (18) n = 36 (19) tc = 1,35. Este valor não é significativo nem 5% e nem a 1%. (20) ρ2 = 64%, portanto não-explicada será: 1 - ρ2 = 36% (21) (21.1) (21.2) r = 0 (21.3) (21.4) Porque a correlação mostra apenas o relacionamento linear e, neste caso, o relacionamento é do tipo parábola (equação do segundo grau). (22) (22.1) r = 0,8544 (22.2)  Y = -30,4980 + 0,3247X (22.3)  Y = 132 mil (22.4) X  = 122,01 + 2,25.Y y = x2 - 5x-15 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 y = 2 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 S É R I E : E s t a t í s t i c a B á s i c a T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 30 5. REFERÊNCIAS [BUS86] BUSSAB, Wilton O, MORETTIN, Pedro A. Estatística Básica. 3a ed. São Paulo, Atual, 1986. [DOW89] DOWNING, Douglas, CLARK, Jeff. Statistics the Easy Way. Barron’s Educational Series, Inc. New York, 1989. [FON76] FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade, TOLEDO, Geraldo Luciano. Estatística Aplicada. São Paulo: Editora Atlas, 1976. [FON80] FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade. Curso de Estatística. São Paulo: Editora Atlas S. A., 1980. [HOF80] HOFFMAN, Rodolfo. Estatística para Economistas. São Paulo. Livraria Pioneira Editora, 1980. [KLE78] KLEIBAUM, David G., KUPPER, Lawrence L. Applied Regression Analysis and Other Multivariable Methods. North Scituate, Massachusetts: Duxbury Press, 1978. [MAR87] MARKLAND, Robert E., SWEIGART, James R. Quantitative Methods: Applications to Managerial Decision Making. New York: John Wiley & Sons, 1987. 827p. [MAS90] MASON, Robert D., DOUGLAS, Lind A. Statistical Techniques in Business And Economics. IRWIN, Boston, 1990. [MEY78] MEYER, Paul L. Probabilidade: aplicações à Estatística. Tradução do Prof. Ruy C. B. Lourenço Filho. Rio de Janeiro, Livros Técnicos e Científicos Editora S.A., 1978. [MIL90] MILLER, Charles D., HEEREN, Vern E., HORNSBY Jr., E. John. Mathematical Ideas. USA: Harper Collins Publishers, 1990. [REA93] The Statistics Problem Solver. Research and Education Association, Piscataway, New Jersey, 1993. [ROT91] ROTHENBERG, Ronald I. Probability and Statistics. Hartcourt Brace Jovanovich, Publishers, Orlando, Florida, 1991. [SAL82] SALVATORE, Dominick. Estatística e Econometria. Tradução Newton Boer, revisão técnica Marco Antônio S. de Vasconcelos. São Paulo: McGraw-Hill do Brasil, 1982.
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved