Bioestatística

Bioestatística

• Aula 2 – Análise Estatística Descritiva

• Medidas de tendência central: Média, moda e mediana

• Dentre as medidas resu mo habitual mente apresentadas na análise estatística descritiva, as medidas do centro de u ma distribuição ou tendência centraldistribuição ou tendência central são muito i mportantes. As mais utilizadas são:

• Média (arit mética): So ma dos valores dividida pelo nú mero de observações.

• A média arit mética é u m conceito facil mente co mpreendido, co mo por exe mplo quando u m grupo de pessoas vai a u m restaurante e a conta é divididaigual mente portodos.

• No entanto, se algu mas pessoas co mera m muito mais que as outras (ou consu mira m ali mentos oumais que as outras (ou consu mira m ali mentos ou bebidas mais caros) serájusto utilizar a média?

• E quando o e mpregador afir ma que o salário médio dos funcionários de u ma categoria e m greve é alto, essa medida não pode estar sendo distorcida pelos salários extre ma mente elevados de u ma pequena porcentage m de e mpregados?

• Co mo pode-s e perceber, a média é afetada por valores extre mos (o utliers), só devendo ser utilizada se a distribuiçãofor si métrica.

• É i mpossível calcular a média de variáveis categóricas ( mes mo que elas

• É i mpossível calcular a média de variáveis categóricas ( mes mo que elas seja m representadas por nú meros, co mo no caso de algu mas variáveis categóricas ordinais, co mo o estadia mento clínico do câncer de ma ma, que varia de 1 a 4), pois o resultado nãoteria nenhu m significado.

• Pode-s e, no entanto, calcular a média de variáveis nu méricas discretas, inclusive co m deci mal (o conceito de que não se poderia calcular média para variáveis discretas foi muito difundido no passado, mas hoje é consideradopassado, mas hoje é considerado ultrapassado).

• Assi m, pode-s e dizer que a média de filhos por mulher no Estado de São

Paulo e m 1999 era 2,38 (e mbora nenhu ma mulhertenha 0,38filho).

• Qual a vantage m de descrever a média de variáveis nu méricas discretas co m deci mais? Por exe mplo, u m de mógrafo pode constatar que a média defilhos das fa mílias brasileiras caiu de 2,6 para 2,1.fa mílias brasileiras caiu de 2,6 para 2,1.

• Se não fosse m utilizadas as casas deci mais, poder-s e-i a concluir que o nú mero médio de filhos da fa mília brasileira manteve-s e estável e m 2!

• Moda: Valor mais freqüente mente observado.

• Quando algué m pergunta: Qual a cor da moda neste verão? A resposta pode ser obtida observando-se qual a cor dasobtida observando-se qual a cor das roupas da maioria das pessoas. U ma distribuição pode apresentar mais de u ma moda, quando existe m, por exe mplo, duas categorias ou valores igual mente maisfreqüentes (distribuição bi modal).

• Mediana: Valor que divide as observações, ordenadas de for ma crescente, e m igual nú mero aci ma e abaixo.

• Quando o nú mero de observações for par, calcula-s e a média dos dois valores centrais. E mbora seja u m conceito mais difícil de ser assi milado, é funda mental para identificar o centro de u ma distribuição assi métrica, pois é pouco afetada por valores muito discrepantes.

• Exe mplo: na seqüência de 9 medidas de u ma variável nu mérica (idade), dispostas e m orde m crescente:

• Média:• Média:

• Mediana: 28 anos

• Média e mediana são parâ metros aplicáveis apenas para variáveis

• nu méricas (tanto discretas• nu méricas (tanto discretas co mo contínuas). A moda pode ser identificada tanto para variáveis nu méricas quanto para categóricas.

• A média não é u ma medida resistente do centro da distribuição, sendo muito afetada por valores discrepantes

(o utliers). A mediana é mais(o utliers). A mediana é mais resistente.

• Quando a distribuição é si métrica, média, moda e mediana são equivalentes.

• Quando existe assi metria, no entanto, média e mediana desvia m-se na direção dos valores extre mos.

• A seguir, pode mos observar histogra mas de u ma distribuição si métrica e outra desviada para a direita.

• Quartis e percentis

Quartis são valores que divide m a a mostra e m quatro partes:

- Pri meiro quartil: valor abaixo do qual encontra m-se 25 % das observações.encontra m-se 25 % das observações.

- Segundo quartil ( mediana): valor abaixo do qual encontra m-se 50 % das observações.

- Terceiro quartil: valor abaixo do qual encontra m-s e 75 % das observações.

• Os percentis divide m a a mostra e m 100 partes.

• O percentil 95, por exe mplo, é o valor abaixo do qual encontra m-se 95 % dasabaixo do qual encontra m-se 95 % das observações.

• Medidas de variabilidade: a mplitude, variância, desvio padrão e coeficiente de variação.

• Pode mos ter duas a mostras co m distribuição si métrica, médias iguais poré m variabilidade diferente.

• Por exe mplo, ao se afir mar que a• Por exe mplo, ao se afir mar que a idade média é 40 anos, pode mos ter u ma a mostra contendo indivíduos co midades de 35 a 45 anos e outra co m pessoas de 10 a 70 anos.

• A mplitude: É a medida de variabilidade mais si mples, descrevendo a diferença entre o menor e o maior valor.

• Na pri meira a mostra do exe mplo• Na pri meira a mostra do exe mplo anterior, a a mplitude é de 10 anos, e na segunda de 60 anos.

• Co mo pode-se perceber, é u ma medida pouco resistente, pois baseia-se apenas nos valores de duas observações.

BI OEST ATÍSTI C A • Variância e Desvio Padrão:

São medidas de variabilidade individual, ou seja, indica mindividual, ou seja, indica m co mo os valores varia m de u m indivíduo para outro, através do afasta mento dos valores e mrelação à média.

• A seguir te mos as fór mulas da variância e do desvio padrão:

• Va mos agora procurar entender estas fór mulas, que pode m parecer assustadoras a princípio. Pri meiro va mosidentificar cada u m dos sí mbolos:

• Σ ΣΣ Σ: somatória

•X: o valor de cada uma das observações _ •X : a média da amostra

•n: o número de observações (tamanho da amostra)

• Para o cálculo do desvio padrão, inicial mente te mos que calcular as diferenças entre cada u m dos valores e a média.

• Se si mples mente so másse mos todas as diferenças, o total seria zero, pois alguns valores são maiores do que a média (diferençavalores são maiores do que a média (diferença positiva) e outros menores (diferença negativa).

• Utiliza-se então u m artifício co mu m e m estatística, que consiste e m elevar os valores ao quadrado,tornando-os assi mtodos positivos (-2 ao quadrado é quatro, assi m co mo 2 ao quadrado).

• O passo seguinte é calcular o valor médio, dividindo pelo nú mero de observações; no entanto, aoinvés de se utilizar n (ta manho da a mostra) utiliza-se n-1 devido aoa mostra) utiliza-se n-1 devido ao conceito de graus deliberdade (se souber mos a média e todos os valores menos u m, pode mos calcular o últi mo valor).

• A medida obtida é deno minada variância.

• Final mente, extraí mos a raiz quadrada para voltar à escala original (pois havía mos elevado as diferenças aoelevado as diferenças ao quadrado).

• Coeficiente de Variação: Medida de variabilidade dos valores individuais e m torno da média a mostral, calculada dividindo-se o desvio padrão pela média.

BI OEST ATÍSTI C A • Erro padrão e erro a mostral.

• Erro Padrão: Medida de variabilidade da média a mostral (co mo a média varia de u ma a mostra para outra).

• Co mo já foi citado anterior mente, a média da população esti mada através de u ma a mostra apresenta se mpre u ma média da população esti mada através de u ma a mostra apresenta se mpre u ma marge m de erro, que é esti mada pelo erro padrão.

• Não se trata de u ma medida de variabilidade individual (co mo o desvio padrão), mas si m de u ma esti mativa da variabilidade da média obtida, e m função dota manho da a mostra.

• Pode-se perceber que quanto maior a a mostra, menor o erro padrão.

• Erro A mostral: Medida de afasta mento da média a mostralafasta mento da média a mostral e m relação à média real da população, associada se mpre a u ma confiança ( O conceito de confiança será discutido mais adiante).

• Va mos ver u m exe mplo: Fora m medidos os pesos de 1200 recé mnascidos e m u ma maternidade.

• Os dados fora m analisados e m u m• Os dados fora m analisados e m u m progra ma de co mputador (vide a seguir representação i mpressa), que apresentou os seguintes resultados:

• Foi referido o intervalo de confiança de 95 % para a média, que é calculado a partir do erro a mostral, representando ta mbé m u ma medida de afasta mento da média a mostral e m relação à média real da população, associada se mpre a u ma confiança.

• A interpretação é que te mos confiança de 95 %• A interpretação é que te mos confiança de 95 % de que a média real da população encontra-se dentro dos li mites do intervalo, ou seja, a probabilidade da média real ser menor que 3276,0 gra mas ou maior que 3342,6 gra mas é de apenas 5 %.

• Oli miteinferior dointervalo de confiança para a média é calculado através da média menos o erro a mostral e o li mite superior pela média so mada ao erro a mostral.

• Intervalo de confiança de 95 % para a média = média ± erro a mostral

• Pode mos concluir a partir destas medidasresu mo que:

• - a distribuição é si métrica (pois a média e a mediana são pratica menteiguais);

• - a variabilidade é pequena (pois o desvio padrão é 18 % do valor da média);padrão é 18 % do valor da média);

• - 75 % dos bebês pesa m mais de 2.908,0 g (pri meiro quartil).

• - 75 % dos bebês pesa m menos de 3.704,5 g (terceiro quartil).

• - a marge m de erro da média calculada é pequena (pois a a mostra é grande);

• - ointervalo de confiança de 95 % para a média é pequeno (pois a a mostra é grande).

BI OEST ATÍSTI C A • Ta belas

• Os resultados deve m ser apresentados sob a for ma de tabelas e gráficos, que resu me m os dados obtidos, devendo ser auto-explicativos, ou seja, deveauto-explicativos, ou seja, deve ser possível entender o gráfico ou a tabela se m ler o restante do texto.

• Todos os itens deve m constar na mes ma página.

- As tabelas são co mpostas delinha e colunas, incluindo se mpre u ma barra de título e a descrição dos resultados.

- Ao final, pode m conter u ma barra- Ao final, pode m conter u ma barra co m ototal ou a média.

- As bordas das tabelas deve m conter apenas traços horizontais aci ma e abaixo da pri meiralinha e da últi ma, quando esta contiver total ou média.

- Quando a últi ma linha não contiver total ou média, deverá ter apenas u ma linha horizontal aofinal.horizontal aofinal.

- Nuncaincluirtraços verticais.

BI OEST ATÍSTI C A • Exe mplos de Ta belas:

• Tabelas de contingência são ta mbé m co mpostas de linhas e colunas, e apresenta m os dados de u ma associação que se deseje pesquisar, confrontando ospesquisar, confrontando os resultados.

• Considera m-se o nú mero delinhas e colunas que conté m resultados, não co mputando as linhas e colunas co m otítulo e ostotais.

BI OEST ATÍSTI C A • Gráficos

• Os gráficos facilita m muito a co mpreensão dosresultados.

• Os principais gráficos utilizados para variáveisutilizados para variáveis nu méricas são os histogra mas e gráficos do tipo boxplot

(ta mbé m cha mados de boxa n d- w hisker pl ots).

• Para variáveis categóricas pode mos construir gráficos do tipo pizza, indicando a participação porcentual de cada categoria.

• Os gráficos de barras pode m ser• Os gráficos de barras pode m ser utilizados tanto para representar variáveis categóricas (indicando a contage m ou porcentual de cada categoria) co mo para co mparar médias de grupos (ou te mpos diferentes para o mes mo grupo).

• Veja mos u m histogra ma ou gráfico de freqüência. No eixo x consta o peso e m gra mas e no eixo y o nú mero de bebês para cadafaixa de peso.

• Analisando o histogra ma, pode mos confir mar que a distribuição é si métrica (a maioria dos valoresmaioria dos valores encontra m-se no centro).

Comentários