Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Introdução à análise exploratória de dados multivariados, Manuais, Projetos, Pesquisas de Economia

livro em pdf da SBM/IMPA.

Tipologia: Manuais, Projetos, Pesquisas

2017

Compartilhado em 18/06/2017

carlos-cesar-sousa-2
carlos-cesar-sousa-2 🇧🇷

2 documentos

1 / 144

Documentos relacionados


Pré-visualização parcial do texto

Baixe Introdução à análise exploratória de dados multivariados e outras Manuais, Projetos, Pesquisas em PDF para Economia, somente na Docsity! Introdução à Análise Exploratória de Dados Multivariados “RAIZ” 2014/10/28 page 1 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ ÍNDICE Caṕıtulo 1 – Revisão de Álgebra Linear . . . . . . . . . . . . . . . 5 Caṕıtulo 2 – Análise de Componentes Principais . . . . . . . . . . 24 Caṕıtulo 3 – Análise de Correspondência . . . . . . . . . . . . . . 60 Caṕıtulo 4 – Escalonamento Multivariado . . . . . . . . . . . . . 109 Referências – . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 “RAIZ” 2014/10/28 page 3 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ INTRODUÇÃO (1980) Nesta monografia estão inclúıdas algumas técnicas de Análise de Dados especialmente úteis para a análise de grandes conjuntos de dados. Estas técnicas são de natureza exploratória e não confirmatória. Todas elas são basicamente técnicas dependentes de um uso adequado de resultados de Álgebra Linear. No Caṕıtulo 1 apresentamos um resumo dos principais resultados de Álgebra Linear que utilizaremos. O Caṕıtulo 2 trata de componentes principais. A versão que apresentamos é especialmente adequada para ser aplicada posteriormente nos Caṕıtulos 3 e 4 nos quais as técnicas de Análise de Correspondências e Escalamento Multivariado são apresentadas. Exemplos de aplicação são inclúıdos em todos os caṕıtulos. Rio de Janeiro, junho/1980 “RAIZ” 2014/10/28 page 4 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Introdução a Edição Digital Esta versão tem como objetivo fazer dispońıvel a versão original da Monografia sobre algumas Técnicas de Análise de Dados cuja edição original, publicada em 1980 por ocasião do Colóquio de Matemática, está esgotada . As partes puramente matemáticas e estat́ısticas foram preservadas de forma idêntica a versão original. Naturalmente com o passar dos anos o software disponivel para analizar os dados tem tido um desenvolvimento surprendente. Para todos os exemplos temos usado R Statistical Software.R é simulta- neamente uma linguagem de programação e um poderoso e importante conjunto de software “open source”. R pode ser baixado e instalado visitando o site http://www.r-project.org Temos trocado os exemplos originais por outros mais relevantes aos pro- blemas atuais e analisados eles usando diferentes pacotes dispońıveis em R. Os dados fazem parte das bases de dados de diferentes pacotes. Isto faci- lita a eventual reprodução dos resultados e evita o uso de bases de dados que não podem ser disponibilizadas devido a sua confidencialidade. Rio de Janeiro, Janeiro 2014 “RAIZ” 2014/10/28 page 6 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 6 Revisão de Álgebra Linear Cap.1 Sejam A e B matrizes particionadas em blocos A =   A11 ∣∣∣∣ A12 . . . . . . . . . . . . A21 ∣∣∣∣ A22   B =   B11 ∣∣∣∣ B12 . . . . . . . . . . . . B21 ∣∣∣∣ B22   onde Aij e Bij representam matrizes para todo i e j. As afirmações (ii) e (iii) da Proposição 1 abaixo são válidas sempre que as operações indicadas sejam compat́ıveis com as dimensões das matrizes. Proposição 1. (i) A′ =   A11 ∣∣∣∣ A12 . . . . . . . . . . . . A21 ∣∣∣∣ A22   ′ =   A′11 ∣∣∣∣ A′21 . . . . . . . . . . . . A′12 ∣∣∣∣ A′22   (ii) AB =   A11 ∣∣∣∣ A12 . . . . . . . . . . . . A21 ∣∣∣∣ A22     B11 ∣∣∣∣ B12 . . . . . . . . . . . . B21 ∣∣∣∣ B22   = =   A11B11 +A12B21 ∣∣∣∣ A11B12 +A12B22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A21B11 +A22B21 ∣∣∣∣ A21B12 +A22B22   “RAIZ” 2014/10/28 page 7 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.1 - Revisão de Álgebra Linear 7 (iii) A+B =   A11 ∣∣∣∣ A12 . . . . . . . . . . . . A21 ∣∣∣∣ A22   +   B11 ∣∣∣∣ B12 . . . . . . . . . . . . B21 ∣∣∣∣ B22   =   A11 +B11 ∣∣∣∣ A12 +B12 . . . . . . . . . . . . . . . . . . . . . . . . A21 +B21 ∣∣∣∣ A22 +B22   Seja A uma matriz quadrada tal que A =   A11 ∣∣∣∣ A12 . . . . . . . . . . . . A21 ∣∣∣∣ A22   com A11 e A22 matrizes quadradas. Proposição 2. (i) Se A =   A11 ∣∣∣∣ 0 . . . . . . . . . . . . A21 ∣∣∣∣ A22   então A = |A11| |A22| (ii) Se |A22| 6= 0, então |A| = |A22| |A11 −A12A−122 A21| (iii) Se |A11| 6= 0, então |A| = |A11| |A22 −A21A−111 A12| Demonstração: (i) Procedemos por indução na ordem de A. Se A é 2 × 2, A =( a11 0 a21 a22 ) , temos que |A| = a11 a22 , que é o resultado procurado para ordem 2. “RAIZ” 2014/10/28 page 8 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 8 Revisão de Álgebra Linear Cap.1 Suponhamos que o resultado é válido para matrizes de ordem menor ou igual a n− 1. Seja A n×n. Temos pelo desenvolvimento de Laplace pela primeira linha que |A| = n∑ j=1 a1j(−1)1+j Ã1j = p∑ j=1 a1j(−1)1+j Ã1j onde p é a ordem de A11 e Ã1j é o menor de A correspondente ao elemento a1j . Agora Ã1j é um determinante (n − 1) × (n − 1). Por indução temos Ã1j = (menor de a1j em A11) · |A22|. Portanto |A| = |A22| p∑ j=1 a1j(−1)1+j (menor de a1j em A11) = = |A22| |A11|. A soma entre parênteses é igual a |A11| pelo desenvolvimento de Laplace. ∣∣∣∣∣∣ A11 A12 A21 A22 ∣∣∣∣∣∣ = ∣∣∣∣∣∣ A11 A12 A21 A22 ∣∣∣∣∣∣ ∣∣∣∣∣∣ I 0 −A−122 A21 I ∣∣∣∣∣∣ =(ii) = ∣∣∣∣∣∣   A11 A12 A21 A22     I 0 −A−122 A21 I   ∣∣∣∣∣∣ = = |A22| |A11 −A−122 A−122 A21|. A primeira e quarta igualdades utilizam a parte (i) da Proposição 2. (iii) O Argumento é igual ao desenvolvido para a parte (ii). Lembremos que o traço de uma matriz quadrada A = (aij) é definido como a soma dos elementos contidos na diagonal de A. Ou seja Tr(A) = n∑ i=1 aii . “RAIZ” 2014/10/28 page 11 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.1 - Revisão de Álgebra Linear 11 Como λi = U ′ iAUi , se A fosse definida não negativa (resp. definida positiva) teŕıamos λi ≥ 0 (resp. λi > 0). Como o posto de uma matriz (máximo número de linhas ou co- lunas linearmente independentes) permanece inalterado com produtos com matrizes não singulares temos que o posto de A é igual ao posto de Λ que por sua vez é igual ao número de autovalores diferentes de 0. A seguinte proposição é uma consequência útil do Teorema Espectral. Proposição 4. Seja A simétrica definida não negativa. Então (i) Existe B tal que A = B′B. (ii) Existe C tal que A = C2. Se A é definida positiva, então C é não singular. C é chamada raiz quadrade de A e é denotada por A1/2. Demonstração. (i) Seja A = UΛU ′. Indicaremos com Λ1/2 a ma- triz diag ( λ 1/2 1 , . . . , λ 1/2 m ) ou seja a matriz diagonal cujos elementos di- agonais são as ráızes quadradas dos elementos de Λ. Temos então A = UΛ1/2 Λ1/2 U ′. Seja B = Λ1/2 U ′. Então A = B′B. Se A é de- finida positiva todos os λi são positivos e portanto Λ é não singular o que implica B não singular. (ii) Temos que A = UΛ1/2 Λ1/2U ′ = UΛ1/2 U ′U Λ1/2U ′. Chamando C = UΛ1/2U ′ temos A = C2. Como na parte (i), se A é definida positiva Λ e portanto Λ1/2 são não singulares, o que implica que C é também não singular. Teorema 2 (Teorema Espectral Generalizado). Sejam A e B duas matrizes simétricas m×m com B definida positiva. Existe uma matriz U tal que U ′AU = Λ =   λ1 0 . . . 0 λm   U ′BU = I Os valores λ1, . . . , λm são ráızes da equação |A− λB| = 0. Se Ui indica a coluna i de U , Ui é autovetor de B −1A correspondente ao autovalor “RAIZ” 2014/10/28 page 12 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 12 Revisão de Álgebra Linear Cap.1 λi ou seja (B −1A)U = UΛ. Também os λi , 1 ≤ i ≤ m são autovalores da matriz AB−1 correspondentes aos autovetores Vi = AUi . Demonstração. Como B é definida positiva existe uma matriz não singular T tal que B = T ′T . Temos que |A− λB| = |A− λT ′T | = |T ′| |T ′−1AT−1 − λI| |T | = |T ′| |C − λI| |T | onde C = T ′−1AT−1. Portanto a equação |A − λB| = 0 é equivalente a |C − λI| = 0. Como C é uma matriz simétrica existe pelo Teorema Espectral uma matriz ortogonal P tal que P ′CP = Λ =   λ1 0 . . . 0 λm   P ′P = I Os valores λ são as ráızes da equação |C = λI| = 0 ou equivalentemente |A− λB| = 0. Substituindo-se C por T ′−1AT−1 temos P ′T ′−1AT−1 P = Λ P ′P = I Seja U = T−1P . Temos então TU = P e as equações acima transformam- se em U ′AU = Λ U ′T ′TU = U ′BU = I Estas identidades podem ser escritas da forma AU = U ′−1A BU = U ′−1 Portanto AU = BUA e também (multiplicando por B−1) (B−1A)U = UΛ. Se Ui indica a coluna i de U temos que Ui é autovetor de B −1A correspondente ao autovalor λi . Também multiplicando a última ex- pressão por A temos (AB−1)(AU) = (AU)Λ. Portanto AUi é autovetor de AB−1 correspondente ao autovalor λi . “RAIZ” 2014/10/28 page 13 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.1 - Revisão de Álgebra Linear 13 Note-se que também podemos escrever A = U ′−1 ΛU−1 = (U−1)′ ΛU−1 B = U ′−1 U−1 = (U−1)′ U−1 Portanto se Si indica a coluna i de (U −1)′ temos da mesma forma que para o Teorema Espectral A = m∑ i=1 λiSiS ′ i B = m∑ i=1 SiS ′ i Se V é um espaço vetorial (todos os espaços vetoriais que utilizaremos serão reais) indicaremos com 〈·, ·〉 um produto interno ou seja uma forma bilinear, simétrica e positiva. Todo produto interno pode ser represen- tado através de uma matriz simétrica e definida positiva. Ou seja existe uma matriz Σ simétrica e definida positiva tal que 〈x, y〉 = x′Σy. Usaremos as vezes a notação 〈·, ·〉Σ para indicar que o produto interno que estamos considerando está determinado pela matriz Σ. Um produto interno induz uma norma ||x|| = ( x′Σx )1/2 . As vezes usaremos a notação ||x||Σ para enfatizar a dependência sobre Σ. A seguinte desigualdade é bem conhecida. Proposição 5 (Desigualdade de Cauchy-Schwarz). |〈x, y〉| ≤ ||x|| ||y||. Com igualdade se e somente se x e y são proporcionais. Seja E ⊆ V um subespaço vetorial do espaço vetorial V . Seja Σ uma matriz simétrica definida positiva e a ∈ V . Então existe a∗ ∈ E único tal que realiza o min b∈E ||a− b||Σ = ||a∗ − b||Σ “RAIZ” 2014/10/28 page 16 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 16 Revisão de Álgebra Linear Cap.1 Temos também V ′i ,Σ2 Vj = U ′i Y Σ −1 2 θi Σ2 Σ−12 Y ′ Uj θj = U ′i Y Σ −1 2 Y ′ Uj θiθj = = δij θ 2 i θiθj = δij Ou seja V1, . . . , Vr são Σ2-ortonormais. Para escolher os restantes Vj procedemos da seguinte forma. A matriz Σ−12 Y ′Σ−11 Y é uma matriz m × m de posto r. Portanto como trans- formação de Rm em Rm temos que dimensão ( Núcleo ( Σ−12 Y ′ Σ−11 Y )) = m − r. Seja Vr+1, . . . , Vm uma base Σ2-ortonormal desse núcleo. Vamos verificar primeiro que Y Vj = 0 para j ≥ r + 1. Temos( Σ−12 Y ′Σ−11 Y ) Vj = 0 e portanto como Σ2 é não singular ( Y ′Σ−11 Y ) Vj = 0. Como Σ−11 é simétrica e definida positiva existe uma matriz P não singular tal que Σ−11 = P ′P . Temos então (Y ′ P ′ P Y )Vj = 0. Multiplicando a esquerda por V ′j 0 = V ′j Y ′ P ′ P Y Vj = ||P Y Pj ||2I . Portanto P Y Vj = 0 e como P é não singular Y Vj = 0 como queŕıamos provar. Vamos verificar agora que o conjunto {V1, . . . , Vm} é Σ2-ortonormal. Pelo visto até agora é suficiente verificar que se i ≤ r e j > r V ′i Σ2 Vj = 0. Mas V ′i Σ2 Vj = U ′i Y Σ −1 2 θi Σ2 Vj = U ′i Y Vj θi = 0 porque Y Vj = 0. Finalmente vamos verificar que os vetores Ui e Vj satisfazem a identidade da parte c). Ou seja vamos verificar que U ′i Y Vj = { δij θi i ≤ r, j ≤ r 0 i > r ou j > r “RAIZ” 2014/10/28 page 17 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.1 - Revisão de Álgebra Linear 17 Se j ≤ r U ′i Y Vj = U ′ i Y Σ−12 Y ′ Uj θj = δij θ 2 i θj = δij θi . Se j > r como Y Vj = 0 temos U ′i Y Vj = 0. Portanto se V é a matriz que tem como colunas os Vj temos U ′ Y V =   θ1 0 ∣∣∣∣∣ 0 . . . ∣∣∣∣∣ 0 θr ∣∣∣∣∣ . . . . . . . . . . . . . 0 0   como queŕıamos demonstrar. Corolário 1. Definindo θi = 0 para todo i > r temos (i) θi Vi = Σ −1 2 Y ′ Ui (ii) θi Ui = Σ −1 1 Y Vi Demonstração. (i) é válida para i ≤ r por definição. Para i > r θi = 0 ou seja o membro esquerdo é 0. Temos que verificar que o membro direito também é nulo. Σ−12 é uma matriz simétrica definida positiva e sabemos que U ′ Y Σ−12 Y ′ U =   θ21 0 ∣∣∣∣∣ 0 . . . ∣∣∣∣∣ 0 θ2r ∣∣∣∣∣ . . . . . . . . . . . . . 0 0   “RAIZ” 2014/10/28 page 18 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 18 Revisão de Álgebra Linear Cap.1 Portanto para i > r 0 = U ′i Y Σ −1 2 Y ′ Ui = ∥∥Y ′ Ui ∥∥2 Σ−12 o que implica que Y ′ Ui = 0 e que o membro direito de (i) é nulo. Vamos verificar agora (ii). Se i ≤ r temos Σ−11 Y Vi = Σ −1 1 Y Σ−12 Y ′ Ui θi = θ2i Ui θi = θi Ui . Se i > r vimos na demonstração do Teorema da Decomposição em Va- lores Singulares que Y Vi = 0. Ou seja o membro direito de (ii) é 0 para i > r que é o valor do membro esquerdo. Corolário 2. Nas condições do Teorema da D.V.S. max X∈Rn,||X||Σ1=1 X ′ Y Z = θ1 Z ∈ Rm, ||Z||Σ2 = 1 O máximo é atingido se X = U1 e Z = V1 . Demonstração. Sejam U e V tais que U ′ Y V =   θ1 0 ∣∣∣∣∣ 0 . . . ∣∣∣∣∣ 0 θr ∣∣∣∣∣ . . . . . . . . . . . . . 0 0   X = n∑ i=1 ci Ui e Z = m∑ j=1 dj Vj com n∑ i=1 c2i = m∑ j=1 d2j = 1. Então X ′ Y Z = ( n∑ i=1 ci U ′ i ) Y   m∑ j=1 dj Vj   = r∑ i=1 θi ci di . “RAIZ” 2014/10/28 page 21 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.1 - Revisão de Álgebra Linear 21 Tomando C = (I ... 0) atingimos o máximo p∑ i=1 λi . Esta escolha de C equivale a tomar Xi = Ui para i = 1, . . . , p. A Proposição 8 generaliza o Corolário 2. Proposição 8. Seja Y n×m de posto r. Sejam U e V as matrizes que aparecem na decomposição de Y em valores singulares U ′ Y V =   θ1 0 ∣∣∣∣∣ 0 . . . ∣∣∣∣∣ 0 θr ∣∣∣∣∣ . . . . . . . . . . . . . 0 0   θ1 ≥ θ2 ≥ · · · ≥ θr > 0 Então se p ≤ min(m.n) min Xi Σ1−ortonormais Zi Σ2−ortonormais p∑ i=1 X ′i Y Zi = p∑ i=1 θi. O máximo é atingido tomando Xi = Ui , i = 1, . . . , p e Zi = Vi , i = 1, . . . , p onde Ui e Vi são as colunas de U e V respectivamente. Demonstração. Sejam U (n × n) e V (m × m) as matrizes que aparecem na decomposição em valores singulares de Y : U ′ Y V =   θ1 0 ∣∣∣∣∣ 0 . . . ∣∣∣∣∣ 0 θr ∣∣∣∣∣ . . . . . . . . . . . . . 0 0   com θ1 ≥ θ2 ≥ · · · ≥ θr > 0 e r = posto(Y ). “RAIZ” 2014/10/28 page 22 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 22 Revisão de Álgebra Linear Cap.1 Seja Xi = n∑ ℓ=1 ciℓUℓ e Zi = m∑ h=1 dihVh . Temos X ′i Y Zi = ( n∑ ℓ=1 ciℓUℓ )′ Y ( m∑ h=1 dihVh ) = r∑ ℓ=1 ciℓdiℓθℓ . Portanto p∑ i=1 X ′i Y Zi = r∑ ℓ=1 ( p∑ i=1 ciℓdiℓ ) θℓ . Seja γℓ = p∑ i=1 ciℓdiℓ . Como os Xi (resp. Zi) são Σ1-ortonormais (resp. Σ2-ortornormais) podemos sempre supor que são parte de uma base Σ1-ortonormal (resp. Σ2-ortonormal) de R n (resp. de Rm). Ou seja podemos supor que a matriz dos ciℓ (resp. diℓ) é uma matriz ortogonal n× n (resp. m×m). Temos agora |γℓ| = ∣∣∣∣∣ p∑ i=1 ciℓdiℓ ∣∣∣∣∣ ≤ ( p∑ i=1 c2iℓ )1/2( p∑ i=1 d2iℓ )1/2 ≤ ≤ ( n∑ i=1 c2iℓ )1/2( m∑ i=1 d2iℓ )1/2 ≤ 1 ∣∣∣∣∣ r∑ ℓ=1 γℓ ∣∣∣∣∣ = ∣∣∣∣∣ r∑ ℓ=1 p∑ i=1 ciℓdiℓ ∣∣∣∣∣ = ∣∣∣∣∣ p∑ i=1 r∑ ℓ=1 ciℓdiℓ ∣∣∣∣∣ ≤ ≤ p∑ i=1 ∣∣∣∣∣ r∑ ℓ=1 ciℓdiℓ ∣∣∣∣∣ ≤ p∑ i=1 ( r∑ ℓ=1 c2iℓ )1/2( r∑ ℓ=1 diℓ )1/2 ≤ ≤ p∑ i=1 ( n∑ ℓ=1 c2iℓ )1/2( m∑ ℓ=1 d2iℓ )1/2 ≤ p. Estas duas desigualdades implicam que o máximo de r∑ ℓ=1 γℓ θγ é obtido tomando γℓ = 1 para ℓ = 1, . . . , p e γℓ = 0 para ℓ > p. (Note-se que p pode ser maior que r). Ou seja o máximo é igual a p∑ ℓ=1 θℓ . “RAIZ” 2014/10/28 page 23 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.1 - Revisão de Álgebra Linear 23 O máximo é atingido tomando Xi = Ui , i = 1, . . . , p e Zi = Vi , i = 1, . . . , p. “RAIZ” 2014/10/28 page 26 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 26 Análise de Componentes Principais Cap.2 todos o mesmo peso. Introduzimos então números µi i = 1, . . . , I não negativos e tais que I∑ i=1 µi = 1. Nos casos usuais, µi = 1 I , i = 1, . . . , I. O problema de Análise de Componentes Principais pode agora ser colocado da seguinte Fma: Dado p ≤ J , encontrar uma variedade linear de dimensão p tal que I∑ i=1 µi ∥∥xi − x∗i ∥∥2 Σ seja mı́nimo. A condição I∑ i=1 µi = 1 não é utilizada em geral. Em algumas Pro- posições (por exemplo na Proposição 2.2 (vi) mais adiante) só introdu- ziria uma constante no resultado final. 2.2 Redução a subespaços Se V é uma variedade linear em RJ , existe b ∈ RJ tal que V = b + E onde E é um subespaço. O seguinte lema é de fácil demonstração Lema 2.1. Se V = b+ E então PΣ(x, V ) = PΣ(x− b, E) + b; A seguinte proposição vai reduzir o problema de achar a melhor variedade ao de determinar o melhor subespaço. Proposição 2.1. Se I∑ i=1 µi xi = 0 a variedade linear ótima (que é a solução do problema de Componentes Principais) é um subespaço. Demonstração. Queremos provar que I∑ i=1 µi ∥∥PΣ(xi, V )− xi ∥∥2 Σ ≥ I∑ i=1 µi ∥∥PΣ(xi, E)− xi ∥∥2 Σ . “RAIZ” 2014/10/28 page 27 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.2 - Análise de Componentes Principais 27 Ou seja para toda variedade V existe um subespaço E com soma menor e portanto podemos nos retringir a subespaços. Temos que ∥∥PΣ(xi, V )− xi ∥∥2 Σ = ∥∥PΣ(xi − b, E)− xi + b ∥∥2 Σ = = ∥∥(PΣ(xi, E)− xi)− (PΣ(b, E)− b ∥∥2 Σ = = ∥∥PΣ(xi, E)− xi ∥∥2 Σ + ∥∥PΣ(b, E)− b ∥∥2 Σ − − 2 〈 PΣ(xi, E)− xi , PΣ(b, E)− b 〉 . A primeira igualdade é válida pelo Lema anteriior. Multiplicando por µi e somando temos I∑ i=1 µi ∥∥PΣ(xi, V )− xi ∥∥2 Σ = I∑ i=1 µi ∥∥PΣ(xi, E)− xi ∥∥2 Σ + + i∑ i=1 µi ∥∥PΣ(b, E)− b ∥∥2 Σ − 2 I∑ i=1 µi 〈 PΣ(xi, E)− xi, PΣ(b, E)− b 〉 Σ . Para provar a desigualdade basta provar que o último termo do membro direito é 0 porque o seguinte termo é não negativo. Mas o último termo é igual a 2 〈 PΣ ( I∑ i=1 µi xi, E ) − i∑ i=1 µi xi , PΣ(b, E)− b 〉 usando as propriedades de bilinearidade de 〈, 〉 e linearidade de PΣ . Como por hipóteses I∑ i=1 µi xi = 0 o último termo é igual a 0 e a desigual- dade fica provada. A Proposição 2.1 é utilizada da seguinte forma. Para uma matriz X defino x = I∑ i=1 µi xi . Seja yi = xi − x. Esta nova matriz com linhas y′i satisfaz a restrição I∑ i=1 µi yi = 0. Seja E o espaço vetorial ótimo para esta nova matriz. Então a variedade linear x+E é a solução do problema de Componentes Principais original. De agora em diante vamos supor que I∑ i=1 µi xi = 0 e portanto limitar a procura da solução ótima a subespaços. “RAIZ” 2014/10/28 page 28 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 28 Análise de Componentes Principais Cap.2 2.3 Solução do problema de Componentes Prin- cipais Em lugar de procurar um subespaço E vamos determinar um conjunto de p vetores, W1, . . . ,Wp , Σ-ortonormais, que sejam uma base para E, ou seja E = [W1, . . . ,Wp] onde [ ] indica o subespaço gerado pelos vetores W1, . . . ,Wp . Teorema 2.1. (i) Seja C = I∑ i=1 µi xi x ′ i . Então C é simétrica e definida não negativa. (ii) Seja U J × J tal que U ′C U =   λ1 0 . . . 0 λJ   λ1 ≥ λ2 ≥ · · · ≥ λJ U ′Σ−1 U = I (Note que como C é definida não negativa os λ’s são não negativos). Seja Uα a coluna α de U e Wα = Σ −1 Uα . Então o conjunto {W1, . . . ,Wp} é Σ-ortonormal e o subespaço E = [W1, . . . ,Wp] é ótimo, no sentido que I∑ i=1 µi ∥∥xi − x∗i ∥∥2 Σ é mı́nimo onde x∗i = PΣ(xi, E). Demonstração. (i) A verificação é imediata. (ii) Como ∥∥xi − x∗i ∥∥2 Σ = ∥∥xi ∥∥2 Σ − ∥∥x∗i ∥∥2 Σ , mimizar I∑ i=1 µi ∥∥xi − x∗i ∥∥2 Σ é equivalente a maximizar I∑ i=1 µi ∥∥x∗i ∥∥2 Σ . Seja W1, . . . ,Wp uma base Σ-ortonormal do subespaço E (desconhe- cido). Temos ∥∥x∗i ∥∥2 Σ = p∑ α=1 (〈 xi,Wα 〉 Σ )2 = p∑ α=1 (W ′αΣxi)(x ′ iΣWα). “RAIZ” 2014/10/28 page 31 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.2 - Análise de Componentes Principais 31 I∑ i=1 µi ∥∥xi − x∗i ∥∥2 Σ = J∑ j=p+1 λj (v) ∥∥x∗i − x∗i′ ∥∥2 Σ = ∥∥F (p)i − F (p) i′ ∥∥2 i Ou seja a distância Σ entre x∗i e x ∗ i′ é igual a distância euclidiana entre os vetores F (p) i e F (p) i′ . (vi) ∑ i ∑ i′ µi µ ′ i ∣∣∣ ∥∥x∗i − x∗i′ ∥∥2 Σ − ∥∥xi − xi′ ∥∥2 Σ ∣∣∣ = 2 J∑ α=p+1 λα (vii) O subespaço gerado por W1, . . . ,Wp minimiza a expressão ∑ i ∑ i′ µi µi′ ∣∣∣ ∥∥x∗i − x∗i′ ∥∥2 Σ − ∥∥xi − xi′ ∥∥2 Σ ∣∣∣ Demonstração. (i) Fα(i) = 〈Wα, xi〉Σ = W ′αΣxi = U ′α xi (ii) Temos xi = J∑ α=1 Fα(i)Wα e x∗i = p∑ α=1 Fα(i)Wα Portanto ∥∥xi − x∗i ∥∥2 Σ = ∥∥∥ J∑ α=p+1 Fα(i)Wα ∥∥∥ 2 Σ = J∑ α=p+1 F 2α(i) porque os Wα são Σ-ortonormais. (iii) I∑ i=1 µi Fα(i) = I∑ j=1 µi U ′ α xi = U ′ α ( I∑ i=1 µi xi ) = 0 porque I∑ i=1 µi xi = 0. I∑ i=1 µi Fα(i)Fα′(i) = I∑ i=1 µi U ′ α xi x ′ i Uα′ = = U ′α ( I∑ i=1 µi xi x ′ i ) Uα′ = U ′ αC Uα′ = λα δαα′ “RAIZ” 2014/10/28 page 32 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 32 Análise de Componentes Principais Cap.2 (iv) Sabemos que I∑ i=1 µi ∥∥x∗i ∥∥2 Σ = p∑ j=1 λj . Se p = J , x∗i = xi , o que prova a primeira igualdade. Temos também que I∑ i=1 µi ∥∥xi − x∗i ∥∥2 Σ = I∑ i=1 µi ∥∥xi ∥∥2 Σ − I∑ i=1 µi ∥∥x∗i ∥∥2 Σ = = J∑ j=1 λj − p∑ j=1 λj = J∑ j=p+1 λj . (v) ∥∥x∗i − x∗i′ ∥∥2 Σ = ∥∥∥ p∑ α=1 Fα(i)Wα − p∑ α=1 Fα(i ′)Wα ∥∥∥ 2 Σ = = ∥∥∥ p∑ α=1 (Fα(i)− Fα(i′))Wα ∥∥∥ 2 Σ = p∑ α=1 (Fα(i)− Fα(i′))2 = = ∥∥F (p)i − F (p) i′ ∥∥2 I . (vi) ∑ i ∑ i′ µi µi′ ∣∣∣ ∥∥x∗i − x∗i′ ∥∥2 Σ − ∥∥xi − xi′ ∥∥2 Σ ∣∣∣ = ∑ i ∑ i′ µi µi′ (∥∥xi − xi′ ∥∥2 Σ − ∥∥x∗i − x∗i′ ∥∥2 Σ ) = ∑ i ∑ i′ µi′ ∥∥xi − xi′ ∥∥2 Σ −∑ i ∑ i′ µi µi′ ∥∥x∗i − x∗i′ ∥∥2 Σ Vamos calcular agora o segundo membro desta diferença:∑ i ∑ i′ µi′ ∥∥x∗i − x∗i′ ∥∥2 Σ . Note-se que o primeiro membro é um caso parti- cular, correspondendo ao caso p = J (e portanto x∗i = xi). Temos ∑ i ∑ i′ µi µi′ ∥∥x∗i − x∗i′ ∥∥2 Σ = ∑ i ∑ i′ µi µi′ p∑ α=1 (Fα(i)− Fα(i′))2 = = ∑ i ∑ i′ ∑ α µi µi′ F 2 α(i) + ∑ i ∑ i′ ∑ α µi µi′ F 2 α(i ′) − 2 ∑ i ∑ i′ ∑ α µi µi′ Fα(i)Fα(i ′) = = p∑ α=1 ( I∑ i=1 µi F 2 α(i) ) + p∑ α=1 ( I∑ i′=1 µi′ F 2 α(i ′) ) − 2 p∑ α=1 ( I∑ i=1 µi Fα(i) )( I∑ i′=1 µi′ Fα(i ′) ) = 2 p∑ α=1 λα . “RAIZ” 2014/10/28 page 33 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.2 - Análise de Componentes Principais 33 A primeira igualdade desta cadeia usa a parte (v), e a última igualdade decorre da parte (iii). Temos então que ∑ i ∑ i′ µi µi′ ∣∣∣ ∥∥x∗i − x∗i′ ∥∥2 Σ − ∥∥xi − xi′ ∥∥2 Σ ∣∣∣ = = 2 J∑ α=1 λα − 2 p∑ α=1 λα = 2 J∑ α=p+1 λα como queŕıamos provar. (vii) Temos que ∑ i ∑ i′ µi µi′ ∣∣∣ ∥∥x∗i − x∗i′ ∥∥2 Σ − ∥∥xi − xi′ ∥∥2 Σ ∣∣∣ = ∑ i ∑ i′ µi µi′ ∥∥xi − xi′ ∥∥2 Σ − ∑ i ∑ i′ µi µi′ ∥∥x∗i − x∗i′ ∥∥2 Σ Portanto minimizar o membro esquerdo desta igualdade é equivalente a maximizar ∑ i ∑ i′ µi µi′ ∥∥x∗i − x∗i′ ∥∥2 Σ . Esta expressão é igual a ∑ i ∑ i′ µi µi′ {∥∥x∗i ∥∥2 Σ + ∥∥x∗i′ ∥∥2 Σ − 2〈x∗i , x∗i′〉Σ } = = 2 ∑ i µi ∥∥x∗i ∥∥2 Σ − 2 〈∑ i µi x ∗ i , ∑ i′ µi′ x ∗ i′ 〉 . Agora o último termo desta diferença é igual a zero porque ∑ i µi xi = 0 e ∑ i µi x ∗ i = ∑ i µi PΣ(xi, E) = PΣ (∑ i µi xi, E ) = 0. Portanto a expressão a maximizar é igual a 2 ∑ i µi ∥∥x∗i ∥∥2 Σ o que é equivalente a minimizar I∑ i=1 µi ∥∥xi − x∗i ∥∥2 Σ como vimos na demonstração da parte (ii) do Teorema 2.1. Também vimos nesse teorema que o mı́nimo de I∑ i=1 µi ∥∥xi − x∗i ∥∥2 Σ “RAIZ” 2014/10/28 page 36 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 36 Análise de Componentes Principais Cap.2 os valores de Zii′ ordenados de menor a maior e wh os pesos correspon- dentes. Seja h0 um inteiro tal que h0∑ h=1 wh N∑ h=1 wh ≤ 0, 5 e h0+1∑ h=1 wh N∑ h=1 wh > 0, 5. Então λ20 é qualquer valor tal que gh0 ≤ λ20 ≤ gh0+1 . Se h0∑ h=1 wh N∑ h=1 wh = 0, 5 então λ20 = gh0 . O valor de ERCp será menor ou igual que ERp e λ 2 0 ≥ 1. Esta última desigualdade resulta do fato que ∥∥F (p)i −F (p) i′ ∥∥2 I = ∥∥x∗i−x∗i′ ∥∥ ≤ ∥∥xi−xi′ ∥∥ . (1 ≤ gi ≤ g2 ≤ · · · ≤ gN ). Como antes o valor de p pode ser escolhido de forma tal que ERCp seja menor que uma margem de erro fixado a priori. Proposição 2.3. ρ(Xj , Fα) = √ λαWα(j) Sj onde ρ(Xj , Fα) indica o coe- ficiente de correlação entre a variável j e o eixo α, e Sj = ( I∑ i=1 µi(xij) 2 )1/2 . ρ(Xj , Fα) = cov(Xj , Fα) Sj √ λα = I∑ i=1 xij Fα(i)µi Sj √ λα = = I∑ i=1 µixij ( J∑ j′=1 xij′ Uα(j ′) ) Sj √ λα = J∑ j′=1 ( I∑ i=1 xij′ xij µi ) Uα(j ′) Sj √ λα = = J∑ j′=1 C(j, j′)Uα(j′) Sj √ λα = C Uα(j) Sj √ λα · “RAIZ” 2014/10/28 page 37 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.2 - Análise de Componentes Principais 37 Como C Uα = λαΣ −1 Uα = λαWα temos que o último quociente é igual a Wα(j)λα Sj √ λα = √ λαWα(j) Sj como queŕısmos demonstrar. 2.4 Decomposição em valores singulares da ma- triz X ′. Relação entre as análises em RI e RJ Lembremos que os vetores Uα , essenciais para o cálculo das componentes principais são obtidos das relações U ′C U = Λ =   λ1 0 . . . 0 λJ   U ′Σ−1 U = I onde λ1 ≥ λ2 ≥ · · · ≥ λJ . Temos que C = I∑ i=1 µi xi x ′ i = X ′DX onde D =   µ1 0 . . . 0 µI   ou seja D é a matriz diagonal formada pelo peso dos I indiv́ıduos. Temos então U ′X ′DX U = Λ U ′Σ−1 U = I Estas identidades são as que aparecem na demonstração do Teorema da Decomposição em Valores Singulares tomando Σ1 = Σ −1, Σ2 = D−1 e Y = X ′. “RAIZ” 2014/10/28 page 38 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 38 Análise de Componentes Principais Cap.2 Se V é a matriz I × I constrúıda naquele teorema com colunas D−1- ortonormais, temos U ′X ′ V =   √ λ1 ∣∣∣∣ . . . ∣∣∣∣ 0 √ λJ ∣∣∣∣   e para λα > 0, α = 1, . . . , r = posto (X), Vα = DX Uα√ λα · Como X Uα = Fα temos também Vα(i) = µi Fα(i)√ λα α = 1, . . . , r = posto (X). No caso importante Σ = I e D = I, ou seja o caso de utilizar a distância euclidiana com todos os indiv́ıduos com o mesmo peso, podemos natural- mente pensar nas colunas como indiv́ıduos e nas linhas como variáveis ou observações. As componentes que no caso anterior eram obtidas através de XU , serão agora obtidas de X ′V . Pela Decomposição em Valores Singulares temos X ′V = U ( A1/2 ... 0 ) = (√ λ1 U1, . . . , √ λJ Uj ... 0 ) . Portanto Gα(j) = Uα(j) √ λα . Note-se que ainda no caso I∑ i=1 xi = 0 (variáveis centradas) a análise de componentes principais sobre as colunas deX determinará valores Gα(j) que não satisfarão J∑ j=1 Gα(j) = 0. Os valores Gα(j) são as componentes na base ortonormal do subespaço ótimo e não na melhor variedade linear. No caso Σ = I, D = I e com variáveis centradas e padroniza- das ( S2j = I∑ i=1 (xij) 2 = 1 ) a Proposição 2.3 indica que ρ(Xj , Fα) = √ λα Uα(j) √ I. “RAIZ” 2014/10/28 page 41 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.2 - Análise de Componentes Principais 41 Portanto Tr ( X∗′X∗ ) = p∑ α=1 λα J∑ j=1 ( Uα(j) )2 = p∑ α=1 λα porque ∥∥Uα ∥∥2 I = 1. Da mesma forma podemos obter Tr(X ′X) = J∑ α=1 λα . Portanto a taxa de inércia é igual a p∑ α=1 λα J∑ α=1 λα = 1− J∑ α=p+1 λα J∑ α=1 λα = 1− erro relativo. 2.6 Aproximação de uma matriz de posto r por uma de posto k, k ≤ r. Biplot de matrizes Sejam { µi } i=1....,n e { γj } j=1,...,m números positivos e D1 = diag(µ1, . . . , µn) e D2 = diag(γ1, . . . , γm). Seja Y uma matriz n × m de posto r. Indicaremos com yi o vetor correspondente à linha i de Y . Seja p ≤ m e consideremos o problema de minimizar n∑ i=1 µi ∥∥yi − y∗i ∥∥2 D2 onde os y∗i pertencem a um subespaço de dimensão p. Sabemos que a solução desse problema obtém-se definindo C = n∑ i=1 µi yi y ′ i (C = Y ′D1 Y ) e tomando U tal que U ′C U = U ′ Y ′D1 Y U =   λ1 0 . . . 0 λm   U ′D−12 U = I “RAIZ” 2014/10/28 page 42 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 42 Análise de Componentes Principais Cap.2 Se Wα = D −1 2 Uα , [W1, . . . ,Wp] é o subespaço solução e os y ∗ i são as projeções dos yi sobre este subespaço. As componentes de y ∗ i na base dos {Wα} estão dadas por Fα(i) = y′i Uα . Note-se que as equações acima são as que aparecem na deccomposição em valores singulares de Y ′ se tomarmos em Rm o produto interno determinado por D−12 e em R n o produto interno determinado por D−11 . Mais precisamente U ′ Y ′ V =   √ λ1 ∣∣∣∣ 0 . . . ∣∣∣∣ √ λJ ∣∣∣∣ . . . . . . . . . . . . . 0 0   U ′D−12 U = I V ′D−11 V = I Temos também √ λα Uα = D2 Y ′ Vα√ λα Vα = D1 Y Uα Se yj indica a coluna j de Y e o problema fosse minimizar m∑ j=1 γj ∥∥yj − yj∗ ∥∥ D1 o papel anterior de U seria assumido por V . As componentes de yj∗ seriam Gα(j) = y j′ Vα . Ou de outra forma Gα = Y ′ Vα = √ λαD −1 2 Uα . Proposição 5.1. Seja Y uma matriz n × m de posto r. A matriz Z n×m de posto p ≤ r que minimiza n∑ i=1 m∑ j=1 µi γj ( yij − Zij )2 é dada por Z = p∑ α=1 1√ λα FαG ′ α . “RAIZ” 2014/10/28 page 43 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.2 - Análise de Componentes Principais 43 Demonstração. Seja Zi o vetor correspondente a linha i de Z. Utili- zando a notação anterior temos inf posto (Z)≤p n∑ i=1 m∑ j=1 µi γj ( yij − zij )2 = = inf posto (Z)≤p n∑ i=1 µi ∥∥yi − zi ∥∥2 D2 = = inf subespaços de dimensão≤p n∑ i=1 µi ∥∥yi − y∗i ∥∥2 D2 onde y∗i é a projeção de yi sobre o subespaço. Como aumentando a dimensão do espaço, ∥∥yi − y∗i ∥∥2 D2 diminui, temos que a expressão acima é igual a inf subespaço de dimensão p n∑ i=1 µi ∥∥yi − y∗i ∥∥2 D2 . Temos então um problema de componentes principais. Note-se que neste caso a soma das colunas de Y não é necessariamente igual a zero (ou equivalentemente n∑ i=1 yi não é zero necessariamente). Calcularemos agora Zkj = y ∗ k(j). Sempre utilizando a notação anterior temos y∗k = p∑ α=1 〈 yk,Wα 〉 D2 Wα = p∑ α=1 (y′k D2Wα)Wα = p∑ α=1 (y′k Uα)Wα = = p∑ α=1 (y′k Uα)D −1 2 Uα . Como D−12 Uα = Gα√ λα e y′k Uα = Fα(k) temos que a última expressão é igual a p∑ α=1 Fα(k) Gα√ λα . Portanto Zkj = y ∗ k(j) = p∑ α=1 1√ λα Fα(k)Gα(j) ou seja Z = p∑ α=1 1√ λα FαG ′ α “RAIZ” 2014/10/28 page 46 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 46 Análise de Componentes Principais Cap.2 autovalores obtidos da análise de componentes principais sobre a matriz X. Uma análise sobre a matriz ( X ...X+ ) determinaria coordenadas para os novos indiv́ıduos. Se o peso destes indiv́ıduos é relativamente pequeno as suas coordenadas serão aproximadamente dadas por Fα(i) = J∑ j=1 x+ij Uα(j). Esta aproximação evita naturalmente repetir a análise com toda a ma- triz. Da mesma forma Gα(j) = 1√ λα I∑ i=1 µi Fα(i)x + ij indicará as coordenadas aproximadas das novas variáveis. Os valores exatos seriam os obtidos fazendo a análise sobre a matriz ( X ...X+ ) . Naturalmente os valores x+ij e x + ij utilizados para calcular Fα(i) e Gα(j) deverão ser valores centrados (ou centrados e normalizados) se sobre os valores originais foram executadas estas transformações. 2.7 Exemplos. Os exemplos deste caṕıtulo utilizam a função prcomp() e o pacote Bi- plotGUI do R. O primeiro exemplo utiliza dados públicos dispońıveis (ver Referência no Exemplo 1) . Tem vários pacotes e funções do R que podem ser utilizados. Por exemplo: princomp(), prcomp(), e PCA do pacote FactoMineR. Exemplo 1. Consumo de Proteinas em Europa. Os dados indicam o consumo de 9 proteinas (em % sobre o total de proteina) para cada um de 25 paises Europeus. Os dados podem ser encontrados em Hand e outros. (1994). Os dados são os seguintes: “RAIZ” 2014/10/28 page 47 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.2 - Análise de Componentes Principais 47 C o u n tr y R e d M e a t W h it e M e a t E g g s M il k F is h C e re a ls S ta rc h N u ts F r. V e g A lb a n ia 1 0 ,1 1 ,4 0 ,5 8 ,9 0 ,2 4 2 ,3 0 ,6 5 ,5 1 ,7 A u st ri a 8 ,9 1 4 4 ,3 1 9 ,9 2 ,1 2 8 3 ,6 1 ,3 4 ,3 B e lg iu m 1 3 ,5 9 ,3 4 ,1 1 7 ,5 4 ,5 2 6 ,6 5 ,7 2 ,1 4 B u lg a ri a 7 ,8 6 1 ,6 8 ,3 1 ,2 5 6 ,7 1 ,1 3 ,7 4 ,2 C ze ch o sl o v 9 ,7 1 1 ,4 2 ,8 1 2 ,5 2 3 4 ,3 5 1 ,1 4 D e n m a rk 1 0 ,6 1 0 ,8 3 ,7 2 5 9 ,9 2 1 ,9 4 ,8 0 ,7 2 ,4 E G e rm a n y 8 ,4 1 1 ,6 3 ,7 1 1 ,1 5 ,4 2 4 ,6 6 ,5 0 ,8 3 ,6 F in la n d 9 ,5 4 ,9 2 ,7 3 3 ,7 5 ,8 2 6 ,3 5 ,1 1 1 ,4 F ra n ce 1 8 9 ,9 3 ,3 1 9 ,5 5 ,7 2 8 ,1 4 ,8 2 ,4 6 ,5 G re e ce 1 0 ,2 3 2 ,8 1 7 ,6 5 ,9 4 1 ,7 2 ,2 7 ,8 6 ,5 H u n g a ry 5 ,3 1 2 ,4 2 ,9 9 ,7 0 ,3 4 0 ,1 4 5 ,4 4 ,2 Ir e la n d 1 3 ,9 1 0 4 ,7 2 5 ,8 2 ,2 2 4 6 ,2 1 ,6 2 ,9 It a ly 9 5 ,1 2 ,9 1 3 ,7 3 ,4 3 6 ,8 2 ,1 4 ,3 6 ,7 N e th e rl a n d 9 ,5 1 3 ,6 3 ,6 2 3 ,4 2 ,5 2 2 ,4 4 ,2 1 ,8 3 ,7 N o rw a y 9 ,4 4 ,7 2 ,7 2 3 ,3 9 ,7 2 3 4 ,6 1 ,6 2 ,7 P o la n d 6 ,9 1 0 ,2 2 ,7 1 9 ,3 3 3 6 ,1 5 ,9 2 6 ,6 P o rt u g a l 6 ,2 3 ,7 1 ,1 4 ,9 1 4 ,2 2 7 5 ,9 4 ,7 7 ,9 R o m a n ia 6 ,2 6 ,3 1 ,5 1 1 ,1 1 4 9 ,6 3 ,1 5 ,3 2 ,8 S p a in 7 ,1 3 ,4 3 ,1 8 ,6 7 2 9 ,2 5 ,7 5 ,9 7 ,2 S w e d e n 9 ,9 7 ,8 3 ,5 2 4 ,7 7 ,5 1 9 ,5 3 ,7 1 ,4 2 S w it ze rl a n d 1 3 ,1 1 0 ,1 3 ,1 2 3 ,8 2 ,3 2 5 ,6 2 ,8 2 ,4 4 ,9 U K 1 7 ,4 5 ,7 4 ,7 2 0 ,6 4 ,3 2 4 ,3 4 ,7 3 ,4 3 ,3 U S S R 9 ,3 4 ,6 2 ,1 1 6 ,6 3 4 3 ,6 6 ,4 3 ,4 2 ,9 W G e rm a n y 1 1 ,4 1 2 ,5 4 ,1 1 8 ,8 3 ,4 1 8 ,6 5 ,2 1 ,5 3 ,8 Y u g o sl a v ia 4 ,4 5 1 ,2 9 ,5 0 ,6 5 5 ,9 3 5 ,7 3 ,2 “RAIZ” 2014/10/28 page 48 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 48 Análise de Componentes Principais Cap.2 Em primeiro lugar algumas informações básicas sobre as variáveis. A Figura 2 mostra as médias e variâncias das variáveis. Dada a variação entre estas últimas os dados serão normalizados antes da análise, ou seja usaremos as variáveis padronizadas (média zero e variância 1). Figura 2. Médias e Varianças das variáveis. Variavel Media Variavel Variancia RedMeat 9,828 RedMeat 3,3470783 WhiteMeat 7,896 WhiteMeat 3,6940809 Eggs 2,936 Eggs 1,1176165 Milk 17,112 Milk 7,1054158 Fish 4,284 Fish 3,4025334 Cereals 32,248 Cereals 10,974786 Starch 4,276 Starch 1,6340849 Nuts 3,072 Nuts 1,9856821 Fr.Veg 4,136 Fr.Veg 1,8039032 A Figura 3 mostra a correlação entre as variáveis. “RAIZ” 2014/10/28 page 51 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.2 - Análise de Componentes Principais 51 Figura 5. Componentes (scores). P C 1 P C 2 P C 3 P C 4 P C 5 P C 6 P C 7 P C 8 P C 9 A lb a n ia 3 ,4 8 5 1 ,6 3 0 1 ,7 6 1 0 ,2 3 0 0 ,0 2 3 1 ,0 3 4 0 ,4 7 2 0 ,7 6 2 0 ,1 0 3 A u st ri a 1 ,4 2 3 1 ,0 4 1 1 ,3 3 8 0 ,1 6 8 0 ,9 3 3 0 ,2 1 8 0 ,1 8 1 0 ,2 5 1 0 ,2 1 7 B e lg iu m 1 ,6 2 2 0 ,1 5 9 0 ,2 1 7 0 ,5 2 1 0 ,7 5 5 0 ,2 9 0 0 ,1 9 6 0 ,2 0 3 0 ,0 3 3 B u lg a ri a 3 ,1 3 4 1 ,3 0 1 0 ,1 5 1 0 ,2 1 4 0 ,4 8 5 0 ,6 9 6 0 ,4 6 5 0 ,8 0 8 0 ,3 0 0 C ze ch o sl o v 0 ,3 7 0 0 ,6 0 3 1 ,1 9 6 0 ,4 6 4 0 ,2 5 7 0 ,8 2 3 0 ,3 1 5 0 ,0 1 2 0 ,1 4 9 D e n m a rk 2 ,3 6 5 0 ,2 8 5 0 ,7 5 2 0 ,9 6 7 0 ,7 5 2 0 ,1 7 0 0 ,2 2 6 0 ,6 2 1 0 ,4 8 0 E G e rm a n y 1 ,4 2 2 0 ,4 5 0 1 ,3 0 3 1 ,1 3 6 0 ,4 2 3 0 ,6 4 8 0 ,5 5 5 0 ,1 6 3 0 ,2 6 0 F in la n d 1 ,5 6 4 0 ,5 9 6 2 ,0 5 0 1 ,4 1 5 0 ,0 3 7 0 ,8 3 4 0 ,7 2 6 0 ,2 2 6 0 ,1 3 3 F ra n ce 1 ,4 8 8 0 ,7 8 5 0 ,0 0 2 1 ,9 5 7 0 ,2 5 0 0 ,8 9 9 0 ,9 4 6 0 ,0 2 2 0 ,5 4 4 G re e ce 2 ,2 4 0 1 ,0 0 1 0 ,8 8 3 1 ,7 9 4 0 ,4 0 5 1 ,1 4 4 0 ,1 4 7 0 ,3 0 6 0 ,3 8 8 H u n g a ry 1 ,4 5 7 0 ,8 1 6 1 ,9 1 4 0 ,2 1 7 0 ,0 4 1 0 ,5 3 9 0 ,7 6 8 0 ,1 4 6 0 ,5 3 7 Ir e la n d 2 ,6 6 3 0 ,7 6 4 0 ,0 2 0 0 ,4 3 5 1 ,0 1 4 0 ,4 8 2 0 ,0 2 9 0 ,0 2 3 0 ,0 7 9 It a ly 1 ,5 3 5 0 ,3 9 9 0 ,1 2 6 1 ,2 2 2 0 ,8 0 4 0 ,2 1 4 0 ,1 5 0 0 ,0 8 0 0 ,7 3 2 N e th e rl a n d 1 ,6 4 1 0 ,9 1 2 0 ,7 6 6 0 ,1 2 6 0 ,7 6 1 0 ,2 9 8 0 ,0 6 2 0 ,4 6 0 0 ,2 6 1 N o rw a y 0 ,9 7 5 0 ,8 2 2 1 ,7 0 4 1 ,1 3 8 0 ,4 1 5 0 ,0 5 6 0 ,0 4 3 0 ,1 0 7 0 ,1 4 7 P o la n d 0 ,1 2 2 0 ,5 3 2 1 ,4 7 5 0 ,4 5 8 0 ,0 2 3 0 ,5 8 8 1 ,2 6 1 0 ,1 9 2 0 ,2 2 1 P o rt u g a l 1 ,7 0 6 4 ,2 8 9 0 ,0 4 4 0 ,8 9 4 0 ,3 8 5 0 ,6 9 7 0 ,0 4 6 0 ,2 0 5 0 ,2 6 3 R o m a n ia 2 ,7 5 7 1 ,1 1 9 0 ,0 7 0 0 ,6 1 5 0 ,3 1 7 0 ,1 3 1 0 ,1 3 3 0 ,0 2 7 0 ,3 3 8 S p a in 1 ,3 1 2 2 ,5 5 4 0 ,5 1 5 0 ,3 5 9 0 ,5 1 6 0 ,6 6 9 0 ,5 9 7 0 ,2 3 5 0 ,4 7 7 S w e d e n 1 ,6 3 4 0 ,2 0 7 1 ,2 8 0 0 ,7 3 4 0 ,8 2 0 0 ,0 4 4 0 ,5 4 1 0 ,0 7 2 0 ,1 0 8 S w it ze rl a n d 0 ,9 1 2 0 ,7 5 1 0 ,1 5 4 1 ,1 7 0 0 ,8 3 1 0 ,0 9 0 0 ,5 1 2 0 ,5 2 9 0 ,0 6 7 U K 1 ,7 3 5 0 ,0 9 4 1 ,1 5 3 1 ,7 3 4 1 ,0 8 4 0 ,0 9 7 0 ,6 5 1 0 ,2 3 9 0 ,1 3 2 U S S R 0 ,7 8 3 0 ,1 1 1 0 ,3 7 0 0 ,9 2 8 1 ,6 7 0 0 ,1 8 5 0 ,5 7 4 0 ,0 5 2 0 ,0 9 2 W G e rm a n y 2 ,0 9 4 0 ,2 9 4 0 ,8 0 4 0 ,1 0 9 0 ,0 6 8 0 ,2 0 1 0 ,4 5 7 0 ,3 5 7 0 ,0 2 5 Y u g o sl a v ia 3 ,6 2 3 1 ,0 3 8 0 ,2 0 6 0 ,8 2 2 0 ,3 7 8 0 ,3 5 4 0 ,0 6 1 0 ,1 9 3 0 ,1 4 9 Como vimos o uso do método de Componentes Principais transforma as variáveis originais em variáveis ortogonais e de forma que as primeiras componentes capturam a maior proporção da variância a ser explicada. Para explicar totalmente esta variação deveŕıamos usar todas as 9 com- ponentes. Em geral se a matriz de dados é n× p teŕıamos min(n− 1, p) componentes principais. Não estamos interessados em todas elas. Só um número pequeno delas para poder analisar e interpretar os dados. Podemos explicar uma grande parte dela usando somente umas poucas componentes (2 ou 3 por exemplo). A proporçao explicada por cada componente relativa ao total é usualmente resumida em um grafico cha- mado de Scree Plot. “RAIZ” 2014/10/28 page 52 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 52 Análise de Componentes Principais Cap.2 Figura 6. Screeplot. RedMeat WhiteMeatEggs Milk Fish Cereals Starch Nuts Fr.Veg 0,44516 0,181667 0,125324 0,106074 0,051538 0,036126 0,030178 0,012921 0,011012 O Gráfico da Figura 6 mostra que a primeira componente representa mais de 40% da variação total e o Gráfico seguinte da Figura 7 mostra que os dois primeiros representam mais de 60% do total. “RAIZ” 2014/10/28 page 53 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.2 - Análise de Componentes Principais 53 Figura 7. Proporção da variância explicada. Variancia acumulada 0,45 0,63 0,75 0,86 0,91 0,95 0,98 0,99 1,00 Não existe um método formal de determinanar o número de componen- tes. Os procedimentos são relativamente ad-hoc e influenciados pela área de aplicação onde são utilizados. Por exemplo em dados provenientes de Ciências Sociais é comun que os dados contenham muito “ruido” (erro aleatório). Nestes casos curvas como as da Figura 7 crescem lentamente. Um procedimento ad hoc frequentemente utilizado é um sugerido por Cattell (1960) que consiste em selecionar componentes até atingir o “co- tovelo” da curva do Scree Plot. Ou seja uma situação na qual a curva já passou pela sua pincipal descida e está mais ou menos estabilizada. Em nosso caso corresponderia a escolher 2 ou 3 dimensões. Ficaremos com 2 dimensões já que permite uma apresentação gráfica mais simples e direta. Como sugerido pelos resultados em 2.6, uma representação conveniente é obtida através de um Biplot. Neste caso as linhas da matriz de dados são representadas como pon- tos (coordenadas sobre as duas primeiras componentes principais) e as variáveis como direções. Direções aproximadamente horizontais são al- tamente correlacionadas com a primeira componente. Direções aproxi- “RAIZ” 2014/10/28 page 56 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 56 Análise de Componentes Principais Cap.2 A Figura 10 mostra o resultado completo com com páıses (pontos) e variéveis (direções). Figura 10. Mapa dos páıses sobre as duas componentes prin- cipais. Inclui as direções dos atributos utilizados (Biplot). Exemplo 2. Dados sobre caracteŕısticas de Vinho. Para este exemplo só vamos indicar os principais quadros. Os dados correspondem a 21 marcas de vinho francês sobre as quais 28 variáveis foram determinadas. Duas destas variáveis são categóricas (fatores): La- bel (3 niveis: Saumur , Bourgueuil e Chinon) e Soil (4 niveis: Reference, Env1, Env2, Env4) indicando Regiões da França e tipos de solo. “RAIZ” 2014/10/28 page 57 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.2 - Análise de Componentes Principais 57 As 28 variáveis numéricas e as 21 Marcas (códigos das marcas) são: Figura 1 Marcas 1 2EL 2 1CHA 3 1FON 4 1VAU 5 1DAM 6 2BOU 7 1BOI 8 3EL 9 DOM1 10 1TUR 11 4EL 12 PER1 13 2DAM 14 1POY 15 1ING 16 1BEN 17 2BEA 18 1ROC 19 2ING 20 T1 21 T2 Variaveis 1 Odor.Intensity.before.shaking 2 Aroma.quality.before.shaking 3 Fruity.before.shaking 4 Flower.before.shaking 5 Spice.before.shaking 6 Visual.intensity 7 Nuance 8 Surface.feeling 9 Odor.Intensity 10 Quality.of.odour 11 Fruity 12 Flower 13 Spice 14 Plante 15 Phenolic 16 Aroma.intensity 17 Aroma.persistency 18 Aroma.quality 19 Attack.intensity 20 Acidity 21 Astringency 22 Alcohol 23 Balance 24 Smooth 25 Bitterness 26 Intensity 27 Harmony 28 Overall.quality A Figura 1 indica o posicionamnto das marcas. Só uma variável foi enfatizada no gráfico: a Qualidade Total, para não poluir o grafico com “RAIZ” 2014/10/28 page 58 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 58 Análise de Componentes Principais Cap.2 muitas direções. Figura 2 Env1 Env2 Env4 Reference Odor.Intensity Aroma.quality. Fruity.before. Flower.before. Spice.before.s Visual.intensiNuance Surface.feelin Odor.Intensity Quality.of.odo Fruity Flower SpicePlante Ph olic Aroma.intensit Aroma.persiste Aroma.quality Attack.intensi Acidity Astringency Alcohol Balance Smooth Bitterness Intensity Harmony 3.393 3.214 3.536 2.464 3.741 3.643 3.714 3.393 3.2003.179 3.571 3.148 3.571 3.929 3.643 3.750 3.5363.464 2.370 2.643 2.852 2EL 1CHA 1FON 1VAU 1DAM 2BOU 1BOI 3EL DOM11TUR 4EL PER1 2DAM 1POY1ING 1BEN 2BEA1ROC 2ING T1 T2 wine$Overall.q 2.0 2.5 3.0 3.5 4.0 A Figura 2 é semelhante a Figura 1 onde foram agregadas cápsulas con- vexas aos diferentes tipos de solo para visualizar mais claramente uma espécie de ordem de qualidade do vinho entre os grupos. As marcas do Solo de Referência apresentam uma qualidade global muito homogênea. “RAIZ” 2014/10/28 page 61 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.3 - Análise de Correspondência 61 medida do posśıvel a “informação” contida nos dados originais. De fato, o que faremos é transformar os dados de duas maneiras diferentes e sobre cada transformação aplicar uma análise de componentes principais apropriada. 3.1 Notação e descrição do problema A análise de correspondência é, tipicamente, utilizada para analisar uma tabela de contingência. Essa tabela de contingência pode ter sido ob- tida, por exemplo, de um grupo de n indiv́ıduos classificados em I clas- ses disjuntas A1, . . . , AI de um critério A (por exemplo, munićıpio de residência) e em J classes disjuntas B1, . . . , Bj de um critério B (por exemplo, causa de morte ou ńıvel de renda). Essa tabela pode ser re- presentada da seguinte maneira: CritérioACritério B B1 . . . Bj . . . BJ marginal de A A1 n11 nij niJ n1· ... Ai ni1 nij niJ ni· ... AI nI1 nIj nIJ nI· marginal de B n·1 n·j n·J n onde nij = número de indiv́ıduuos classificados simultaneamente em Ai e Bj , ni· = J∑ j=1 nij = número de indiv́ıduos classificados em Ai , n·j = I∑ i=1 nij = número de indiv́ıduos classificados em Bj . É claro que temos n = I∑ i=1 J∑ j=1 nij = I∑ i=1 ni· = J∑ j=1 n·j . “RAIZ” 2014/10/28 page 62 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 62 Análise de Correspondência Cap.3 Mais geralmente, a análise de correspondência é utilizada numa ta- bela onde as classes Ai e/ou as classes Bj não precisam ser mutuamente disjuntas, nij é a entrada correspondente a classe Ai e a classe Bj , com a restrição nij ≥ 0, ni· , n·J e n são como antes. Chamemos a essa tabela de N , ie., N = (nij) 1≤i≤I 1≤j≤J . Mas para facilitar a apresentação da técnica, podemos pensar numa tabela de contingência. A tabela N pode ser normalizada considerando- se a tabela P = 1 n N , que no caso da tabela de contingência é a tabela de frequência. Se p = (pij) 1≤i≤I 1≤j≤J , temos então pij = nij n , pi· = J∑ j=1 pij = ni· n , p·j = I∑ i=1 pij = n·j n e 1 = I∑ i=1 J∑ j=1 pij = I∑ i=1 pi· = J∑ j=1 p·j . Para compararmos, por exemplo, dois munićıpios em relação ao ńıvel de renda de seus habitantes, não é interessante trabalhar com o número total de habitantes, pois em geral, os munićıpios têm número de habitan- tes distintos, podendo ser um munićıpio muito maior que o outro. O que é interessante é comparar os “perfis” dos munićıpios, isto é, comparar as frequências relativas de cada classe de renda nos munićıpios. Então, se por exemplo, essas frequências relativas são aproximadamente iguais para todas as classes de rendas, esses dois munićıpios seriam similares. Representamos então cada classe Ai pelo vetor de frequências con- dicionais pBi no espaço R J , isto é, ( pBi )′ = ( pi1 pi· , · · · , piJ pi· ) = ( ni1 ni· , · · · , niJ ni· ) · “RAIZ” 2014/10/28 page 63 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.3 - Análise de Correspondência 63 Analogamente, representamos cada classeBj pelo vetor de frequências condicionais pAj no espaço R I , isto é, ( pAj )′ = ( p1j p·j , · · · , pIj p·j ) = ( n1j n·j , · · · , nIj n·j ) · Ao vetor pBi (p A j ) chamamos de perfil da classe Ai (Bj). Observamos que J∑ j=1 pij pi· = 1 e J∑ i=1 pij p·j = 1. Temos então para as classes A1, . . . , AI , representações comparáveis no espaço RJ e para as classes B1, . . . , Bj representações comparáveis no espaço RI . Para podermos comparar as classes A1, . . . , AI , precisamos agora introduzir uma distância no espaço RJ . Procuremos então, uma distância quadrática d2(Ai, Ai′) = ∥∥pBi − pBi′ ∥∥2 ΣB = J∑ j=1 λj ( pij pi· − pi′j pi′· )2 que tenha a seguinte propriedade de invariância: “Se agregamos duas classes Bj e Bj′ de mesmo perfil, isto é, tais que pAj = P A j′ , não alteramos a distância entre duas classes quaisquer Ai e Ai′ , isto é, d 2(Ai, Ai′) permanece inalterada”. Essa é uma propriedade desejável, pois se duas classes de renda vizi- nhas tem aproximadamente o mesmo perfil, podemos então agrupar es- sas duas classes de renda sem alterar a similaridade entre os munićıpios. Esse fato garante uma certa invariabilidade dos resultados a divisão em classes de renda, que é necessariamente arbitrária. É claro que λj deve depender de Bj e como estamos interessados em poder agregar duas classes Bj e Bj′ de mesmo perfil, é natural tomarmos λj como uma função cont́ınua λ de p·j , isto é, λj = λ(p·j). Proposição 3.1. A distância entre as classes Ai e Ai′ que satisfaz essa propriedade de invariância, é, a menos de uma homotetia, dada por: d2(Ai, Ai′) = ∥∥pBi − pBi′ ∥∥2 ΣB = J∑ j=1 1 p·j ( pij pi· − pi′j pi′· )2 , “RAIZ” 2014/10/28 page 66 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 66 Análise de Correspondência Cap.3 Esse fato segue diretamente de (*). Observação 2. Os valores λj = 1 p·j em d2(Ai, Ai′) = J∑ j=1 1 p·j ( pij pi· − pi′j pi′· )2 têm a propriedade de atenuar as disparidades causadas pelos diferentes contingentes n·j das classes Bj . Isto é, se p·j0 fosse consideravelmente menos (mais) que os outros p·j , (pij0 pi· − pi′j0 pi′· )2 tenderia a ter um papel muito mais (menos) importante que as demais parcelas na distância euclidiana J∑ j=1 (pij pi· − pi′j pi′· )2 . Lembramos que nosso objetivo é a representação simultânea das clas- ses Ai e Bj em um espaço de dimensão p menor que I e J . Pode- mos então fazer uma análise de componentes principais para as classes A1, . . . , AI , representadas por seus perfis p B 1 , . . . , p B I e com a distância acima definida. Como essas classes têm, em geral, contingentes diferen- tes, é razoável dar-lhes pesos µA1 , . . . , µ A I iguais às suas frequências, isto é, µAi = pi· para todo i = 1, . . . , I. Fazemos o mesmo com as classes B1, . . . , BJ , com pesos µ B j = p·j para todo j = 1, . . . , J . Na próxima seção, daremos propriedades dessas representações e relações entre elas. 3.2 Resultados Consideremos as matrizes PB de dimensão I×J e PA de dimensão J×I, cujas linhas são, respectivamente, os perfis das classes A1, . . . , Ai e os perfis das classes B1, . . . , BI , isto é: PB = ΣAP =   ( pB1 )′ ...( pBI )′   e PB = ΣBP =   ( pA1 )′ ...( pAJ )′   Aplicaremos duas análises de componentes principais. A primeira, sobre os vetores pB1 , . . . , p B I pertencentes ao espaço R J munido do pro- duto interno definida por ΣB e com pesos µAi = pi· , i = 1, . . . , I. A “RAIZ” 2014/10/28 page 67 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.3 - Análise de Correspondência 67 segunda, sobre os vetores pA1 , . . . , p A J pertencentes ao espaço R I munido do produto interno definido por ΣA e com pesos µBj = p·j , j = 1, . . . , J . Sejam ( pB· )′ = ( I∑ i=1 µAi p B i )′ = (p·1, . . . , p·j) e ( pA· )′ = ( J∑ j=1 µBj p A j )′ = (p1·, . . . , pI·) , os vetores médias ponderadas, respectivamente, dos vetores pBi e p A J . Sejam xBi = p B i − pB· e xAj = pAj − pA· seus desvios. Aplicamos agora o Teorema 2.1. Temos então: (i) as matrizes de covariância amostral CB = I∑ i=1 µAi x B i (x B i ) ′ = I∑ i=1 pi· p B i (p B i ) ′ − pB· (pB· )′ = = (pB)′(ΣA)−1(pB)− pB· (pB· )′ = P ′ΣAP − pB· (pB· )′ e CA = J∑ j=1 µBj x A j (x A j ) ′ = P ΣB P ′ − pA· (pA· ) e (ii) as matrizes UB = (uB1 , . . . , u B J ), (Σ B)−1 − ortonormal e UA = (uA1 , . . . , u A I ), (Σ A)−1 − ortonormal tais que: ΣB CB UB = ΛB UB e ΣACA UA = ΛA UA onde ΛB = diag(λB1 , . . . , λ B J ) e Λ A = diag(λA1 , . . . , λ A I ) com λB1 ≥ · · · ≥ λBJ ≥ 0 e λA1 ≥ · · · ≥ λAI ≥ 0. Ainda pelo Teorema 2.1, Fα(i) = (u B α ) ′ xBi e Gα(j) = (u A α ) ′ xAj são, respectivamente, as α-ésimas componentes principais das classes Ai e Bj . “RAIZ” 2014/10/28 page 68 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 68 Análise de Correspondência Cap.3 Teorema 3.1. (i) O vetor uBJ = IJ = (1, . . . , 1) ′ é autovetor de ΣB CB associado ao autovalor λBj = 0. O vetor uAI = 1A = (1, . . . , 1) ′ é autovetor de ΣACA associado ao autovalor λAi = 0. (ii) Os autovetores uBα , α = 1, . . . , J − 1 satisfazem: (pB· ) ′ uBα = B∑ j=1 p·j uBα (j) = 0. Os autovetores uAα , α = 1, . . . , I − 1 satisfazem: (pA· ) ′ uAα = I∑ i=1 pi· uAα (i) = 0. (iii) A matriz HB = ΣB P ′ΣA P de termo geral hjj′ = 1 p·j I∑ i=1 pij pij′ pi· tem como autovetores uBα , 1 ≤ α ≤ J , associados aos autovalores λB1 , . . . , λ B J−1 e λJ = 1. A matriz HA = ΣA P ΣB P ′ de termo geral hii′ = 1 pi· J∑ j=1 pij pij′ p·j tem como autovetores uAα , 1 ≤ α ≤ I, associados aos autovalores λA1 , . . . , λ A I−1 e λI = 1. (iv) A matriz simétrica SB = (ΣB)1/2 P ′ΣA P (ΣB)1/2 de termo geral SBjj′ = I∑ i=1 pij pij′ pi· √ p·j p·j′ tem os mesmos autovalores que a matriz HB e seus autovetores dBα são ortonormais e satisfazem d B α = (ΣB)−1/2 uBα , isto é, d B α (j) = √ p·j uBα (j). A matriz simétrica SA = (ΣA)1/2 P ΣB P ′(ΣA)1/2 de termo geral SAii′ = J∑ j=1 pij pi′j p·j √ pi· pi′· tem os mesmos autovalores que a matriz HA e seus autovetores dAα são ortonormais e satisfazem d A α = (Σ A)−1/2 uAα , isto é, dAα (i) = √ pi· uAα (i). (v) Os autovalores não nulos de ΣB CB coincidem com os autovalores não nulos de ΣACA. “RAIZ” 2014/10/28 page 71 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.3 - Análise de Correspondência 71 Analogamente uAα = 1√ λα ΣA P uBα . (vii) Fα(i) = ( xBi )′ uBα = ( pBi − pB· )′ uBα = ( pBi )′ uBα devido a (ii). Logo Fα = P B uBα = Σ A P uBα = √ λα u A α por (vi). Analogamente Gα = √ λα u B. (viii) Imediato de (vii) e (vi). (ix) Suponhamos que λα > 1. Então 1√ λα < 1. Logo por (vi), min i uAα (i) < u B α (j) < max i uAα (i) para todo j, pois I∑ i=1 pi· uAα (i) = 0 implica min i uAα (i) < 0 < max i uAα (i). Consequentemente min i uAα (i) < min j uBα (j) < max j uBα < max i uAα (i). Novamente por (vi) e (ii), temos min j uBα (j) < u A α (i) < max j uAα (j) o que implica min i uAα (i) < min j uBα (i) < min i uAα (i). Portanto chegamos a uma contradição e λα tem que ser ≤ 1. Observações a)Na prática, calculamos primeiro, os autovalores e autovetores da matriz SB (ou SA), que é uma matriz simétrica. Descartamos, então, o maior autovalor 1 e seu autovetor associado dB = ( 1√ p·1 , · · · , 1√ p·J )′ ( dA = ( 1√ p·i , · · · , 1√ p·I )′) · b) O item (viii) nos diz que a α-ésima coordenada da linha i é, a menos de uma dilatação, a média ponderada das α-ésimas coordenadas das colunas, o peso da j-ésima coluna sendo a frequência condicional dessa coluna dado a i-ésima linha, isto é, pij/pi· . E vice-versa. Assim, se λα próximo de 1 e se pij pi· grande (próximo de 1), a α-ésima coordenada da linha i deverá estar próxima da α-ésima coordenada da coluna j. Esse fato justifica a representação simultânea das linhas e colunas no mesmo gráfico. “RAIZ” 2014/10/28 page 72 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 72 Análise de Correspondência Cap.3 3.3 Formulações Equivalentes (i) Método do escore de Fisher para tabelas de contingência. Seja P = (pij)1≤i≤I 1≤j≤J uma tabela de contingência, ∑ i ∑ j pij = 1. Po- demos considerar pij como uma estimativa da probabilidade de ocorrência do par (i, j). O método consiste em determinar funções f e g definidas sobre {1, . . . , I} e {1, . . . , J} respectivamente, tais que tenham correlação máxima. Para que esse problema tenha solução, é necessário impor restrições às funções f e g. Como é natural, impomos as restrições de que as funções f e g tenha média zero e variância igual a um. Logo, queremos maximizar cor(f, g) = ∑ i ∑ j f(i)g(u)pij sujeito às restrições Ef = ∑ i f(i)pi· = 0, Eg = ∑ j g(j)p·j = 0 Var f = ∑ i f2(i)pi· = 1, Var g = ∑ j g2(j)p·j = 1. Nesse caso, o método é equivalente a determinar funções f e g satis- fazendo as restrições acima e que minimizem E(f − g)2 =∑ i ∑ j (f(i) − g(j))2 pij . De fato, E(f − g)2 = ∑ i f2(i)pi· + ∑ j g2(j)p·j − 2 ∑ i ∑ j f(i)g(j)pij . Logo E(f − g)2 = 2− 2 cor(f, g). Uma vez achados f e g, podemos procurar funções f2 e g2 , defini- das em {1, . . . , I} e {1, . . . , J} respectivamente, que tenham correlação maxima, média zero, variância um e sejam não correlacionadas com f e g, isto é, procuramos funções f1 e f2 que maximizem ∑ i ∑ j f2(i)g2(j)pij “RAIZ” 2014/10/28 page 73 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.3 - Análise de Correspondência 73 sujeitas às restrições. Ef2 = ∑ i f2(i)pi = 0, Eg2 = ∑ j g2(j)p·j = 0, Var f2 = ∑ i f22 (i)pi· = 1, Var g2 = ∑ j g22(j)p·j = 1, cor(f, f2) = ∑ i f(i)f2(i)pi· = 0, cor(g, g2) = ∑ j g(j)g2(j)p·j = 0, cor(f, g2) = ∑ i ∑ j f(i)g2(j)pij = 0, corf2, g) = ∑ i ∑ j f2(i)g(j)pij = 0. e assim por diante. Os valores fα(i) e gα(j) são chamados de α-ésimos escores. Esse método está descrito em Hirschfield (1935), Fisher (1940), Williams (1952), Kendall & Stuart (1961, pg. 569), Benzecri (1973), Lancaster (1969) e Hill (1974). Em particular, Kendall & Stuart (1961) fornece uma justificação teórica baseada na distribuição normal. As funções f1, g1, f2, g2, etc... . São usualmente obtidas, utilizando- se, em cada etapa, os multiplicadores de Lagrange. Mais geralmente, e usando-se notação matricial, procuramos funções f1, . . . , fr definidas em {1, . . . , I} e funções g1, . . . , gr definidas em {1, . . . , J} tais que (a) Efα = ∑ i fα(i)pi· = 0 α = 1, . . . , r Var fα = ∑ i f2α(i)pi = f ′ α ( ΣA )−1 fα = 1, onde fα = (fα(1), . . . , fα(I)) ′, α = 1, . . . , r, cor(fα, fα′) = ∑ i fα(i)fα′(i)pi· = fα ( ΣA )−1 fα′ = 0 α 6= α′ (b) Egα = ∑ j gα(j)p·j = 0 α = 1, . . . , r Var gα = ∑ j g2α(j)p·j = g ′ α ( ΣB )−1 gα = 1, “RAIZ” 2014/10/28 page 76 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 76 Análise de Correspondência Cap.3 com β tão próximo de 1 quanto posśıvel, ou em notação matricial X = β ΣA P Y e Y = β ΣB P ′, X, o que equivale a termos X = β2ΣA P ′ΣB P ′X e Y = β2ΣB P ′ΣA P Y. Temos, então, que X deve ser autovetor de HA = ΣA P ΣB P ′ e Y deve ser autovetor de HB = ΣB P ′ΣA P , ambos associados ao autovalor 1/β2. Essa modificação é razoável pois se partirmos de uma solução inicial X0 6= 1I , definirmos Y0 = ΣB P ′X0 , X1 = ΣA P ′ Y0 , Y1 = ΣB P ′X1 e iterarmos, teremos: Xn = ( ΣA P ΣB P ′ )n X0 e Yn = ( ΣB P ′ΣA P )n Y0 . Sabemos que (ver por exemplo, Morrison (1967)) que se em cada etapa, normalizamos Xn e Yn , Xn converge a um autovetor de H A e Yn converge a um autovetor de H B. Ver também Hill (1974) para motivação. Como vimos antes, HA e HB têm os mesmos autovalores e esses são sempre ≤ 1. Logo, como procuramos β tão próximo de 1 quanto posśıvel, a solução procurada é X = uA1 e Y = u B 1 associados ao autovalor λ1 = 1 β2 · Podemos estender de maneira natural esse escalamento em um eixo, a um escalamento em k eixos ortonormais, ortonormalidade essa, definida apropriadamente para as linhas e as colunas, e cuja solução é X(α) = uAα e Y (α) α = Y (α) = uBα , α = 1, . . . , k. Logo, temos novamente, essencialmente, a solução da análise de cor- respondência. 3.4 Exemplos de tipos de tabela Já mencionamos várias vezes a tabela de contingência A×B. Daremos exemplos, agora de outros tipos de tabela que podem ser considerados. “RAIZ” 2014/10/28 page 77 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.3 - Análise de Correspondência 77 (i) Tabelas de contingência multivariadas. Suponhamos que temos uma tabela de contingência a 3 dimensões A×B×C. Podemos tratar essa tabela, olhando as tabelas bidimensionais A× (B × C), (A×B)× C e (A× C)×B. Uma outra maneira de tratarmos o problema, quando estamos inte- ressados em explicar, digamos a categoria A, é considerarmos as tabelas A×B e A× C justapostas como na figura B1 . . . Bj C1 . . . CK A1 ... AI É claro que podemos estender os conceitos acima, a tabelas de di- mensão maiores. No primeiro caso, cáımos sempre numa tabela de con- tingência bivariada. Consideremos então o segundo caso em que temos justaposição de tabelas de contingência bivariadas. Consideremos então, a categoria A com classes Ai = i = 1, . . . , I e categorias B(q), q = 1, . . . , Q, a categoria B(q) com Jq classes B (q) j . For- memos a tabela abaixo que é a justaposição das tabelas de contingência. A×B(q), q = 1, . . . , Q. AB B (1) 1 . . . B (1) J1 B (2) 1 . . . B (2) J2 . . . B (Q) 1 . . . B (Q) JQ A1 n (1) 11 n1J1 n (2) 11 n1J(2)2 n (Q) 11 n (Q) 1JQ Qn1· . . . AI n (1) I1 n (1) IJ1 n (2) I1 n (2) IJ2 n (Q) I1 n (Q) IJQ QnI· n (1) ·1 n (1) ·J1 n (2) ·1 n (2) ·J2 n (Q) ·1 n (Q) ·JQ Qn Seja n (q) ij = número de elementos na classe Ai e classe B (q) j , ni· = número de elementos na classe Ai n (q) ·j = número de elementos na classe B (q) j . “RAIZ” 2014/10/28 page 78 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 78 Análise de Correspondência Cap.3 Então, usando-se a notação com o subscrito q para a tabela A×B(q) e sem o subscrito para a tabela geral, temos: pi· = Qni Qn = ni· n = p (q) i para todo q = 1, . . . , Q, p·j = n·j Qn = n (q) ·j′ Qn = 1 Q p (q) ·j′ para algum q e j ′, e pij = nij Qn = n (q) ij′ Qn = 1 Q p (q) ij′ para algum q e j ′. Logo D2(Ai, Ai′) = J1+···+JQ∑ j=1 1 p·j ( pij pi· − pi′j pi′· )2 = = Q∑ q=1 Jq∑ j=1 Q p (q) ·j 1 Q2  p (q) ij pi· − p (q) i′j p′i·   2 = 1 Q Q∑ q=1 [ d(q)(Ai, Ai′) ]2 , isto é, o quadrado da distância entre as classes Ai e Ai′ é a média aritmética dos quadrados das distâncias entre as classes Ai e Ai′ nas tabelas A×B(q). Temos também d2 ( B (q) j , B (q′) j′ ) = I∑ i=1 1 pi·  p (q) ij p (q) ·j − p (q′) ij′ p (q′) ·j′   2 · Logo se q = q′; d2 ( B (q) j , B (q′) j′ ) = [ d(q) ( B (q) j , B (q) j′ )]2 , isto é, a distância entre duas classes na mesma categoria B(q) permanece a mesma. E se duas classes, em categorias diferentes têm perfis parecidos, elas estão próximas. Vejamos agora, o que acontece com as coordenadas Fα e Gα . Gα(j) = 1√ λα I∑ i=1 pij p·j Fα(i) “RAIZ” 2014/10/28 page 81 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.3 - Análise de Correspondência 81 e a frequência condicional da classe B (q) j dada B (q) j ∪B (q) j′ : p̂ ( B (q) j ∣∣B(q)j ∪B (q) j′ ) = n (q) ·j n (q) ·j + n (q) ·j′ = p (q) ·j p (q) ·j + p (q) ·j′ · Temos então d2(Ai, Ai′) = = 1 Q ∑ q δii′ p̂ ( B (q) j(i,q) ∪B (q) j(i′,q) ) p̂ ( B (q) j(i,q) ∣∣B(q)j(i,q) ∪B (q) j(i′,q) ) p̂ ( B (q) j(i′,q) ∣∣B(q)j(i,q) ∪B (q) j(i′,q) ) e a interpretação é a mesma que no caso particular. Por outro lado, d2 ( B (q) j , B (q′) j′ ) = I∑ i=1 1 1/I  n (q) ij n (q) ·j − n (q′) ij′ n (q′) ·j′   2 = = I I∑ i=1   n (q) ij[ n (q) ·j ]2 + n (q′) ij′[ n (q′) ·j′ ]2 − 2 n (q) ij n (q′) ij′ n (q) ·j − n (q′) ·j′   = = I   1 n (q) ·j + 1 n (q′) ·j′ − 2 I∑ i=1 n (q) ij n (q′) ij′ n (q) ·j n (q1) ·j′   = = I n (q) ·j + n (q′) ·j′ − 2 I∑ i=1 n (q) ij n (q′) ij′ n (q) ij n (q′) ·j′ · Chamando-se ♯B (q) j = n (q) ·j = número de indiv́ıduuos que responde- ram o item j da pergunta q, B (q) j ∩ B (q′) j′ ao conjunto dos indiv́ıduos que responderam simultâneamente o item j da pergunta q e o item j′ da pergunta q′, e finalmente denotando-se a diferença simétrica de B(q)j e B (q′) j′ por B (q) j △ B (q′) j′ , isto é, o conjunto dos indiv́ıduos que responderam o item j da pergunta q, mas não o item j′ da pergunta q′ e vice-versa, temos d2 ( B (q) j , B (q′) j′ ) = I ♯B (q) j + ♯B (q′) j′ − 2♯B (q) j ∩B (q′) j′ ♯B(q) ♯B(q′) = “RAIZ” 2014/10/28 page 82 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 82 Análise de Correspondência Cap.3 = I ♯ ( B (q) j △ B (q′) j′ ) ♯B (q) j ♯B (q′) j′ = ♯ ( B (q′) j △ B (q′) j′ )/ I p (q) ·j p (q′) ·j′ · No caso q = q′, ♯ ( B (q) j ∩B (q′) j′ ) = 0 para j 6= j′ e temos: d2 ( B (q) j , B (q) j′ ) = = 1 p̂ ( B (q) j ∪B (q) j′ ) p̂ ( B (q) j ∣∣B(q)j ∪B (q) j′ ) p̂ ( B (q) j′ ∣∣B(q)j ∪B (q) j′ ) · Com respeito às representações simultâneas, temos: Fα(i) = 1√ λα J1+···+JQ∑ j=1 pij pi· Gα(j) = 1√ λα 1 Q Q∑ q=1 Gα(j(i, q)) e Gα(j) = 1√ λα I∑ i=1 pij p·j Fα(i) = 1√ λα I∑ i=1 nij n·j Fα(i). Logo a α-ésima coordenada do i-ésimo indiv́ıduo é a menos de uma dilatação, a média aritmética das α-ésimas coordenadas dos itens por ele respondido e a α-ésima coordenada do item j é a menos de uma dilatação, a média aritmética das α-ésimas coordenadas dos indiv́ıduos que a responderam. (iii) Tabelas de intensidade Consideremos I indiv́ıduos A1, . . . , AI , por exemplo, estudantes, e sejam B(1). . . . , B(Q), Q critérios, por exemplo, disciplinas escolares. Suponhamos que as notas em cada disciplina variem de 0 a T , e seja x+iq a nota do i-ésimo indiv́ıduo na q-ésima disciplina. Assim como consi- deramos essa nota de “bondade” x+iq , podemos considerar uma nota de “ruindade” x−iq = T − x+iq e considerar a seguinte tabela AB B(1)+ B(1)− . . . B(Q)+ B(Q)− A1 x + 11 x − 11 x + 1Q x − 1Q QT ... AI x + I1 x − I1 x + IQ x − IQ QT x+·1 x − ·1 x + ·Q x − ·1 IQT “RAIZ” 2014/10/28 page 83 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.3 - Análise de Correspondência 83 Essa tabela é uma generalização da tabela de incidência, caso Jq = 2, para todo q, e do prinćıpio de se registrar ao mesmo tempo presença e ausência. Ela tem a propriedade de que os indiv́ıduos têm o mesmo peso, tornando os perfis dos indiv́ıduos comparáveis. Interpretemos as distâncias. d2(Ai, Ai′) = Q∑ q=1 IQT x+·q [ x+iq / IQT 1/I − x+i′q / IQT 1/I ]2 + + ∑ q=1 IQT x−·q [ x−iq / IQT 1/I − x−i′q / IQT 1/I ]2 = = I QT Q∑ q=1 ( 1 x+·q + 1 x−·q )( x+iq−x+i′q )2 = I2 Q Q∑ q=1 1 x+·q (IT−x+·q) ( x+iq−x+i′q )2 = = 1 Q Q∑ q=1 1 x+·q IT ( 1− x+·q IT ) ( x+iq T − x+i′q T )2 · De novo, encontramos o inverso da variância de uma binomial pon- derando o quadrado da diferença das notas normalizadas dos indiv́ıduos Ai e Ai′ . Observemos que o caso da tabela de incidência é um caso particular do caso acima. Desse modo, novamente, o quadrado da distância enre os indiv́ıduos Ai e Ai′ é a média aritmética dos quadrados das distâncias em relação a cada disciplina. Por outro lado, d2 ( B(q)+, B(q ′)+ ) = I I∑ i=1 ( x+iq x+ ·q − x+ iq′ x+ ·q′ )2 , que é a me- nos de uma constante, o quadrado da distância euclidiana entre os perfis “RAIZ” 2014/10/28 page 86 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 86 Análise de Correspondência Cap.3 AB B (1) 1 . . . B (1) J1 B (2) 1 . . . B (2) J2 A1 2 ... ... AI 2 n (1) ·1 n (1) ·J1 n (2) ·1 n (2) ·J2 2I Essas duas tabelas estão em correspondência 1-1, a menos de per- mutação de linhas na tabela de incidência. Chamemos de Bi a tabela de incidência A por B (i), i = 1, 2, e de B = [B1 ...B2] a tabela de incidência considerada obtida pela justaposição das tabelas B1 e B2 . Segue que a tabela de contingência é dada por B′1B2 . (i) Relação entre corelação canônica sobre B[[B1;B2] e os es- cores de Fisher sobre B′1B2 . Façamos formalmente uma análise de correlações canônicas conside- rando os grupos de variáveis formados pelas colunas das tabelas B1 e B2 . Queremos então obter vetores x J1 × 1 e y J2 × 1 tais que maximi- zem a correlação (B1x.B2y) sujeitos às restrições EB1x = EB2y = 0 e Var B1x = Var B2y = 1. Mas EB1x = 1 I I∑ i=1 (B1x)i = 1 I J1∑ j=1 nj· xj = J1∑ j=1 pj· xj = 0 e Var B1x = 1 I I∑ i=1 (B1x) 2 = 1 I J1∑ j=1 nj· x 2 j = J1∑ j=1 pj· x 2 j = 1. Analogamente EB2y = J2∑ j=1 p·j yj = 0 e Var B2y = J2∑ j=1 p·j y 2 j = 1. “RAIZ” 2014/10/28 page 87 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.3 - Análise de Correspondência 87 E correlação (B1 x,B2 y) = 1 I I∑ i=1 (B1 x)i(B2 y)i = 1 I J1∑ j=1 J2∑ j=1 njj′ xj yj′ = = J1∑ j=1 J2∑ j′=1 pjj′xj yj′ . Portanto recáımos no problema dos escores de Fisher para a tabela de contingência B′1B2 . É claro que podemos obter outras variáveis canônicas da maneira usual. (ii) Relação entre as análises de correspondência da tabela de con- tingência B′1B2 e da tabela de incidência B = [B1 ...B2]. Seja P = 1 2I B, a tabela de incidência normalizada. Então pi· = 2 2I 1 I , ΣAP = diag ( 1 p1· , . . . , 1 pI· ) = I II×I e p (i) ·j = n (i) ·j 2I , i = 1, 2, ΣBP = diag ( 1 p (1) ·1 , . . . , 1 p (1) ·j1 , 1 p (2) ·1 , . . . , 1 p (2) ·j2 ) · Logo P (1) ·j = 1 2 pj· 1 ≤ j ≤ J1 , p (2) ·j = 1 2 p·j 1 ≤ j ≤ J2 onde p·j e P·j referem-se às proporções na tabela B′1B2 e Σ B P = 2 ( ΣB1 0 0 ΣB2 ) onde ΣB1 = diag ( 1 p1· , . . . , 1 pJ1· ) e ΣB2 = diag ( 1 p·1 , . . . , 1 p·J2 ) · “RAIZ” 2014/10/28 page 88 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 88 Análise de Correspondência Cap.3 Logo HBP = Σ B P P ′ΣAP P =   ΣB1 0 0 ΣB2   1 2I B′ I II×I 1 2I B = = 1 2I   ΣB1 0 0 ΣB2     B′1B1 B ′ 1B2 B′2B2 B ′ 2B2   = = 1 2   ΣB1 0 0 ΣB2     ( ΣB1 )−1 PB′1Bi PB′1B2 ( ΣB2 )−1   = = 1 2   IJ1×J1 Σ B1 PB′1B2 ΣB2 P ′B′1B2 IJ2×J2   onde PB′1B2 = 1 I B′1B2 . Mas HBP   a · · · b   = µ   a · · · b   se e somente se    1 2 a+ 1 2 ΣB1 PB′1B2 b = µa 1 2 ΣB2 P ′B′1B2 a+ 1 2 b = µb se e somente se    ΣB1 PB′1B2 b = (2µ− 1)a ΣB2 PB′1B2 a = (2µ− 1)b Reconhecemos então a representação simultânea das linhas e colunas da tabela de contingência B′1B2 . Logo aα = u B1 α , bα = u B2 α e 2µα−1 = √ λα ou seja µα = 1 + √ λα 2 · A solução aα = u B1 α , bα = −uB2α , 2µ′α − 1 = − √ λα ou seja µ′α = 1− √ λα 2 não é interessante, pois temos sempre µ′α ≤ µα e estamos interessados nos maiores autovalores. “RAIZ” 2014/10/28 page 91 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.3 - Análise de Correspondência 91 √ µα u B q (j) na análise da tabela B e será µα u B q (j) na análise da tabela B′B. Pela equivalência da análise de correspondência de uma tabela com os escores de Fisher e usando-se o fato de que B′B é uma matriz simétrica, sabemos que UB1 maximiza 1 Q2I U ′B′B U em (UB)′ = ( (uB1 ) ′, . . . , (uBQ) ) sujeito às restrições E U = 0 e Var U = U ′ ( ΣBB′B )−1 U = 1, ou seja maximiza 1 Q2I ∑ q,q u′q B ′ q Bq′ uq′ sujeito às restrições U ′p· = 1 Q Q∑ q=1 u′q p (q) · = 0 e 1 Q Q∑ q=1 u′q ( ΣBq )−1 uq = 1 onde p′· = 1 Q ( p (1)′ · , . . . , p (Q)′ · ) e p (q)′ · = ( p (q) ·1 , . . . , p (q) ·JQ ) · Mostremos que ( uBq )′ p (q) · = 0 para todo q = 1, . . . , Q. Seja uA1 o autovetor deH A B associado ao 1 o autovalor µ1 . Lembremos que ( uA1 )′ pA· = 1 I ∑ i uA1 (i) = 0. Temos então: ( uBq )′ p (q) · = Jq∑ j=1 p (q) ·j u B q (j) = Jq∑ j=1 p (q) ·j 1√ µ1 I∑ i=1 p (q) ij p (q) ·j µ1(i) = = 1√ µ1 I∑ i=1   Jq∑ j=1 p (q) ij  uA1 (i) = 1√ µ1 1 I I∑ i=1 µA1 (i) = 0. Logo tanto faz considerarmos a restrição U ′p· = 0 ou u′q p (q) · = 0, q = 1, . . . , Q. De fato, a restrição U ′p· = 0 engloba um maior numero de vetores U , e contém todos os vetores que satisfazem u′q p (q) · = 0, q = 1, . . . , Q. “RAIZ” 2014/10/28 page 92 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ 92 Análise de Correspondência Cap.3 Por outro lado, voltando à tabela B = [B1 ... · · · ...BQ] podemos pro- curar vetores u1, . . . , uQ tais que EUq = u ′ q p·q = 0 e 1 Q Q∑ q=1 Var uq = 1 Q Q∑ q=1 u′q ( ΣBq )−1 uq = 1 o que maximizem ∑ q,q′ cor ( Bquq , Bq′uq′ ) = ∑ q,q′ u′q B ′ q Bq′ uq′ . Como vemos, obtemos a mesma solução que antes. É claro que podemos, de maneira usual, obter outras variáveis canônicas. Observamos que a generalização de correlações canônicas acima é diferente das apresentadas por Kettering (1971). Uma dessas genera- lizações, também considerada por Horst (1965), usa a restrição Var uq = u′q ( ΣBq )−1 uq = 1, em vez da restrição 1 Q Σ Var uq = 1. No caso Q = 2, é fácil ver, que essas duas generalizações apresentam a mesma solução. 3.7 Generalização do escore de Fisher para ta- belas de contingência justapostas Vimos na seção 3(i) desse caṕıtulo, a equivalência entre o escore de Fisher e a análise de correspondência para uma tabela de contingência. Como pode ser visto na demonstração dessa equivalência, a única coisa que precisamos é de uma tabela numérica com entradas não negativas e marginais positivas. Consideremos então, a tabela obtida pela justaposição das tabelas de contingência A×B(q), q = 1, . . . , Q, como na seção 4(i). Procuramos então funções f e g definidas, respectivamente em {1, . . . , I} e {1, . . . , J1 + · · · + JQ}, g′ = (g′1, . . . , g′Q), gq assumindo “RAIZ” 2014/10/28 page 93 ✐ ✐ ✐ ✐ ✐ ✐ ✐ ✐ Cap.3 - Análise de Correspondência 93 Jq valores, tais que maximizam cor(f, g) = ∑ i,j f(i)g(j)pij = 1 Q Q∑ q=1 ∑ i Jq∑ j=1 f(i)gq(j)p (q) ij = = 1 Q Q∑ q=1 corq(f, gq), onde cor(f, g) é a “correlação definida pela tabela justaposta e corq(f, gq) é a correlação definida pela tabela A × B(q), f e g são normalizadas satisfazendo Ef = Eg = 0 e Var g = 1. Sabemos que a solução desse problema são f = uA e g = uB. Agora EuB = J1+···+JQ∑ j=1 p·j uB(j) = 1Q Q∑ q=1 Jq∑ j=1 p (q) ·j u B q (j) = 0. Se mostramos que JQ∑ j=1 p (q) ·j u B q (j) = 0. Jq∑ j=1 p (q) ·j u B q (j) = jQ∑ j=1 p (q) ·j 1√ λ1 I∑ i=1 pij p·j uA(i) = = 1√ λ1 I∑ i=1 Jq∑ j=1 p (q) ·j p (q) ij p (q) ·j uA(i) = 1√ λ1 I∑ i=1 p·j u A(i) = 0. Temos também Var g = g′ ( ΣB )−1 g = 1 Q Q∑ q=1 g′q ( ΣBq )−1 gq = 1 Q Var gq , onde Varq gq é a variância de gq definida pela tabela A×B(q). Logo com racioćınio análogo ao da seção anterior, vemos que esse problema é equivalente ao problema de procurar funções f, g1, . . . , gQ tais que maximizem Q∑ q=1 corq(f, gq) e sujeitas às restrições Ef = Eq gq = 0, q = 1, . . . , Q, Var f = 1 e 1 Q Q∑ q=1 Varq gq = 1.
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved