Baixe Redes Neurais 2a Edicao - Simon Haykin e outras Notas de estudo em PDF para Engenharia Civil, somente na Docsity! E AO IND mA SIN — REDES IRONIA Ppipefoles = emRtlce em Aa E TE —— H419r Haykin, Simon Redes neurais: princípios e prática / Simon Haykin; trad, Paulo Martins Engel. — 2.ed. — Porto Alegre : Bookman, 2001. ISBN 978-85-7307-718-6 |. Inteligência artificial — Redes neurais. 1. Título. CDU 007.52 Catalogação na publicação: Mônica Ballejo Canto — CRB 10/1023 Aos incontáveis pesquisadores da área de redes neurais pelas suas contribuições originais, aos vários revisores pelas suas contribuições críticas, aos meus numerosos estudantes de pós-graduação pelo seu interesse entusiasmado e à minha esposa, Nancy, pela sua paciência e tolerância. Prefácio As Redes Neurais, ou redes neurais artificiais para sermos mais precisos, representam uma tecnologia que tem raízes em muitas disciplinas: neurociência, matemática, estatística, física, ciência da com- putação e engenharia. As redes neurais encontram aplicações em campos tão diversos, como mode- lagem, análise de séries temporais, reconhecimento de padrões, processamento de sinais e controle, em virtude de uma importante propriedade: a habilidade de aprender a partir de dados de entrada com ou sem um professor. Este livro fornece uma fundamentação abrangente das redes neurais, reconhecendo a natureza multidisciplinar do tema, O material apresentado no livro é suplementado por exemplos, experi- mentos computacionais, problemas no final de cada capítulo e uma bibliografia. O livro consiste de quatro partes, organizadas como segue: 1. Material introdutório, consistindo dos Capítulos 1 e 2. O Capítulo 1 descreve, predominante- mente em termos qualitativos, o que são as redes neurais, as suas propriedades, composições e como elas se relacionam com a inteligência artificial. Este capítulo se encerra com algumas notas históricas. O Capítulo 2 fornece uma visão geral das muitas facetas do processo de apren- dizagem e das suas propriedades estatísticas. Este capítulo introduz um conceito importante: a dimensão de Vapnik-Chervonenkis (V-C) usada como uma medida da capacidade de uma famí- lia de funções de classificação realizadas por uma máquina de aprendizagem. 2. Máquinas de aprendizagem com um professor, consistindo dos capítulos 3 a 7. O capítulo 3 estuda a classe mais simples de redes neurais, nesta parte: as redes envolvendo um ou mais neurônios de saída mas nenhum neurônio oculto. Neste capítulo são descritos o algoritmo do mínimo quadrado médio (LMS, least-mean-square), bastante popular no projeto de filtros adaptativos, e o teorema de convergência do perceptron. O Capítulo 4 apresenta um tratamento exaustivo dos perceptrons de múltiplas camadas treinados com o algoritmo de retropropagação (back-propagation). Este algoritmo (que representa uma generalização do algoritmo LMS) emergiu como o “carro chefe” das redes neurais. O Capítulo 5 apresenta um tratamento mate- mático detalhado de uma outra classe de redes neurais em camadas: as redes de função de base Agradecimentos Sou profundamente grato aos vários revisores que ofereceram gratuitamente seu tempo para ler o livro, em parte ou no seu todo, Em particular, gostaria de expressar minha profunda gratidão ao Dr. Kenneth Rose, da University of California, Santa Barbara, pelas suas muitas contribuições constru- tivas e ajuda inestimável. Também sou grato ao Dr. S. Amari, RIKEN, Japão; Dr. Sue Becker, McMaster University; Dr. Ron Racine, McMaster University; Dr. Sean Holden, University College, Londres; Dr. Michael Turmon, JPL, Pasadena; Dr. Babak Hassibi, Stanford University; Dr. Paul Yee, anteriormente da McMaster University; Dr. Edgar Osuna, MIT; Dr. Bernard Schôlkopf, Max Planck Institute, Ale- manha; Dr. Michael Jordan, MIT; Dr. Radford Neal, University of Toronto; Dr. Zoubin Gharhamani, University of Toronto; Dr. Marc Van Hulle, Katholicke Universiteit Leuven, Bélgica; Dr. John Tsitsiklis, MIT; Dr. Jose Principe, University of Florida, Gainsville; Sr. Gint Puskorius, Laboratório de Pesquisa da Ford, Dearbom, Mich.; Dr. Lee Feldkamp, Laboratório de Pesquisa da Ford, Dearborn, Mich.; Dr. Lee Giles, NEC Research Institute, Princeton, NJ; Dr. Mikel Forcada, Universitat d' Alcant, Espanha; Dr. Eric Wan, Oregon Graduate Institue of Science and Technology; Dr. Yann LeCun, AT&T Research, NJ; Dr. Jean-Francois Cardoso, École Nationale, Paris; Dr. Anthony Bell, anteri- ormente do Salk Institute, San Diego; e Dr. Stefan Kremer, University of Guelph. Todos eles me ajudaram imensamente no aperfeiçoamento da apresentação do material em diferentes partes do livro. Eu também desejo agradecer ao Dr. Ralph Linsker, IBM, Watson Research Center, Dr. Yaser Abu-Mostafa, Cal Tech.; Dr. Stuart Geman, Brown University; Dr. Alan Gelford, University of Connecticut; Dr. Yoav Freund, AT&T Research; Dr. Bart Kosko, University of Southern California; Dr. Narish Sinha, McMaster University; Dr. Grace Wahba, University of Wiscounsin; Dr. Kostas Diamantaras, Aristotelian University of Thessaloniki, Grécia; Dr. Robert Jacobs, University of Rochester; Dr. Peter Dayan, MIT, Dr, Dimitris Bertsekas, MIT; Dr. Andrew Barto, University of Massachusetts; Dr. Don Hush, University of New Maxico; Dr. Yoshua Bengio, University of Mon- treal; Dr. Andrew Cichoki, RIKEN, Japão; Dr. H. Yang, Oregon Graduate Institute of Science and Technology; Dr. Scott Douglas, University of Utah; Dr. Pierre Comon, Thomson-Sintra Asm., França; Dr. Terrence Sejnowski, Salk Institute; Dr. Harris Drucker, Monmouth College; Dr. Nathan Intrator, ne XIl | AGRADECIMENTOS Tel Aviv University, Israel; Dr. Vladimir Vapnik, AT&T Research, NJ; Dr. Teuvo Kohonen, Helsinki University of Technology, Finlândia; Dr. Vladimir Cherkassky, University of Minnesota; Dr. Sebastian Seung, AT&T Research, NJ; Dr. Steve Luttrell, DERA, Great Malvem, Reino Unido; Dr. David Lowe, Aston University, Reino Unido; Dr. N. Ansari, New Jersey Institute of Technology; Dr. Danil Prokhorov, Ford Research Laboratory, Dearborn, Mich.; Dr. Shigero Katagiri, ATR Human Information Processing Research Lab, Japão; Dr. James Anderson, Brown University; Dr. Irwin Sandberg, University of Texas, Austin; Dr. Thomas Cover, Stanford University: Dr. Walter Freeman, University of California, Berkeley; Dr. Charles Micchelli, IBM Research, Yorktown Heights; Dr. Kari Torkkola, Motorola Phoenix Corp.; Dr. Andreas Andreou, Johns Hopkins University; Dr, Martin Beckerman, Oak Ridge National Laboratory; e Dr. Thomas Anastasio, University of Illinois, Urba- na. Fico profundamente grato ao meu estudante de pós-graduação Hugh Pasika por realizar mui- tos dos experimentos do livro com o MATLAB e por preparar o Web site para o livro. Agradeço a ajuda do meu estudante de pós-graduação Himesh Madhuranath, do Dr. Sadasivan Puthusserypady, do Dr. J. Nie, Dr. Paul Yee e do Sr. Gint Puskorius (Ford Research) na realização de cinco experi- mentos. Sou muito grato a Hugh Pasika por revisar o livro inteiro. Neste sentido, também agradeço o Dr. Robert Dony (University of Guelph), Dr. Stefan Kremer (University of Guelph) e o Dr. Sadasivan Puthusserypaddy por revisar capítulos selecionados do livro. Sou muito grato ao meu editor Tom Robbins e à editora Alice Dworkin por seu total suporte e encorajamento. Agradeço a Julie Hollist pela cópia cuidadosa para editoração a partir dos manus- critos. Gostaria de agradecer os esforços de Jennifer Maughan e o pessoal de WestWords Inc. em Logan, Utah, na produção do livro. Desejo registrar minha profunda gratidão a Brigitte Maier, Thode Library, McMaster University, pelo seu incansável esforço em procurar e encontrar as muitas referências difíceis que tornaram a bibliografia bastante completa. Agradeço muito a ajuda da Bibliotecária de Ciências e Engenharia Peggy Findlay e da Bibliotecária de Referência Regina Bendip. Por último mas não menos importante, gostaria de agradecer minha secretária Lola Brooks por digitar as várias versões diferentes do manuscrito. Sem a sua ajuda dedicada, a escrita deste livro e a sua produção teriam sido bem mais longas. ABREVIAÇÕES E SÍMBOLOS Xv RSN relação sinal-ruído RV razão de verossimilhança SCF separação cega de fonte (de sinal) SIMO única entrada — múltiplas saídas (single input — multiple output) SISO única entrada — única saída (single input — single output) SOM mapa auto-organizável (selforganizing map) TCM teoria do campo médio TDNN rede neural de atrasos de tempo (time-delay neural network) TLFN rede alimentada adiante atrasada no tempo (time lagged feedforward network) VC validação cruzada Vac Vapnik-Chervononkis (dimensão de) VCG validação cruzada generalizada VLSI integração em escala muito ampla (very-large-scale integration) XOR OU exclusivo (exclusive OR) SIMBOLOS IMPORTANTES a ação ab produto interno dos vetores ae b ab” produto externo dos vetores a e b ! ( a) coeficiente binomial AUB união de A e B B inverso da temperatura b, bias aplicado ao neurônio k cos(a,b) co-seno do ângulo entre os vetores ae b D profundidade de memória Dj divergência de Kullback-Leibler entre as funções de densidade de probabilidade fe g D adjunto do operador D E função de energia E, energia do estado i na mecânica estatística E operador estatístico da esperança matemática (E) energia média erf função erro erfe função erro complementar exp exponencial [A erro médio quadrado ou soma de erros quadrados E(n) valor instantâneo da soma de erros quadrados Cum soma total de erros quadrados E energia livre XVI ABREVIAÇÕES E SÍMBOLOS He) SF me H Hr! função de densidade de probabilidade do vetor aleatório X subconjunto (rede) com o menor risco empírico mínimo matriz hessiana inversa da matriz H raiz quadrada de —1, também representado por matriz identidade matriz de informação de Fisher erro médio quadrado matriz jacobiana matriz de covariância do erro na teoria do filtro de Kalman raiz quadrada da matriz K transposta da raiz quadrada da matriz K constante de Boltzmann logaritmo logaritmo da função de verossimilhança do vetor w logaritmo da função de verossimilhança do vetor w baseada em um único exemplo matriz de controlabilidade matriz de observabilidade tempo discreto probabilidade do estado i em mecânica estatística probabilidade de transição do estado i para o estado j matriz estocástica probabilidade de classificação correta probabilidade de erro probabilidade condicional de erro e dado que a entrada é retirada da classe € probabilidade que os neurônios visíveis de uma máquina de Boltzmann estejam no estado q, dado que a rede esteja na sua condição presa (i.e., fase positiva) probabilidade que os neurônios visíveis de uma máquina de Boltzmann estejam no estado at, dado que a rede esteja na sua condição livre (i.e., fase negativa) estimativa da função de autocorrelação de x(n) ex(n) estimativa da função de correlação cruzada de d(n) e x,(n) matriz de correlação de um vetor de entrada tempo contínuo temperatura conjunto de treinamento (amostra) traço de um operador matricial operador variância função de Lyapunov do vetor de estado x campo local induzido ou potencial de ativação do neurônio j valor ótimo do vetor de pesos sinápticos peso sináptico da sinapse j pertencente ao neurônio k vetor de peso ótimo valor de equilíbrio do vetor de estado x média do estado x, em um sentido “térmico” estimativa de x, representada por um circunflexo valor absoluto (magnitude) de x ABREVIAÇÕES E SÍMBOLOS complexo conjugado de x, representado por um asterisco norma euclidiana (comprimento) do vetor x transposto do vetor x, representado pelo índice 7 operador atraso unitário função de partição gradiente local do neurônio j no tempo n pequena variação aplicada ao peso 1 operador gradiente operador laplaciano gradiente de J em relação a w divergente do vetor F parâmetro da taxa de aprendizagem acumulador política limiar aplicado ao neurônio k (i.e., negativo do bias b,) parâmetro de regularização k-ésimo autovalor de uma matriz quadrada função de ativação não-linear do neurônio k símbolo para “pertence a” símbolo para “união de” símbolo para “interseção de” símbolo para convolução índice para simbolizar a pseudo-inversa de uma matriz Intervalos abertos e fechados e Ointervalo aberto (a,b) de uma variável x significa que a < x < D. O intervalo fechado [4,b] de uma variável x significa que a = x < b. O intervalo fechado de [a,b) de uma variável x significa que a <x< b; da mesma forma para o intervalo aberto (a,b]. Mínimos e M áximos xvii e Osímbolo arg min f(w) significa o mínimo da função f(w) em relação ao vetor do argu- mento w. e Osímbolo arg max f(w) significa o máximo da função f(w) em relação ao vetor do argu- mento w. xx | SUMÁRIO 2.10 Tarefas de Aprendizagem 91 211 Memória 100 2.12 Adaptação 108 2.13 Natureza Estatística do Processo de Aprendizagem 110 2.14 Teoria Estatística da Aprendizagem 114 2.15 Modelo de Aprendizagem Provavelmente Aproximadamente Correto 127 2.16 Resumoe Discussão 131 Notas e Referências 132 Problemas 137 3 Perceptrons de Camada Única 143 3.1 Introdução 143 3.2 O Problema da Filtragem Adaptativa 144 3.3 Técnicas de Otimização Irrestritas 147 3.4 Filtro Linear de Mínimos Quadrados 152 3.5 Algoritmo do Mínimo Quadrado Médio 155 3.6 Curvas de Aprendizagem 159 3.7 Estratégias de Variação da Taxa de Aprendizagem 161 3.8 OPerceptron 161 3.9 Teorema de Convergência do Perceptron 163 3.10 Relação entre o Perceptron e o Classificador Bayesiano para um Ambiente Gaussiano 169 3.11 Resumo e Discussão 175 Notas e Referências 176 Problemas 177 4 Perceptrons de Múltiplas Camadas 183 4.1 Introdução 183 4.2 Algumas Considerações Preliminares 186 4.3 Algoritmo de Retropropagação 188 4.4 Resumo do Algoritmo de Retropropagação 200 4.5 OProblemado XOR 202 4.6 Heurísticas para Melhorar o Desempenho do Algoritmo de Retropropagação 205 4.7 Representação da Saída e Regra de Decisão 211 4.8 Experimento Computacional 214 4.9 Detecção de Características 225 4.10 Retropropagação e Diferenciação 228 4.11 A Matriz Hessiana 230 4.12 Generalização 232 4.13 Aproximação de Funções 234 4.14 Validação Cruzada 239 4.15 Técnicas de Poda de Rede 244 4.16 Virtudes e Limitações da Aprendizagem por Retropropagação 252 4.17 Aceleração da Convergência da Aprendizagem por Retropropagação 259 Sumário XXI 4.18 Aprendizagem Supervisionada Vista como um Problema de Otimização 260 4.19 Redes Convolutivas 271 4.20 Resumoe Discussão 273 Notas e Referências 275 Problemas 278 5 Redes de Função de Base Radial 283 5.1 Introdução 283 5.2 O Teorema de Cover sobre a Separabilidade de Padrões 284 5.3 O Problema de Interpolação 290 5.4 A Aprendizagem Supervisionada como um Problema de Reconstrução de Hipersuperfície Malformulado 293 5.5 A Teoria da Regularização 294 5.6 Redes de Regularização 305 5.7 Redes de Função de Base Radial Generalizadas 307 5.8 O Problema do XOR (Revisitado) 311 5.9 Estimação do Parâmetro de Regularização 314 5.10 Propriedades Aproximativas das Redes RBF 320 5.11 Comparação entre Redes RBF e Perceptrons de Múltiplas Camadas 323 5.12 Regressão de Núcleo e sua Relação com as Redes RBF 323 5.13 Estratégias de Aprendizagem 328 5.14 Experimento Computacional: Classificação de Padrões 336 5.15 Resumo e Discussão 337 Notas e Referências 339 Problemas 343 6 Máquinas de Vetor de Suporte 349 6.1 Introdução 349 6.2 Hiperplano Ótimo para Padrões Linearmente Separáveis 350 6.3 Hiperplano Ótimo para Padrões Não-Separáveis 357 6.4 Como Construir uma Máquina de Vetor de Suporte para Reconhecimento de Padrões 361 6.5 Exemplo: O Problema do XOR (Revisitado) 367 6.6 Experimento Computacional 369 6.7 Função de Perda Insensívelae 372 6.8 Máquinas de Vetor de Suporte para Regressão Não-Linear 373 6.9 Resumoe Discussão 376 Notas e Referências 380 Problemas 381 7 Máquinas de Comitê 385 7.1 Introdução 385 7.2 Média de Ensemble 387 XXil | SUMÁRIO 7.3 Experimento Computacional I 390 7.4 Reforço 391 7.5 Experimento Computacional II 398 7.6 Modelo de Mistura Gaussiano Associativo 401 7.7 Modelo de Mistura Hierárquica de Especialistas 406 7.8 Seleção de Modelo Usando uma Árvore de Decisão Padrão 408 7.9 Probabilidades a Priorie a Posteriori 412 7.10 Estimação por Máxima Verossimilhança 413 711 Estratégias de Aprendizagem para o Modelo MHE 415 7.12 O Algoritmo ME 417 7.13 Aplicação do Algoritmo ME ao Modelo MHE 418 7.14 Resumoe Discussão 421 Notas e Referências 423 Problemas 425 8 Análise de Componentes Principais 429 8.1 Introdução 429 8.2 Alguns Princípios Intuitivos de Auto-Organização 430 8.3 Análise de Componentes Principais 433 8.4 Autofiltro Máximo Baseado na Aprendizagem Hebbiana 442 8.5 Análise de Componentes Principais Baseada na Aprendizagem Hebbiana 452 8.6 Experimento Computacional: Codificação de Imagem 458 8.7 Análise de Componentes Principais Adaptativa Usando Inibição Lateral 461 8.8 Duas Classes de Algoritmos de ACP 469 8.9 Métodos de Computação por Lote e Adaptativo 470 8.10 Análise de Componentes Principais por Núcleo 472 8.11 Resumoe Discussão 477 Notas e Referências 479 Problemas 480 9 Mapas Auto-Organizáveis 483 9.1 Introdução 483 9.2 Dois Modelos Básicos de Mapeamento de Características 484 9.3 O Mapa Auto-Organizável 486 9.4 Resumo do Algoritmo SOM 493 9.5 Propriedades do Mapa de Características 494 9.6 Simulações Computacionais 502 9.7 Quantização Vetorial por Aprendizagem 506 9.8 Experimento Computacional: Classificação Adaptativa de Padrões 508 9.9 Quantização Vetorial Hierárquica 510 9.10 Mapas Contextuais 514 9.11 Resumoe Discussão 516 Notas e Referências 517 Problemas 519 SUMÁRIO XXV 15 Redes Recorrentes Dirigidas Dinamicamente 787 15.1 Introdução 787 15.2 Arquiteturas de Redes Recorrentes 788 15.3 | O Modelo de Espaço de Estados 794 15.4 Modelo Auto-Regressivo Não-Linear com Entradas Exógenas 802 15.5 OQ Poder Computacional das Redes Recorrentes 804 15.6 Algoritmos de Aprendizagem 805 15.7 Retropropagação Através do Tempo 808 15.8 Aprendizagem Recorrente em Tempo Real 812 15.9 Filtros de Kalman 819 15.10 Filtro de Kalman Estendido Desacoplado 823 15.11 Experimento Computacional 828 15.12 Extinção de Gradientes em Redes Recorrentes 831 15.13 Identificação de Sistemas 834 15.14 Controle Adaptativo por Referência a Modelo 836 15.15 Resumo e Discussão 840 Notas e Referências 841 Problemas 843 Epilogo 849 Bibliografia 855 Índice 893 CAPÍTULO 1 Introdução 1.1 O QUE É UMA REDE NEURAL? O trabalho em redes neurais artificiais, usualmente denominadas “redes neurais”, tem sido motiva- do desde o começo pelo reconhecimento de que o cérebro humano processa informações de uma forma inteiramente diferente do computador digital convencional. O cérebro é um computador (sistema de processamento de informação) altamente complexo, não-linear e paralelo. Ele tem a capacidade de organizar seus constituintes estruturais, conhecidos por neurônios, de forma a reali- zar certos processamentos (p.ex., reconhecimento de padrões, percepção e controle motor) muito mais rapidamente que o mais rápido computador digital hoje existente, Considere, por exemplo, a visão humana, que é uma tarefa de processamento de informação (Marr, 1982; Levine, 1985; Churchland e Sejnowski, 1992). A função do sistema visual é fornecer uma representação do ambi- ente à nossa volta e, mais importante que isso, fornecer a informação de que necessitamos para interagir com o ambiente. Para sermos específicos, o cérebro realiza rotineiramente tarefas de reco- nhecimento perceptivo (p. ex., reconhecendo um rosto familiar inserido em uma cena não-familiar) em aproximadamente 100-200 ms, ao passo que tarefas de complexidade muito menor podem levar dias para serem executadas em um computador convencional, Como outro exemplo, considere o sonar de um morcego. O sonar é um sistema ativo de loca- lização por eco. Além de fornecer informações sobre a distância até um alvo (p. ex., um inseto voador), o sonar de um morcego transmite também informação sobre a velocidade relativa do alvo, o tamanho do alvo, o tamanho de várias características do alvo € o azimute e a elevação do alvo (Suga, 1990a, b). A complexa computação neural necessária para extrair toda essa informação do eco do alvo ocorre no interior de um cérebro do tamanho de uma ameixa. De fato, um morcego guiado por eco pode perseguir e capturar seu alvo com uma facilidade e taxa de sucesso que são de causar inveja a um engenheiro de radar ou sonar. Como, então, um cérebro humano ou o cérebro de um morcego faz isso? No momento do nascimento, um cérebro tem uma grande estrutura e a habilidade de desenvolver suas próprias re- gras através do que usualmente denominamos “experiência”. Na verdade, a experiência vai sendo 30 Renes NEURAIS se fizer um sistema, assegurando-se de que o sistema se mantenha estável, mais robusto tenderá a ser o seu desempenho quando o sistema for exigido a operar em um ambiente não-estacionário. Contudo, deve ser enfatizado, que adaptabilidade nem sempre resulta em robustez; na verdade pode resultar no contrário. Um sistema adaptativo com constantes de tempo pequenas, por exemplo, pode se modificar rapidamente e assim tender a responder a perturbações espúrias, causando uma drástica degradação no desempenho do sistema. Para aproveitar todos os benefícios da adaptabili- dade, as constantes de tempo principais do sistema devem ser grandes o suficiente para que o siste- ma ignore perturbações espúrias mas ainda assim serem suficientemente pequenas para responder a mudanças significativas no ambiente; o problema aqui descrito é referido como o dilema da estabi- lidade-plasticidade (Grossberg, 1988b). 4. Resposta a Evidências. No contexto de classificação de padrões, uma rede neural pode ser projetada para fornecer informação não somente sobre qual padrão particular selecionar, mas tam- bém sobre a confiança ou crença na decisão tomada. Esta última informação pode ser utilizada para rejeitar padrões ambíguos, caso eles estejam presentes, e com isso melhorar o desempenho de clas- sificação da rede. 5. Informação Contextual. O conhecimento é representado pela própria estrutura e estado de ativação de uma rede neural. Cada neurônio da rede é potencialmente afetado pela atividade de todos os outros neurônios na rede. Consegiientemente, a informação contextual é tratada natural- mente pela rede neural, 6. Tolerância à Falhas. Uma rede neural, implementada na forma física (em hardware), tem o potencial de ser inerentemente tolerante a falhas, ou capaz de realizar computação robusta, no sentido de que seu desempenho se degrada suavemente sob condições de operação adversas. Se um neurônio ou suas conexões são danificados, por exemplo, a recuperação de um padrão armazenado é prejudicada em qualidade. Contudo, devido à natureza distribuída da informação armazenada na rede, o dano deve ser extenso para que a resposta global da rede seja degradada seriamente. Assim, a princípio, uma rede neural exibe uma degradação suave do desempenho em vez de apresentar uma falha catastrófica. Há algumas evidências empíricas para a computação robusta, mas geralmente ela não é controlada. Para se assegurar que uma rede neural seja de fato tolerante a falhas pode ser necessário adotar-se medidas corretivas no projeto do algoritmo utilizado para treinar a rede (Kerlirzin e Vallet, 1993), 7. Implementação em VLSI. A natureza maciçamente paralela de uma rede neural a faz ser potencialmente rápida na computação de certas tarefas. Esta mesma característica torna uma rede neural adequada para implementação utilizando tecnologia de integração em escala muito ampla. Uma virtude benéfica particular da tecnologia VLSI (very-large-scale-integration) é que ela forne- ce um meio de capturar comportamentos realmente complexos de uma forma altamente hierárqui- ca (Mead, 1989). 8. Uniformidade de Análise e Projeto. Basicamente, as redes neurais desfrutam de universalida- de como processadores de informação. Dizemos isso no sentido de que a mesma notação é utilizada em todos os domínios envolvendo a aplicação de redes neurais. Esta característica se manifesta de diferentes modos: e Os neurônios, de uma forma ou de outra, representam um ingrediente comum a todas as redes neurais. e Esta uniformidade torna possível compartilhar teorias e algoritmos de aprendizagem em apli- cações diferentes de redes neurais. e Redes modulares podem ser construídas através de uma integração homogênea de módulos. Introbução 31 9. Analogia Neurobiológica. O projeto de uma rede neural é motivado pela analogia com o cére- bro, que é uma prova viva de que o processamento paralelo tolerante a falhas é não somente possível fisicamente mas também rápido e poderoso. Os neurobiólogos olham para as redes neurais (artifi- ciais) como uma ferramenta de pesquisa para a interpretação de fenômenos neurobiológicos. Por outro lado, os engenheiros olham para a neurobiologia procurando novas idéias para resolver pro- blemas mais complexos do que aqueles baseados em técnicas convencionais de projeto por cone- xões fixas. Estes dois pontos de vista são ilustrados respectivamente pelos dois exemplos a seguir: e Em Anastasio (1993), modelos de sistemas lincares do reflexo vestíbulo-ocular são compara- dos com modelos de redes neurais baseados em redes recorrentes, que são descritas na seção 1.6 e discutidas em detalhe no Capítulo 15. O reflexo vestíbulo-ocular (RVO) é parte do siste- ma oculomotor. A função do RVO é manter a estabilidade da imagem visual (j.e., retinal) fazendo rotações oculares opostas às rotações da cabeça. O RVO é mediado por neurônios pré-motores nos núcleos vestibulares que recebem e processam os sinais de rotação da cabeça advindos dos neurônios sensoriais vestibulares e enviam os resultados para os neurônios mo- tores do músculo ocular. O RVO é bem apropriado para modelagem porque a sua entrada (rotação da cabeça) e a sua saída (rotação ocular) podem ser especificadas precisamente. Ele é também um reflexo relativamente simples e as propriedades neurofisiológicas de seus neurônios constituintes se encontram bem descritas. Entre os três tipos neurais, os neurônios pré-moto- res (interneurônios de reflexo) nos núcleos vestibulares são os mais complexos e, portanto, os mais interessantes. O RVO foi modelado anteriormente utilizando descritores concentrados de sistemas lineares e a teoria de controle. Estes modelos foram úteis para explicar algumas das propriedades globais do RVO, mas forneciam pouco entendimento das propriedades dos seus neurônios constituintes. Esta situação melhorou substancialmente através da modelagem por rede neural. Modelos de redes recorrentes do RVO (programados utilizando um algoritmo chamado aprendizagem recursiva em tempo-real que é descrito no Capítulo 15) podem repro- duzir e ajudar a explicar muitos aspectos estáticos, dinâmicos, não-lineares e distribuídos do processamento de sinal pelos neurônios que medeiam o RVO, especialmente os neurônios dos núcleos vestibulares (Anastasio, 1993). e Na retina, mais que em qualquer outra parte do cérebro, é onde nós começamos a agregar as relações entre o mundo externo representado por um sentido visual, sua imagem física proje- tada em um arranjo de receptores e as primeiras imagens neurais. A retina é uma folha fina de tecido neural que reveste o hemisfério posterior do globo ocular. A tarefa da retina é converter uma imagem ótica em uma imagem neural para ser transmitida através do nervo ótico para uma quantidade de centros para análise posterior. Esta é uma tarefa complexa, como evidenci- ado pela organização sináptica da retina. Nas retinas de todos os vertebrados, a transformação da imagem ótica em imagem neural envolve três estágios (Sterling, 1990): (i) Transdução da energia luminosa por uma camada de neurônios receptores. (ii) Transmissão dos sinais resultantes (produzidos em resposta à luz) por sinapses químicas para uma camada de células bipolares. (iii) Transmissão desses sinais, também por sinapses químicas, para neurônios de saída que são chamados de células ganglionares. Em ambos os estágios sinápticos (i.e., das células receptoras para as células bipolares e das células bipolares para as ganglionares) há neurônios especializados conectados lateralmente chamados cé- lulas horizontais e células amácrinas, respectivamente. A tarefa desses neurônios é modificar a transmissão através das camadas sinápticas. Há também elementos centrífugos chamados de célu- 32 Reves NEURAIS las interplexiformes; sua tarefa é transmitir sinais da camada sináptica interna para a camada exter- na. Alguns poucos pesquisadores construíram circuitos eletrônicos que mimetizam a estrutura da retina (Mahowald e Mead, 1989; Boahen e Ardreou, 1992; Boahen, 1996). Estes circuitos eletrônicos são chamados de circuitos integrados neuromórficos, um termo cunhado por Mead (1989). Um sensor de imagem neuromórfico consiste de um arranjo de fotoreceptores combinados com circui- tos analógicos em cada elemento de imagem (pixel, picture element). Ele emula a retina na medida em que se adapta localmente a variações na luminância, detecta bordas e detecta o movimento. A analogia neurobiológica, exemplificada pelos circuitos integrados neuromórficos, é útil também de outro modo importante: ela fornece uma esperança e a crença, e de uma certa maneira a existência de prova, de que a compreensão física das estruturas neurobiológicas pode ter influência produtiva na arte da eletrônica e da tecnologia VLSI. Tendo em mente esta inspiração na neurobiologia, parece-nos apropriado examinarmos brevemente o cérebro humano e seus níveis estruturais de organização. 1.2 O CÉREBRO HUMANO O sistema nervoso humano pode ser visto como um sistema de três estágios, como mostrado no diagrama em blocos da Fig. 1.1 (Arbib, 1987). O centro do sistema é o cérebro, representado pela rede neural (nervosa), que recebe continuamente informação, percebe-a e toma decisões apropria- das. Dois conjuntos de setas são mostrados na figura. Aquelas que apontam da esquerda para a direita indicam a transmissão para frente do sinal portador de informação, através do sistema. As setas apontando da direita para a esquerda indicam a presença de realimentação no sistema. Os receptores convertem estímulos do corpo humano ou do ambiente externo em impulsos elétricos que transmitem informação para a rede neural (cérebro). Os atuadores convertem impulsos elétricos gerados pela rede neural em respostas discerníveis como saídas do sistema. t—m [| Rede Lo] Neural |. Estímulo —»| Receptores Atuadores ——>» Resposta FIGURA 1.1 Representação em diagrama em blocos do sistema nervoso O esforço para entender o cérebro sé tornou mais fácil pelo trabalho pioneiro de Ramón y Cajál (1911), que introduziu a idéia dos neurônios como constituintes estruturais do cérebro. Tipi- camente, os neurônios são de cinco a seis ordens de grandeza mais lentos que as portas lógicas em silício; os eventos em um circuito de silício acontecem na ordem de nanossegundos (10), enquan- to que eventos neurais acontecem na ordem de milissegundos (102s). Entretanto, o cérebro com- pensa a taxa de operação relativamente lenta de um neurônio pelo número realmente espantoso de neurônios (células nervosas), com conexões maciças entre si. Estima-se que haja aproximadamente 10 bilhões de neurônios no córtex humano e 60 trilhões de sinapses ou conexões (Shepherd e Koch, 1990). O resultado livre é que o cérebro é uma estrutura extremamente eficiente. Mais especifica- mente, a eficiência energética do cérebro é de aproximadamente 10º joules (J) por operação por segundo, enquanto que o valor correspondente para os melhores computadores em uso em nossos dias é de cerca de 10 joules por operação por segundo (Faggin, 1991). As sinapses são unidades estruturais e funcionais elementares que medeiam as interações entre os neurônios. O tipo mais comum de sinapse é a sinapse química, que opera da seguinte INnmovução 35 Sistema nervoso central À Circuitos inter-regionais À Circuitos locais E Neurônios Árvores dendritais E Microcircuitos neurais E Sinapses E FIGURA 1.3 Organização Moléculas estrutural dos níveis no cérebro Figura 1.4 apresenta um mapa citoarquitetural do córtex cerebral como apurado por Brodmann (Brodal, 1981). FIGURA 1.4 Mapa citoarquitectural do córtex cerebral, As diferentes áreas são identificadas pela espessura de suas camadas e tipos de células nelas contidas. Algumas das áreas específicas mais importantes são como segue. Córtex motor: banda motora, área 4; área pré-motora, área 6; campos oculares frontais, área 8. Córiex somestésico: áreas 3, 1, 2. Córtex visual: áreas 17, 18, 19. Córtex auditivo: áreas 41 e 42. (De A. Brodal, 1981; com permissão da Oxford University Press.) 36 RepEs NEURAIS Esta figura mostra claramente que diferentes entradas sensoriais (motora, somestésica, visual, audi- tiva, etc.) são mapeadas sobre áreas correspondentes do córtex cerebral de uma forma ordenada. No nível final de complexidade, os mapas topográficos e outros circuitos inter-regionais medeiam tipos específicos de comportamento no sistema nervoso central. É importante reconhecer que os níveis estruturais de organização descritos aqui são uma ca- racterística única do cérebro. Eles não são encontrados em lugar algum em um computador digital, e não estamos próximos de recriá-los com redes neurais artificiais. Apesar disso, estamos avançan- do gradualmente no caminho de uma hierarquia de níveis computacionais similar aquela descrita na Fig. 1.3. Os neurônios artificiais que utilizamos para construir nossas redes neurais são realmente primitivos em comparação com aqueles encontrados no cérebro. As redes neurais que atualmente podemos projetar são comparativamente tão primitivas quanto os circuitos locais e inter-regionais do cérebro. O que é realmente gratificante, contudo, é o progresso notável alcançado em várias frentes durante as últimas duas décadas, Com a analogia neurobiológica como fonte de inspiração e com a riqueza das ferramentas teóricas e tecnológicas que temos acumulado, estamos certos de que em mais uma década nossa compreensão das redes neurais artificiais será muito mais sofisticada do que ela o é atualmente. Nosso interesse primordial neste livro está limitado ao estudo das redes neurais artificiais de uma perspectiva de engenharia.? Começamos o estudo descrevendo os modelos de neurônios (arti- ficiais) que formam a base das redes neurais consideradas nos capítulos subsequentes do livro. 1.3 MODELOS DE UM NEURÔNIO Um neurônio é uma unidade de processamento de informação que é fundamental para a operação de uma rede neural. O diagrama em blocos da Fig. 1.5 mostra o modelo de um neurônio, que forma a base para o projeto de redes neurais (artificiais). Aqui nós identificamos três elementos básicos do modelo neuronal: Bias ã da by efa à é E VA, | o Função de lot fuja de? ativação e ao 1 Sinais de q Lg 4 + tap Saida entrada e % A inss Junção * aditiva | Amit nat Pesos FIGURA 1.5 Modelo não-linear de sinápticos um neurônio 1. Um conjunto de sinapses ou elos de conexão, cada uma caracterizada por um peso ou força própria. Especificamente, um sinal x, na entrada da sinapse j conectada ao neurônio k é multipli- cado pelo peso sináptico U Éi importante notar a maneira como são escritos os índices do peso sináptico w,. O primeiro índice se refere ao neurônio em questão e o segundo se refere ao terminal de entrada da sinapse à qual o peso se refere. Ao contrário de uma sinapse do cérebro, o peso sináptico de um neurônio artificial pode estar em um intervalo que inclui valores negati- vos bem como positivos. INnrovução 37 2. Um somador para somar os sinais de entrada, ponderados pelas respectivas sinapses do neurônio; as operações descritas aqui constituem um combinador linear. 3. Uma função de ativação para restringir a amplitude da saída de um neurônio. A função de ativação é também referida como função restritiva já que restringe (limita) o intervalo permis- sível de amplitude do sinal de saída a um valor finito. Tipicamente, o intervalo normalizado da amplitude da saída de um neurônio é escrito como o intervalo unitário fechado [0, 1] ou alternativamente [-1, 1]. O modelo neuronal da Fig. 1.5 incluí também um bias aplicado externamente, representado por b,. O bias b, tem o efeito de aumentar ou diminuir a entrada líquida da função de ativação, dependendo se ele é positivo ou negativo, respectivamente, Em termos matemáticos, podemos descrever um neurônio k escrevendo o seguinte par de equações: mm => Wx, (1.1) j=t e »= PM + D) (1.2) onde X,, X,, -..; X, São Os sinais de entrada; Wigo Mia aces Wi são os pesos sinápticos do neurônio k; u É é a saída do combinador linear devido aos sinais de entrada; b, é o bias; q (*) é a função de ativação; ey, sinal de saída do neurônio. O uso do bias b, tem o efeito de aplicar uma transformação afim à saída u, do combinador linear no modelo da Fig. 1.5, como mostrado por v=u,+b, (1.3) Em particular, dependendo se o bias b, é positivo ou negativo, a relação entre o campo local induzi- do ou potencial de ativação v, do neurônio k e a saída do combinador linear u, é modificada na forma ilustrada na Fig. 1.6; de agora em diante, o termo “campo local induzido” será usado. Note que como resultado desta transformação afim, o gráfico de v, em função de u, não passa mais pela origem. Campo local dep dr induzido, , - a t “11 ae A E A Saída do combinador linear, + FIGURA 1.6 Transformação afim produzida pela presença de um bias; note que v, = b, em u,=0. K 40 — Repes NEURAIS 2. Função Linear por Partes. Para a função linear por partes descrita na Fig.1.8b temos IJ, v2+1 (0)=40, +i>v>-i 9 nad, (1.11) 13 onde assume-se que o fator de amplificação dentro da região linear de operação é a unidade. Esta forma de função de ativação pode ser vista como uma aproximação de um amplificador não-linear. As duas situações seguintes podem ser vistas como formas especiais da função linear por partes: e Se a região linear de operação é mantida sem entrar em saturação, surge um combinador linear. e A função linear por partes se reduz à função de limiar, se o fator de amplificação da região linear é feito infinitamente grande. 3. Função Sigmóide. A função sigmóide, cujo gráfico tem a forma de s, é de longe a forma mais comum de função de ativação utilizada na construção de redes neurais artificiais. Ela é definida como uma função estritamente crescente que exibe um balanceamento adequado entre comporta- mento linear e não-linear,” Um exemplo de função sigmóide é a função logística,* definida por l in I+exp(-av) GL. 12a onde a é o parâmetro de inclinação da função sigmóide. Variando-se o parâmetro a, obtemos fun- ções sigmóides com diferentes inclinações, como ilustrado na Fig. 1.8c. Na verdade, a inclinação na origem é igual a a/4. No limite, quando o parâmetro de inclinação se aproxima do infinito, a função sigmóide se torna simplesmente uma função de limiar. Enquanto que a função de limiar assume o valor de O ou 1, uma função sigmóide assume um intervalo contínuo de valores entre O e 1. Note também que a função sigmóide é diferenciável, enquanto que a função de limiar não o é. (Diferenciabilidade é uma característica importante da teoria de redes neurais, como descrito no Capítulo 4.) As funções de ativação definidas nas Egs. (1.8), (1.11) e (1.12) se estendem de O a +1. Algu- mas vezes é desejável que a função de ativação se estenda de —1 a +1, assumindo neste caso uma forma anti-simétrica em relação à origem; isto é, a função de ativação é uma função ímpar do campo local induzido. Especificamente, a função de limiar da Eg. (1.8) é definida agora como 1 sev>0 q(v)=4 0 sev=0 (1.13) -l sev<0 a qual é normalmente denominada função sinal. Para a forma correspondente de uma função sigmóide, podemos utilizar a função tangente hiperbólica, definida por q (v) = tanh (v) (1.14) O fato de se permitir que uma função de ativação do tipo sigmóide assuma valores negativos como descrito pela Eq. (1.14) traz benefícios analíticos (como mostrado no Capítulo 4). Intropução 41 Modelo Estocástico de um Neurônio O modelo neuronal descrito na Fig. 1.7 é determinístico já que o seu comportamento de entrada- saída é definido precisamente para todas as entradas. Para algumas aplicações de redes neurais, é desejável que a análise seja baseada em um modelo neuronal estocástico. Em uma abordagem ana- liticamente tratável, é dada uma interpretação probabilística à função de ativação do modelo de McCulloch-Pitts. Mais especificamente, permite-se que um neurônio assuma apenas um de dois estados: +1 ou —1, por exemplo. A decisão para disparar um neurônio (i.e., mudar seu estado de “desligado” para “ligado”) é probabilística. Considere que x represente o estado do neurônio e Pfv) represente a probabilidade de disparar, onde v é o campo local induzido do neurônio. Nós podemos então escrever o +1 com probabilidade P(v) * 21.1 com probabilidade 1- P(v) Uma escolha padrão para P(v) é a função de forma sigmóide (Little, 1974): 1 O ERON) Eta) onde T é uma pseudotemperatura que é utilizada para controlar o nível de ruído e portanto a incer- teza de disparar. É importante perceber, entretanto, que T não é a temperatura física de uma rede neural, seja ela uma rede neural biológica ou artificial, Em vez disso, como já mencionado, nós devemos considerar T meramente como um parâmetro que controla as flutuações térmicas que representam os efeitos do ruído sináptico. Note que quando T > 0, o neurônio estocástico descrito pela Eg. (1.15) se reduz a uma forma sem ruído (i.e., determinística), que é o modelo de McCulloch- Pitts. 1.4 REDES NEURAIS VISTAS COMO GRAFOS ORIENTADOS O diagrama em blocos da Fig. 1.5 ou aquele da Fig. 1.7 fornece uma descrição funcional dos vários elementos que constituem o modelo de um neurônio artificial. Nós podemos simplificar a aparência do modelo utilizando a idéia de grafos de fluxo de sinal sem sacrificar quaisquer detalhes do mode- lo. Os grafos de fluxo de sinal juntamente com um conjunto bem-definido de regras foram desen- volvidos originalmente por Mason (1953, 1956) para redes lineares. A presença de não-linearidade no modelo de um neurônio limita o escopo de sua aplicação às redes neurais. Apesar disso, os grafos de fluxo de sinal fornecem um método elegante para retratar o fluxo dos sinais em uma rede neural, que é o nosso objetivo nesta seção. Um grafo de fluxo de sinal é uma rede de elos (raros) orientados que são interligados em certos pontos chamados nós. Um nó típico j tem um sinal nodal x, associado. Um elo orientado típico origina-se no nó j e termina no nó k; ele tem uma função de transferência ou transmitância associada que especifica a maneira pela qual o sinal y, no nó k depende do sinal x, no nó j. O fluxo de sinais nas diversas partes do grafo é ditado por três regras básicas: Regra 1. Um sinal flui ao longo de um elo somente no sentido definido pela seta do elo. Dois diferentes tipos de elos podem ser distinguidos: 42 RepEs NEURAIS e Elos sinápticos, cujo comportamento é governado por uma relação de entrada-saída linear. Especificamente, o sinal nodal x, é multiplicado pelo peso sináptico 1w,, para produzir O sinal nodal y,, como ilustrado na Fig. 1.9a. (a) 0a Lo O —-als sp pr b* (b) Faia E gta a (e) Y . a” Louro a E ea FIGURA 1.9 Ilustração das regras básicas para a construção de grafos de fluxo de sinal td) e Elos de ativação, cujo comportamento é governado em geral por uma relação de entrada-saída não-linear. Esta forma de relação é ilustrada na Fig. 1.9b, onde q(-) é a função de ativação não-linear. Regra 2. Um sinal nodal é igual à soma algébrica de todos os sinais que entram no nó pertinente via os elos incidentes. Esta segunda regra é ilustrada na Fig. 1.9c para o caso de convergência sináptica ou fan-in. Regra 3. O sinal em um nó é transmitido para cada elo de saída originário deste nó, sendo a trans- missão inteiramente independente das funções de transferência dos elos de saída. Esta terceira regra é ilustrada na Fig. 1.9d para o caso de divergência sináptica ou fan-out. Utilizando estas regras podemos construir, por exemplo, o grafo de fluxo de sinal da Fig. 1.10 como o modelo de um neurônio, correspondente ao diagrama em blocos da Fig. 1.7. A representa- ção mostrada na Fig. 1.10 é claramente mais simples em aparência que aquela da Fig. 1.7, apesar de conter todos os detalhes funcionais descritos naquele diagrama. Note que em ambas as figuras a entrada x, = +1 e o peso sináptico associado w,. = b,, onde b, é o bias aplicado ao neurônio k. De fato, com base no grafo de fluxo de sinal da Fig. 1.10 como o modelo de um neurônio, podemos agora oferecer a seguinte definição matemática de uma rede neural: Introbução 45 a ne Ee FIGURA 1.13 Grafo de fluxo de sinal de a eq a qo, o E E " a f a um filtro de resposta a impulso de duração | infinita (HA, infinite-duration impulse response), de primeira ordem à entrada em uma unidade de tempo. Podemos então expressar o operador de laço fechado do sistema como Ao I-AB 1-wz) =w(l-wz'y Utilizando a expansão binomial para (1 - w z'y!, podemos rescrever o operador de laço fechado do sistema como A [a =w3 w (1.19) 1=AB > é Assim, substituindo a Eg. (1.19) em (1.18), obtemos yu (m) = 105 00'2" [x (1)] (1.20) t=0 onde novamente incluímos os colchetes para enfatizar o fato de z! ser um operador. Em particular, da definição de z! temos 2 bin] =x (n =) (1.21) onde x(n — |) é uma amostra do sinal de entrada atrasada de | unidades de tempo. Consegiientemen- te, podemos expressar o sinal de saída y, (n) como uma soma ponderada infinita das amostras pre- sentes e passadas do sinal de entrada x (n), como mostrado por x M)= Suttx, (n=1) (1.22) I=0 Vemos claramente agora que o comportamento dinâmico do sistema é controlado pelo peso 20. Em particular, podemos distinguir dois casos específicos: 1. |ew]<1, para o qual o sinal de saída y (n) é exponencialmente convergente; isto é, o sistema é estável. Isto é ilustrado na Fig. 1.14a para um tw positivo. 2. |w>1,parao qual o sinal de saída y (n) é divergente; isto é, o sistema é instável. Se u|=1 a divergência é linear como na Fig. 1.14b, e se Jw|> 1 a divergência é exponencial como na Fig. 1.14c. A estabilidade tem papel de destaque no estudo de sistemas realimentados. O caso de [w| < 1 corresponde a um sistema com memória infinita no sentido de a saída do sistema depender das amostras da entrada que se estendem sobre o passado infinito. Além disso, a memória é esvaecente já que a influência de uma amostra passada se reduz exponencialmente com o tempo n. A análise do comportamento dinâmico das redes neurais envolvendo a aplicação de realimen- tação infelizmente é complicada pelo fato de as unidades de processamento utilizadas para cons- 46 RepEs NEURAIS ni tra. a ú = FP. à as É SA 4% a E ud (a) “ e or +." * | nene R = smisaá ; = (ES noso 4 rod (b) É ma Vai » R w + FIGURA 1.14 Resposta temporal tes E ' da Fig. 1.13 para três valores dife- É rentes de pesos wem um caminho para frente. (a) Estável. (b) Diver- gência linear. (c) Divergência feminino ja dE ri: A ly E a A L exponencial (e) truir a rede serem geralmente não-lineares. Outras considerações adicionais sobre este assunto serão tratadas mais adiante neste livro. 1.6 ARQUITETURAS DE REDE A maneira pela qual os neurônios de uma rede neural estão estruturados está intimamente ligada com o algoritmo de aprendizagem usado para treinar a rede. Podemos, portanto, falar de algoritmos (regras) de aprendizagem utilizados no projeto de redes neurais como sendo estruturados. A classi- ficação de algoritmos de aprendizagem é considerada no próximo capítulo, e o desenvolvimento de diferentes algoritmos de aprendizagem é tratado nos capítulos subsequentes do livro. Nesta seção, focalizamos nossa atenção nas arquiteturas (estruturas) de rede. Em geral, podemos identificar três classes de arquiteturas de rede fundamentalmente diferentes: 1. Redes Alimentadas Adiante com Camada Única Em uma rede neural em camadas, os neurônios estão organizados na forma de camadas. Na forma mais simples de uma rede em camadas, temos uma camada de entrada de nós de fonte que se projeta sobre uma camada de saída de neurônios (nós computacionais), mas não vice-versa. Em outras palavras, esta rede é estritamente do tipo alimentada adiante ou acíclica. Ela é ilustrada na Introbução 47 Fig. 1.15 para o caso de quatro nós tanto na camada de entrada como na de saída. Esta rede é chamada de rede de camada única, sendo que a designação “camada única” se refere à camada de saída de nós computacionais (neurônios). Não contamos a camada de entrada de nós de fonte, porque lá não é realizada qualquer computação. FIGURA 1.15 Rede alimentada Camada de entrada de Camada de saída adiante ou acíclica com uma neurônios de fonte de neurônios única camada de neurônios 2. Redes Alimentadas Diretamente com Múltiplas Camadas A segunda classe de uma rede neural alimentada adiante se distingue pela presença de uma ou mais camadas ocultas, cujos nós computacionais são chamados correspondentemente de neurônios ocultos ou unidades ocultas. A função dos neurônios ocultos é intervir entre a entrada externa e a saída da rede de uma maneira útil. Adicionando-se uma ou mais camadas ocultas, tornamos a rede capaz de extrair estatísticas de ordem elevada. Em um sentido bastante livre, a rede adquire uma perspectiva global apesar de sua conectividade local, devido ao conjunto extra de conexões sinápticas e da dimensão extra de interações neurais (Churchland e Sejnowski, 1992). À habilidade de os neurônios ocultos extraírem estatísticas de ordem elevada é particularmente valiosa quando o tamanho da camada de entrada é grande. Os nós de fonte da camada de entrada da rede fornecem os respectivos elementos do padrão de ativação (vetor de entrada), que constituem os sinais de entrada aplicados aos neurônios (nós computacionais) na segunda camada (j.e., a primeira camada oculta). Os sinais de saída da segunda camada são utilizados como entradas para a terceira camada, e assim por diante para o resto da rede. Tipicamente, os neurônios em cada camada da rede têm como suas entradas apenas os sinais de saída da camada precedente. O conjunto de sinais de saída dos neurônios da camada de saída (final) da rede constitui a resposta global da rede para o padrão de ativação fornecido pelos nós de fonte da camada de entrada (primeira). O grafo arquitetural na Fig. 1.16 ilustra a planta de uma rede neural de múltiplas camadas alimentada adiante para o caso de uma única camada oculta. Por concisão, a rede na Fig. 1.16 é referida como uma rede 10-4-2 porque ela tem 10 neurônios de fonte, 4 neurônios ocultos e 2 neurônios de saída. Como um outro exemplo, uma rede alimentada adiante com m nós de fonte, h, neurônios na primeira camada oculta, A, neurônios na segunda camada oculta e q neurônios na camada de saída é referida como uma rede m-h -h,-q. A rede neural da Fig. 1.16 é dita totalmente conectada, no sentido de que cada um dos nós de uma camada da rede está conectado a todos os nós da camada adjacente seguinte. Entretanto, se alguns dos elos de comunicação (conexões sinápticas) estiverem faltando na rede, dizemos que a rede é parcialmente conectada. 50 Renes Neurais a atingir os objetivos especificados da aplicação de interesse, O conhecimento do mundo consiste de dois tipos de informação: 1. O estado conhecido do mundo, representado pelos fatos sobre o que é e o que era conhecido; esta forma de conhecimento é chamada de informação prévia. 2. As observações (medidas) do mundo, obtidas por meio de sensores projetados para sondar o ambiente no qual a rede neural deve operar. Normalmente, estas observações são inerentemente ruidosas, sendo sujeitas a erros devido a ruído do sensor e imperfeições do sistema. De qualquer maneira, as observações que são assim obtidas fornecem o conjunto de informações de onde são retirados os exemplos utilizados para treinar a rede neural. Os exemplos podem ser rotulados ou não-rotulados. Nos exemplos rotulados, cada exemplo que representa um sinal de entrada é associado a uma resposta desejada correspondente (i.e., saída- alvo). Por outro lado, os exemplos não-rotulados consistem de ocorrências diferentes dos próprios sinais de entrada. De qualquer maneira, um conjunto de exemplos, rotulados ou não, representa o conhecimento acerca do ambiente de interesse que uma rede neural pode aprender através de treina- mento. Um conjunto de pares de entrada-saída, com cada par consistindo de um sinal de entrada e a resposta desejada correspondente, é referido como um conjunto de dados de treinamento ou amos- tra de treinamento. Para ilustrar como este conjunto de dados pode ser utilizado, considere, por exemplo, o problema do reconhecimento de um dígito manuscrito. Neste problema, o sinal de entra- da consiste de uma imagem com pixels (elementos da imagem) pretos ou brancos, com cada ima- gem representando um dos 10 dígitos que estão bem separados do fundo. A resposta desejada é definida pela “identidade” do dígito particular cuja imagem é apresentada para a rede como o sinal de entrada. Tipicamente, a amostra de treinamento consiste de uma grande variedade de dígitos manuscritos que são representativos de uma situação do mundo real. Dado este conjunto de exem- plos, o projeto de uma rede neural pode prosseguir como segue: e Primeiro, uma arquitetura apropriada é selecionada para a rede neural, com uma camada de entrada consistindo de nós de fonte iguais em número aos pixels de uma imagem de entrada, e uma camada de saída consistindo de 10 neurônios (um para cada dígito). Um subconjunto de exemplos é então utilizado para treinar a rede por meio de um algoritmo apropriado. Esta fase do projeto da rede é chamada de aprendizagem. e Segundo, o desempenho de reconhecimento da rede treinada é testado com dados não apre- sentados anteriormente. Especificamente, uma imagem de entrada é apresentada para a rede, mas desta vez não lhe é fornecida a identidade do dígito que corresponde a esta imagem particular. O desempenho da rede é então estimado comparando-se o reconhecimento do dígi- to fornecido pela rede com a real identidade do dígito em questão. Esta segunda fase da opera- ção da rede é chamada generalização, um termo emprestado da psicologia. Aqui se encontra uma diferença fundamental entre o projeto de uma rede neural e o de sua contrapartida, o processamento de informação clássico (classificação de padrões). Neste último caso, normalmente procedemos primeiramente formulando um modelo matemático das observa- ções do ambiente, validando o modelo com dados reais, e então estruturando o projeto com base neste modelo. O projeto de uma rede neural, ao contrário, é baseado diretamente nos dados do mundo real, permitindo-se que o conjunto de dados fale por si mesmo. Assim, a rede neural não somente fornece o modelo implícito do ambiente no qual ela está inserida, como também realiza a função de processamento de informação de interesse. Inmrobução 51 Os exemplos utilizados para treinar uma rede neural podem consistir tanto de exemplos posi- tivos como de exemplos negativos. Em um problema de detecção passiva de sonar, por exemplo, os exemplos positivos são relativos aos dados de treinamento de entrada que contêm o alvo de interes- se (ex., um submarino). Agora, em um ambiente de sonar passivo, sabe-se que a presença eventual de vida marinha nos dados de teste causa alarmes falsos ocasionais. Para atenuar este problema, exemplos negativos (p.ex., ecos da vida marinha) são incluídos nos dados de treinamento para ensinar a rede a não confundir a vida marinha com o alvo. Em uma rede neural com uma arquitetura específica, a representação do conhecimento do meio ambiente é definida pelos valores assumidos pelos parâmetros livres (i.e., pesos sinápticos e bias) da rede. A forma dessa representação de conhecimento constitui o verdadeiro projeto da rede neural, e portanto é a chave para o seu desempenho, Entretanto, o tema da representação do conhecimento no interior de uma rede artificial é mui- to complicado, Apesar disso, existem quatro regras para a representação do conhecimento que são de senso comum (Anderson, 1988). Regra 1. Entradas similares de classes similares normalmente devem produzir representações si- milares no interior da rede, e portanto devem ser classificadas como pertencentes à mesma catego- ria. Há uma profusão de medidas para determinar a “similaridade” entre entradas. Uma medida de similaridade usada frequentemente é baseada no conceito de distância euclidiana. Para sermos es- pecíficos, considere que x, represente um vetor m-por-1 pa T K= [XX] cujos elementos são todos números reais; o índice superior T indica a transposição matricial. O vetor x, define um ponto em um espaço de dimensão m chamado espaço euclidiano e representado por R”. A distância euclidiana entre um par de vetores m por 1, x,e X, é definida por d(x, x;)= x, — 2] e u2 s po db | kal onde x, € x, são os k-ésimos elementos dos vetores de entrada x, e x, respectivamente. Correspondentemente, a similaridade entre as entradas representadas pelos vetores x, e x,é definida como o recíproco da distância euclidiana d(x,, x). Quanto mais próximo entre si estiverem os ele- mentos individuais dos vetores de entrada x, e X, menor será a distância euclidiana d(x, X), e portanto maior será a similaridade entre os vetores x, e X, A regra 1 afirma que se os vetores x, x, são similares, eles devem ser atribuídos à mesma categoria (classe). Uma outra medida de similaridade é baseada na idéia de um produto escalar ou produto inter- no que também é tomada emprestada da álgebra matricial. Dado um par de vetores x, e X, de mesma dimensão, o seu produto interno é X%, que na forma expandida é escrito como segue: (1.23) Fr (x, X,))=X,X; j (1.24) = + ki k=l 52 Reves NEURAIS O produto interno (x, x.) dividido por |x|| |x]| é o co-seno do ângulo subentendido entre os vetores x, x, As duas medidas de similaridade definidas aqui estão na verdade intimamente relacionadas entre si, como ilustrado na Fig. 1.19. A distância euclidiana ||x, — x.]| entre os vetores x, e x, está relacionada com a “projeção” do vetor x, sobre o vetor x, A Figura 1.19 mostra claramente que, quanto menor a distância euclidiana ||x, — x e portanto quanto mais similares forem os vetores x, e X, maior será o produto interno x, o A “+ m oa ” tl “ e g FIGURA 1.19 Ilustração da HE relação entre o produto * interno e a distância Eno É - semp euclidiana como medidas de " o! “. similaridade entre padrões ala, Para formalizarmos esta relação, primeiro normalizamos os vetores x, e x, para terem compri- mento unitário, ou seja, dl = Igll= 1 Podemos então utilizar a Eg. (1.23) para escrever E (x,x,) == (x, [= x) (x, =X 1.25 =2- 2x; x, ( ) A Equação (1.25) mostra que a minimização da distância euclidiana d(x, x) corresponde à maximização do produto interno (x, x) e, portanto, da similaridade entre os vetores x, e x. A distância euclidiana e o produto interno descritos aqui são definidos em termos determinísticos. O que acontece quando os vetores x, e x, são retirados de duas populações (fontes) de dados diferentes? Para sermos específicos, suponha que a diferença entre essas duas populações esteja somente nos seus vetores médios. Considere que |, e |, representem os valores médios dos vetores x, e X, respectivamente. Isto é, L=Elx] (1.26) onde E é o operador estatístico esperado. O vetor médio q, é definido de forma similar. Como uma medida de distância entres essas duas populações, podemos utilizar a distância de Mahalanobis, representada por d,. O quadrado do valor dessa distância de x, para x, é definido por (Duda e Hart, 1973): di=(x,-uJL'(x,-4;) (1.27) onde E"! é a inversa da matriz de covariância E. Assume-se que à matriz de covariância é a mesma para ambas as populações, como mostrado por Inrovução 55 5 sã ; 4 ' onde (W,b constitui o mesmo conjunto de pesos compartilhado por todos os quatro neurônios ocultos, e x, é o sinal captado do nó de fonte k = i + j — 1. A Equação (1.29) está na forma de uma soma convolutiva. É por este motivo que uma rede alimentada adiante utilizando conexões locais é pesos compartilhados da forma aqui descrita é conhecida como rede convolutiva. A questão de incorporar informação prévia no projeto de uma rede neural é uma parte da Regra 4; a parte restante da regra envolve a questão das invariâncias. Como Incorporar Invariâncias no Projeto de uma Rede Neural Considere os seguintes fenômenos físicos: e Quando um objeto de interesse sofre rotação, o modo como a imagem do objeto é percebida por um observador normalmente muda de forma correspondente. e Em um radar coerente que fornece informação tanto de amplitude como de fase sobre o seu meio ambiente, o eco vindo de um alvo móvel é deslocado em fregiiência pelo efeito Doppler que surge devido ao movimento radial do alvo em relação ao radar. e A locução de uma pessoa pode ser feita em uma voz alta ou baixa, e de maneira lenta ou rápida. Para construir um sistema de reconhecimento de objetos, um sistema de reconhecimento de alvos de radar e um sistema de reconhecimento de voz que possa lidar com estes fenômenos, respectiva- mente, o sistema deve ser capaz de lidar com uma série de transformações do sinal observado (Barnard e Casasent, 1991). Consegiientemente, um requisito fundamental para o reconhecimento de padrões é projetar um classificador que seja invariante a tais transformações. Em outras pala- vras, uma estimativa de classe representada por uma saída do classificador não deve ser afetada pelas transformações do sinal observado aplicado à entrada do classificador, Existem pelo menos três técnicas para implementar uma rede neural do tipo classificador invariante a transformações (Barnard e Casasent, 1991): 1. Invariância por Estrutura. A invariância pode ser imposta à rede neural estruturando apro- priadamente o seu projeto. Mais especificamente, as conexões sinápticas entre os neurônios da rede são criadas de forma que versões transformadas da mesma entrada sejam forçadas a produzir a mesma saída. Considere, por exemplo, a classificação de uma imagem por uma rede neural com a exigência de ela ser independente a rotações no plano da imagem, em torno do seu centro. Podemos impor invariância rotacional na estrutura da rede da seguinte forma. Seja 1, O peso sináptico do neurônio j conectado ao pixel i da imagem de entrada. Se forçarmos a condição ww, =w, para todos os pixels í e k que se encontrem a distâncias iguais do centro da imagem, então a rede neural será invariante a rotações no plano. Entretanto, para que seja mantida a invariância rotacional, o peso sináptico VU, deve ser duplicado para todo pixel da imagem de entrada à mesma distância radial da origem. Isto causa uma desvantagem da invariância por estrutura: o número de conexões sinápticas da rede neural se torna proibitivamente grande mesmo para imagens de tamanho moderado. 2. Invariância por Treinamento. Uma rede neural tem uma habilidade natural para classificar padrões. Esta habilidade pode ser explorada diretamente para obter invariância a transformações da forma descrita a seguir. A rede é treinada apresentando-se um número de exemplos diferentes do mesmo objeto, sendo os exemplos escolhidos para corresponder a diferentes transformações (i.e., vistas de aspectos diferentes) do objeto. Desde que o número de exemplos seja suficientemente 56 Repes NEURAIS grande e que a rede seja treinada para aprender a discriminar as vistas de aspectos diferentes do objeto, podemos então esperar que a rede generalize corretamente para outras transformações que não as apresentadas durante o treinamento. Entretanto, por uma perspectiva de engenharia, a invariância por treinamento tem duas desvantagens. Primeiro, quando a rede neural foi treinada para reconhecer um objeto de maneira invariante em relação a transformações conhecidas, não é óbvio que este treinamento também capacitará a rede a reconhecer outros objetos de classes dife- rentes, de maneira igualmente invariante. Segundo, o esforço computacional imposto à rede pode ser demasiadamente severo para se lidar, especialmente se a dimensionalidade do espaço de carac- terísticas for elevada. 3. Espaço de Características Invariantes. A terceira técnica de criar uma rede neural invariante do tipo classificador está ilustrada na Fig. 1,21, o . — — : Extrator de Rede neural dal Estimati FIGURA 1.21 Diagrama em blocos Enipiad es orar SAD UÍPO a É a va de um sistema do tipo espaço de invariante assiicador e classe características invariantes tm mm! Ela se baseia na premissa de que pode ser possível se extrair características que caracterizem o conteúdo essencial da informação de um conjunto de dados de entrada e que sejam invariantes a transformações das entradas. Se tais características forem utilizadas, então a rede como um classi- ficador é aliviada do fardo de ter que delinear o intervalo de transformações de um objeto com fronteiras de decisão complicadas. Na verdade, as únicas diferenças que podem aparecer entre exem- plos diferentes do mesmo objeto devem-se a fatores inevitáveis como ruído e oclusão. A utilização de um espaço de características invariantes oferece três vantagens distintas. Primeiro, o número de características aplicadas à rede pode ser reduzido a níveis realistas. Segundo, as exigências impos- tas ao projeto da rede são relaxadas. Terceiro, é assegurada a invariância para todos os objetos em relação a transformações conhecidas (Barnard e Casasent, 1991). Entretanto, para que ela funcio- ne, esta abordagem requer conhecimento prévio do problema, Concluindo, o uso de um espaço de características invariantes, como aqui descrito, pode pro- porcionar uma técnica muito adequada para classificadores neurais. Para ilustrar a idéia de um espaço de características invariantes, considere o exemplo de um sistema de radar coerente utilizado para vigilância aérea, onde os alvos de interesse incluem aerona- ves, sistemas meteorológicos, bandos de pássaros migratórios e objetos terrestres, Os ecos de radar destes alvos possuem diferentes características espectrais. Além disso, estudos experimentais mos- traram que estes sinais de radar podem ser modelados bastante ficlmente como um processo auto- regressivo (AR) de ordem moderada (Haykin e Deng, 1991). Um modelo AR é uma forma especial de modelo regressivo definido para dados de valores complexos como x(n)= Salar eço (1.30) t=1 onde as falo, são os coeficientes AR, M é a ordem do modelo, x(n) é a entrada e e(n) É o erro descrito como ruído branco. Basicamente, o modelo AR da Eg. (1.30) é representado por um filtro de linha de atraso com derivação como ilustrado na Fig. 1.22a para M = 2. De forma equivalente, ele pode ser representado por um filtro de grade (lattice filter), como mostrado na Fig. 1.22b, cujos coeficientes são chamados de coeficientes de reflexão. Existe uma correspondência de um para um entre os coeficientes AR do modelo da Fig. 1.22a e os coeficientes de reflexão do modelo da Fig. 1.22b. Os dois modelos representados assumem que a entrada x(n) tem um valor complexo, como Inrovução 57 LO ur ' O SÉ] =o- + = — = EA Es 1 pa DE ça ic 7 ars a * — - - oi qm: dh (a) Ra É . a — .=—— Ta To ema uni tai A a E A E es 4 a dE o Lai É —.. de - = os el NE o * ES sia 7 Es r pe L nt i ea E m = X Fm —— & de O mt — mm ais * ar FIGURA 1.22 Modelo auto-regressivo de ordem 2: (a) modelo de linha de atraso com derivação; (b) modelo de filtro de grade (lattice filtem. (O asterisco representa conjugação complexa.) no caso de um radar coerente, no qual os coeficientes AR e os coeficientes de reflexão são todos valores complexos. O asterisco na Eg. (1.30) e na Fig. 1.22 significa a conjugação complexa. Por enquanto, é suficiente se dizer que os dados do radar coerente podem ser descritos por um conjunto de coeficientes auto-regressivos, ou por um conjunto correspondente de coeficientes de reflexão. Este último conjunto de coeficientes terá uma vantagem computacional, pois existem algoritmos eficientes para o seu cálculo diretamente a partir dos dados de entrada. Entretanto, o problema da extração de características é complicado pelo fato de que objetos em movimento produzem frequências Doppler variáveis que dependem de suas velocidades radiais, medidas em relação ao radar, e que tendem a obscurecer o conteúdo espectral dos coeficientes de reflexão, usados como discriminadores de características. Para superar esta dificuldade, devemos incluir a invariância Doppler no cálculo dos coeficientes de reflexão. O ângulo de fase do primeiro coeficiente de refle- xão vem a ser igual à frequência Doppler do sinal de radar. Consegiientemente, aplica-se a norma- tização da freqiiência Doppler a todos os coeficientes de modo a remover o deslocamento Doppler médio. Isto é feito definindo-se um novo conjunto de coeficientes de reflexão [x' ) relacionados com o conjunto de coeficientes de reflexão ordinários [x, ) calculados a partir dos dados de entrada como mostrado a seguir: K= Ke? para m=1,2.., M (1.31) onde 6 é o ângulo de fase do primeiro coeficiente de reflexão. A operação descrita pela Eq. (1.31) é chamada de heteródina. Um conjunto de características de radar invariantes a Doppler é então 60 | RepEs NEURAIS , a, RA ! a id mais É 4 FIGURA 1.24 Ilustração dos & no É três componentes principais de E Raciótimo um sistema de IA ic qe “Conhecimento”, como é utilizado pelos pesquisadores de IA, é apenas mais um termo para dados. Ele pode ser do tipo declarativo ou procedimental. Em uma representação declarativa, o conhecimento é representado como uma coleção estática de fatos, com um pequeno conjunto de procedimentos gerais utilizados para manipular os fatos. Uma característica particular das repre- sentações declarativas é que elas parecem possuir um significado próprio, do ponto de vista do usuário humano, independente do seu uso dentro do sistema de IA. Em uma representação procedimental, por outro lado, o conhecimento está incorporado em um código executável que representa o significado do conhecimento. Ambas as formas de conhecimento, declarativo e procedimental, são necessárias na maioria dos domínios de problemas de interesse. 2. Raciocínio. Na sua forma mais básica, raciocínio é a habilidade de resolver problemas. Para um sistema ser qualificado como um sistema de raciocínio, ele deve satisfazer certas condições (Fischler e Firschein, 1987): e O sistema deve ser capaz de expressar e resolver uma vasta gama de problemas e tipos de problemas. e O sistema deve ser capaz de tornar conhecidas para ele tanto a informação explícita como a informação implícita. e O sistema deve ter um mecanismo de controle que determine quais operações devem ser apli- cadas para um problema particular, quando uma solução para este problema foi obtida, ou quando deve ser encerrado o tratamento deste problema. A resolução de problemas pode ser vista como um problema de busca. Uma maneira comum de lidar com a “busca” é utilizar regras, dados e controle (Nilsson, 1980). As regras operam sobre os dados, e o controle opera sobre as regras. Considere, por exemplo, o “problema do caixeiro viajan- te”, no qual o objetivo é encontrar o roteiro mais curto que vá de uma cidade para outra, com todas as cidades no roteiro sendo visitadas somente uma vez. Neste problema, os dados são constituídos pelo conjunto dos roteiros possíveis e pelos seus custos em um grafo ponderado, as regras definem as maneiras de prosseguir de uma cidade para outra, e o controle decide quais regras devem ser aplicadas e quando aplicá-las. Em muitas situações encontradas na prática (p. ex., no diagnóstico médico), o conhecimen- to disponível é incompleto ou inexato. Em tais situações, são utilizados procedimentos de racioci- nio probabilístico, permitindo deste modo que sistemas de IA lidem com incertezas (Russell e Norvig, 1995; Pearl, 1988). 3. Aprendizagem. No modelo simples de aprendizagem de máquina representado na Fig. 1.25,0 ambiente fornece alguma informação para um elemento de aprendizagem. Inrobução 61 Elemento de Base de Elemento de Ambiente aprendizagem” "conhecimento" desempenho des FIGURA 1.25 Modelo simples de aprendizagem de máquina O elemento de aprendizagem utiliza, então, esta informação para aperfeiçoar a base de conheci- mento, e finalmente o elemento de desempenho utiliza a base de conhecimento para executar a sua tarefa. Normalmente, a informação que o ambiente fornece para a máquina é imperfeita, resultando que o elemento de desempenho não sabe previamente como preencher os detalhes ausentes ou ignorar os detalhes que não são importantes. Portanto, a máquina opera inicialmente por suposição e depois recebe realimentação do elemento de desempenho. O mecanismo de realimentação permi- te que a máquina avalie suas hipóteses e as revise, se necessário. A aprendizagem de máquina envolve dois tipos bastante diferentes de processamento de infor- mação: o indutivo e o dedutivo. No processamento de informação indutivo, padrões gerais e regras são determinados a partir dos dados brutos e da experiência. Por outro lado, no processamento de informação dedutivo são utilizadas regras gerais para determinar fatos específicos. A aprendizagem baseada em similaridade utiliza indução, enquanto que a prova de um teorema é uma dedução baseada em axiomas conhecidos e em outros teoremas existentes. À aprendizagem baseada em explanação utiliza tanto indução como dedução. A importância das bases de conhecimento e as dificuldades experimentadas com a aprendiza- gem levaram ao desenvolvimento de vários métodos para aperfeiçoar as bases de conhecimento. Especificamente, se existirem especialistas em uma dada área, é normalmente mais fácil obter a experiência compilada dos especialistas do que tentar duplicar os experimentos que os levaram a adquirir esta experiência, Esta é a idéia por trás dos sistemas especialistas. Agora que nos familiarizamos com as máquinas da IA simbólica, como nós as compararíamos com as redes neurais como modelos cognitivos? Para esta comparação, seguimos três subdivisões: o nível de explanação, o estilo de processamento e a estrutura representativa (Memmi, 1989). 1. Nível de Explanação. Na IA clássica, é dada ênfase à construção de representações simbóli- cas, que são presumivelmente assim chamadas porque representam algo. Do ponto de vista da cognição, a IA assume a existência de representações mentais e ela modela a cognição como o processamento segiiencial de representações simbólicas (Newell e Simon, 1972). Por outro lado, nas redes neurais a ênfase está no desenvolvimento de modelos de processamento paralelamente distribuído (PDP, Parallel Distributed Processing). Estes modelos assumem que o processamento de informação acontece através da interação de um grande número de neurônios, onde cada neurônio envia sinais excitadores e inibitórios para outros neurônios da rede (Rumelhart e McClelland, 1986). Além disso, as redes neurais dão grande ênfase à explanação biológica dos fenômenos cognitivos. 2. Estilo de Processamento. Na IA clássica, o processamento é segiiencial, como na programa- ção de computadores típica. Mesmo quando não há uma ordenação predeterminada (listando-se os fatos e as regras de um sistema especialista, por exemplo), as operações são executadas passo a passo. O mais provável é que a inspiração para o processamento segiiencial tenha vindo da natureza sequencial da linguagem natural e da inferência lógica, bem como da estrutura da máquina de von 62 Repes NEURAIS Neumann. Não devemos esquecer que a IA clássica surgiu pouco depois da máquina de von Neumann, durante a mesma era intelectual. O paralelismo, ao contrário, não é somente um conceito essencial ao processamento de infor- mação em redes neurais, mas é também a fonte de sua flexibilidade. Além disso, o paralelismo pode ser maciço (centenas de milhares de neurônios), o que dá às redes neurais uma forma notável de robustez. Como a computação está distribuída sobre muitos neurônios, normalmente não importa muito se os estados de alguns neurônios da rede se desviarem de seus valores esperados. Entradas ruidosas ou incompletas podem ainda ser reconhecidas, uma rede danificada pode ainda ser capaz de funcionar satisfatoriamente, e a aprendizagem não precisa ser perfeita. O desempenho da rede se degrada suavemente dentro de um certo limite. A rede pode se tornar ainda mais robusta através da “codificação grosseira” (Hinton, 1981), pela qual cada característica é espalhada sobre vários neurônios. 3. Estrutura Representativa. Considerando que perseguimos uma linguagem do pensamento como um modelo para a IA clássica, constatamos que as representações simbólicas possuem uma estrutu- ra quase lingiiística. As expressões da IA clássica, assim como as expressões da linguagem natural, são geralmente complexas, construídas de uma forma sistemática a partir de símbolos simples. Dado um repertório limitado de símbolos, novas expressões significativas podem ser compostas em virtude da capacidade de composição das expressões simbólicas e da analogia entre a estrutura sintática e a semântica. A natureza e estrutura das representações é, contudo, um problema crucial para as redes neurais. Na edição especial de março de 1988 da revista Cognition, Fodor e Pylyshyn fazem críticas vigoro- sas sobre a adequação das redes neurais em lidar com cognição e lingiística. Eles argumentam que as redes neurais estão do lado errado em duas questões básicas da cognição: a natureza das repre- sentações meniais e a natureza dos processos mentais. De acordo com Fodor e Pylyshyn, pode-se afirmar para as teorias da IA clássica, mas não para as redes neurais, que: e As representações mentais exibem de forma característica uma estrutura constituinte combinatória e semântica combinatória. e (Os processos mentais são caracteristicamente sensíveis à estrutura combinatória das represen- tações sobre as quais operam. Em resumo, podemos descrever a IA simbólica como a manipulação formal de uma linguagem de algoritmos e representações de dados em uma forma de cima para baixo (top-down). Por outro lado, podemos descrever as redes neurais como processadores distribuídos paralelamente com uma habi- lidade natural para aprender e que normalmente operam de uma forma de baixo para cima (bottom- up). Portanto, torna-se evidente que, para a implementação de tarefas cognitivas, melhor que procu- rar soluções baseadas em IA simbólica ou em redes neurais isoladamente, uma abordagem potenci- almente mais vantajosa seria construir modelos conexionistas estruturados ou sistemas híbridos que integrem ambas as abordagens. Fazendo isso, somos capazes de combinar as características desejáveis de adaptabilidade, robustez e uniformidade oferecidas pelas redes neurais com a repre- sentação, inferência e universalidade, que são características inerentes da IA simbólica (Feldman, 1992; Waltz, 1997). De fato, foi com este objetivo em mente, que foram desenvolvidos vários méto- dos para extração de regras a partir de redes neurais treinadas. Além do entendimento de como as abordagens simbólica e conexionista podem ser integradas para construir máquinas inteligentes, há várias outras razões para a extração de regras de redes neurais (Andrews e Diederich, 1996): INnmrovução 65 Von Neumann foi uma das grandes figuras da ciência na primeira metade do século vinte. A arquitetura de von Neumann, básica para o projeto de um computador digital, é assim denominada em sua homenagem. Em 1955, foi convidado pela Universidade de Yale para proferir as Palestras Silliman durante 1956. Ele morreu em 1957, e o manuscrito inacabado das Palestras Silliman foi publicado mais tarde como um livro, The Computer and the Brain (1958). Este livro é interessante porque sugere o que von Neumann teria feito se tivesse vivido; ele teria se dado conta das diferenças profundas entre cérebros e computadores. Uma questão particularmente interessante no contexto das redes neurais é aquela do projeto de uma rede confiável com neurônios que podem ser vistos como componentes não-confiáveis. Este problema importante foi resolvido por von Neumann (1956) utilizando a idéia de redundância, o que motivou Winograd e Cowan (1963) a sugerir a utilização de uma representação redundante distribuída para as redes neurais. Winograd e Cowan mostraram como um número grande de ele- mentos pode coletivamente representar um conceito individual, com o aumento correspondente em robustez e paralelismo. Cerca de 15 anos após a publicação do clássico artigo de McCulloch e Pitts, uma nova aborda- gem para o problema de reconhecimento de padrões foi introduzida por Rosenblatt (1958) em seu trabalho sobre o perceptron, um método inovador de aprendizagem supervisionada. O coroamento do trabalho de Rosenblatt foi o chamado teorema da convergência do perceptron, cuja primeira demonstração foi delineada por Rosenblatt (1960b); outras provas do teorema também apareceram em Novikoff (1963) e outros. Em 1960, Widrow e Hoff introduziram o algoritmo do mínimo qua- drado médio (LMS, Least Mean-Square) e o usaram para formular o Adaline (adaptive linear element, elemento linear adaptativo). A diferença entre o perceptron e o Adaline está no procedimento de aprendizagem. Uma das primeiras redes neurais em camadas treináveis com múltiplos elementos adaptativos foi a estrutura Madaline (multiple-adaline) proposta por Widrow e seus estudantes (Widrow, 1962). Em 1967, Amari utilizou o método do gradiente estocástico para classificação adaptativa de padrões. Em 1965, foi publicado o livro de Nilsson, Learning Machines que ainda é a exposição mais bem escrita sobre padrões linearmente separáveis por hipersuperfícies. Durante o período clássico do perceptron nos anos 1960, parecia que as redes neurais poderiam realizar qual- quer coisa. Mas então veio o livro de Minsky e Papert (1969), que utilizaram a matemática para demonstrar que existem limites fundamentais para aquilo que os perceptrons de camada única po- dem calcular. Em uma breve seção sobre perceptrons de múltiplas camadas, eles afirmavam que não havia razão para supor que qualquer uma das limitações do perceptron de camada única poderia ser superada na versão de múltiplas camadas. Um problema importante encontrado no projeto de um perceptron de múltiplas camadas é o problema de atribuição de crédito (i.e., o problema de atribuir crédito a neurônios ocultos da rede). A terminologia “atribuição de crédito” foi utilizada primeiro por Minsky (1961), sob o título de “O Problema de Atribuição de Crédito para Sistemas de Aprendizagem por Reforço”. No final dos anos 1960, já havia sido formulada a maioria das idéias e conceitos necessários para resolver o problema de atribuição de crédito do perceptron, bem como muitas das idéias que fundamentam as redes (neurais de atratores) recorrentes que são agora denominadas redes de Hopfield. Entretanto, tive- mos que esperar até os anos 80 para que emergissem as soluções para esses problemas básicos. De acordo com Cowan (1990) houve três razões para este atraso de mais de 10 anos: e Uma razão foi tecnológica — não havia computadores pessoais ou estações de trabalho para a experimentação. Quando Gabor, por exemplo, desenvolveu o seu filtro não-linear de aprendi- zagem, seu grupo de pesquisadores levou mais seis anos para construir o filtro com dispositi- vos analógicos (Gabor, 1954; Gabor et al., 1960). 66 | RepEs NEURAIS e A outra razão foi em parte psicológica e em parte financeira. A monografia de 1969 de Minsky e Papert certamente não encorajou ninguém a trabalhar com perceptrons, tampouco as agências a apoiar trabalhos sobre eles. e A analogia entre redes neurais e spins de grade foi prematura. O modelo do vidro de spins de Sherrington e Kirkpatrick foi inventado somente em 1975. Estes fatores contribuíram de um modo ou de outro para o esmorecimento do interesse continuado em redes neurais nos anos 70. Muitos pesquisadores, com exceção daqueles que trabalhavam em psicologia e em neurociências, abandonaram a área durante aquela década. De fato, somente um punhado dos pioneiros originais mantiveram seu comprometimento com as redes neurais. De uma perspectiva de engenharia, podemos considerar os anos 70 como uma década de adormecimento para as redes neurais. Uma atividade importante que emergiu nos anos 70 foram os mapas auto-organizáveis utili- zando aprendizagem competitiva. O trabalho em simulação computacional feito por von der Malsburg (1973) talvez tenha sido o primeiro a demonstrar a auto-organização. Em 1976, Willshaw e von der Malsburg publicaram o primeiro artigo sobre a formação de mapas auto-organizáveis, motivados pelos mapas ordenados de forma topológica do cérebro. Nos anos 80, foram feitas importantes contribuições em várias frentes à teoria e ao projeto de redes neurais, e com isso houve um ressurgimento do interesse pelas redes neurais. Grossberg (1980), baseando-se no seu trabalho anterior sobre aprendizagem competitiva (Grossberg, 1972, 1976a, b), estabeleceu um novo princípio de auto-organização conhecido como teoria da ressonância adaptativa (ART, Adaptive Resonance Theory). Basicamente, a teoria envol- ve uma camada de reconhecimento de baixo para cima (bottom-up) e uma camada generativa de cima para baixo (top-down). Se o padrão de entrada e o padrão realimentado aprendido coincidi- rem, então ocorre um estado dinâmico chamado de “ressonância adaptativa” (i.e., amplificação e prolongamento da atividade neural). Este princípio de projeções para frenteipara trás foi redescoberto por outros pesquisadores sob diferentes aspectos. Em 1982, Hopfield utilizou a idéia de uma função de energia para formular um novo modo de se entender a computação executada por redes recorrentes com conexões sinápticas simétricas. Além disso, ele estabeleceu o isomorfismo entre uma rede recorrente assim definida e o modelo Esing utilizado na física estatística. Esta analogia desencadeou um grande interesse da física teórica (e dos físicos) pela modelagem neural, transformando com isso a área de redes neurais. Esta classe particular de redes neurais com realimentação atraiu muita atenção nos anos 1980, e no decorrer do tempo tornou-se conhecida como redes de Hopjield. Apesar de as rede de Hopfield não serem modelos realísticos dos sistemas neurobiológicos, o princípio que elas incorporam, isto é, O armazenamento de informação em redes dinamicamente estáveis, é profundo. A origem deste prin- cípio remonta ao trabalho pioneiro de muitos outros investigadores: e Cragg e Tamperley (1954, 1955) observaram que assim como os neurônios podem ser “dispa- rados” (ativados) ou “não disparados” (quiescentes), também os átomos em uma rede têm seus spins apontando “para cima” ou “para baixo”. e Cowan (1967) introduziu a característica de disparo “sigmóide” e a condição de disparo suave para um neurônio que era baseada na função logística. e Grossberg (1967, 1968) introduziu o modelo aditivo de um neurônio, envolvendo equações não-lincares de diferenças/diferenciais e explorou o uso do modelo como uma base para a memória de curto prazo. INnrobução 67 e Amari (1972) introduziu, de forma independente, o modelo aditivo de um neurônio e o utili- zou para estudar o comportamento dinâmico de elementos semelhantes a neurônios conectados aleatoriamente. e Wilson e Cowan (1972) derivaram equações diferenciais não-lineares acopladas correspon- dentes à dinâmica de populações localizadas no espaço, contendo neurônios tanto excitadores como inibitórios. e Little e Shaw (1975) descreveram um modelo probabilístico de um neurônio, quer disparando ou não um potencial de ação, e usaram o modelo para desenvolver uma teoria da memória de curto prazo. e Anderson, Silverstein, Ritz e Jones (1977) propuseram o modelo do estado cerebral em uma caixa (brain-state-in-a-box, BSB), consistindo de uma rede associativa simples acoplada a uma dinâmica não-linear. Não causa surpresa, portanto, que a publicação do artigo de Hopfield em 1982 tenha gerado tanta controvérsia. Apesar disso, foi neste mesmo artigo que pela primeira vez o princípio do armazenamento de informação em redes dinamicamente estáveis foi explicitado. Além disso, Hopfield mostrou que ele havia se baseado no modelo do vidro de spins da mecânica estatística para exami- nar o caso especial das redes recorrentes com conexões simétricas, garantindo com isso a sua con- vergência para uma condição estável. Em 1983, Cohen e Grossberg estabeleceram um princípio geral para estimar a estabilidade de uma memória endereçável por conteúdo, que inclui a versão de tempo contínuo da rede de Hopfield como um caso especial. Uma característica distintiva de uma rede neural de atratores é o modo natural como o tempo, uma dimensão essencial para a aprendiza- gem, se manifesta na dinâmica não-linear da rede. Neste contexto, o teorema de Cohen-Grossberg é de profunda importância. Um outro desenvolvimento importante em 1982 foi a publicação do artigo de Kohonen sobre os mapas auto-organizáveis (Kohonen, 1982), utilizando uma estrutura de rede unidimensional ou bidimensional, que era em alguns aspectos diferente do trabalho anterior de Willshaw e von der Malsburg. O modelo de Kohonen recebeu muito mais atenção em um contexto analítico e em rela- ção às aplicações na literatura que o modelo de Willshaw-von der Malsburg, e tornou-se uma refe- rência para a avaliação de outras inovações neste campo. Em 1983, Kirkpatrick, Gelatt e Vecchi descreveram um novo procedimento denominado recozimento simulado, para resolver problemas de otimização combinatória. O recozimento simu- lado tem suas raízes na mecânica quântica. Ele é baseada em uma técnica simples que foi primeira- mente utilizada em simulações computacionais por Metropolis et al. (1953). A idéia do recozimento simulado foi utilizada mais tarde por Ackley, Hinton e Sejnowski (1985) no desenvolvimento de uma máquina estocástica conhecida como a máquina de Boltzmann, que foi a primeira realização bem-sucedida de uma rede neural de múltiplas camadas. Apesar de o algoritmo de aprendizagem da máquina de Boltzmann não ter se mostrado tão eficiente do ponto de vista computacional como o algoritmo de retropropagação (Back-propagation), ele superou o impasse psicológico, mostrando que a especulação de Minsky e Papert (1969) não estava corretamente embasada. A máquina de Boltzmann também serviu de base para o desenvolvimento subsequente das redes de crença sigmóide de Neal (1992), que conseguiu realizar duas coisas: (1) a melhoria significativa da aprendizagem e (2) a ligação das redes neurais às redes de crença (Pearl, 1988). Uma melhoria adicional no desem- penho das redes de crença sigmóide foi realizada por Saul, Jakkolla e Jordan (1996) utilizando a teoria do campo médio, uma técnica também com raízes na mecânica estatística. Um artigo de Barto, Sutton e Anderson sobre aprendizagem por reforço foi publicado em 1983. Apesar de eles não terem sido os primeiros a utilizar aprendizagem por reforço (Minsky a 70 Renes NEURAIS 5. 7. PROBLEMAS e Schwartz (1991), Shepherd (1990a, b), Koch e Segev (1989), Kuffler et al. (1984) e Freeman (1975). Para um relato minucioso das funções sigmóides e questões relacionadas, veja Menon et al. (1996). A função logística, ou mais precisamente a função de distribuição logística, deriva seu nome de uma “lei de crescimento logístico” transcendental que resultou em uma imensa literatura. Se medidos em unidades apropriadas, todos os processos de crescimento são supostamente representados pela função distribuição logística 1 ERd= Irest onde t representa o tempo, e ote À) são constantes. Entretanto, verificou-se que não somen- te a distribuição logística mas também a gaussiana e outras distribuições podem ser aplica- das aos mesmos dados com os mesmos resultados de ajuste ou até melhores (Feller, 1968). De acordo com Kuffler et al. (1984), o termo “campo receptivo” foi cunhado originalmen- te por Sherrington (1906) e introduzido novamente por Hartline (1940). No contexto de um sistema visual, o campo receptivo de um neurônio se refere à área restrita sobre a superfície retinal, que influencia as descargas daquele neurônio causadas pela luz. Aparentemente, a técnica de compartilhamento de pesos foi originalmente descrita em Rumelhart et al. (1986b). As notas históricas apresentadas aqui são enormemente (mas não exclusivamente) basea- das nas seguintes fontes: (1) o artigo de Saarinen et al. (1992): (2) o capítulo escrito por Rall (1990): (3) o artigo de Widrow e Lehr (1990); (4) os artigos de Cowan (1990) e Cowan e Sharp (1988); (5) o artigo de Grossberg (1988c): (6) o livro em dois volumes sobre computação neural (Anderson et al., 1990; Anderson e Rosenfeld, 1988): (7) o capí- tulo escrito por Selfridge et al. (1988); (8) a coleção de artigos de von Neumann sobre computação e teoria da computação (Aspray e Burks, 1986); (9) o manual sobre a teoria do cérebro e redes neurais editado por Arbib (1995); (10) o Capítulo 1 do livro de Russel e Norvig (1995); e (11) o artigo de Taylor (1997). Modelos de um neurônio 1.1 1.2 Um exemplo de função logística é definida por 1 pin) = 1+exp(-av) cujos valores limites são O e 1. Mostre que a derivada de q (v) em relação a v é dada por GR. : e ap(v)[1-q(v)] Qual é o valor desta derivada na origem? Uma função sigmóide ímpar é definida por - lI-exp(-av) I+exp(-av) cm q(v) 1.3 1.4 1.5 1.6 1.7 1.8 Introbução 71 onde tanh representa a tangente hiperbólica. Os valores limites desta segunda função sigmóide são —1 e +1. Mostre que a derivada de q (v) em relação a v é dada por dy “q 2 ES =. ão — 21 $(0)] Qual é o valor desta derivada na origem? Suponha que o parâmetro de inclinação a seja infinitamente grande. Qual é a forma resultante de q (1) ? Uma outra função sigmóide ímpar é a sigmóide algébrica: q()=—— vl+o? cujos valores limites são —1 e +1. Mostre que a derivada de q (v) em relação a v é dada por do PU) dv vu Qual é o valor desta derivada na origem? Considere as duas seguintes funções: o 2 o o)=-5=) exo(-5 as (ii) q(v)= Zan (v) Explique por que estas duas funções satisfazem os requisitos de uma função sigmóide. De que modo estas duas funções diferem entre si? Qual das cinco funções sigmóides descritas nos Problemas 1,1 a 1.4 seria qualificada como uma função distribuição (de probabilidade) cumulativa? Justifique a sua resposta, Considere a função de ativação pseudolinear q (v) mostrada na Fig. P1.6. E» v 1 -05a 4 0,5 FIGURA P1.6 (a) Formule q (v) como uma função de v. (b) O que acontece com q (v) se a aproximar-se de zero? Repita o Problema 1.6 para a função de ativação pseudolinear q (v) mostrada na Fig. P1.7. Um neurônio tem uma função de ativação q (v) definida pela função logística do problema 1.1, onde v é o campo local induzido, e o parâmetro de inclinação a está disponível para ajustes. Considere que x,, X,, ..., X,. Tepresentem os sinais de entrada aplicados aos nós de fonte do neurônio e que b represente o bias. Por conveniência de representação, podemos fazer com que o parâmetro de inclinação a seja absorvido pelo campo local induzido v, escrevendo 72 Repes NEURAIS 1.9 1.10 1,11 FIGURA Pi,7 Como você modificaria as entradas x, X,»., X, de forma a produzir a mesma saída de antes? Justifique a sua resposta. Um neurônio j recebe entradas de quatro outros neurônios cujos níveis de ativação são 10, -20,4e -2. Os respectivos pesos sinápticos do neurônio j são 0,8, 0,2, -1,0 e 0,9. Calcule a saída do neurônio j para as duas seguintes situações: (a) O neurônio é linear. (b) O neurônio é representado por um modelo de McCulloch-Pitts. Assuma que o bias aplicado ao neurônio é zero, Repita o Problema 1,9 para um modelo de neurônio baseado na função logística 1 quo= I+exp(-v) (a) Mostre que o modelo formal de McCulloch-Pitts de um neurônio pode ser aproxima- do por um neurônio sigmóide (1.e., um neurônio que utiliza uma função de ativação sigmóide) com pesos sinápticos grandes, (b) Mostre que um neurônio linear pode ser aproximado por um neurônio sigmóide com pesos sinápticos pequenos. Arquiteturas de rede 1.12 1,13 1.14 1.15 1.16 1.17 Uma rede alimentada adiante totalmente conectada tem 10 nós de fonte, 2 camadas ocul- tas, uma com 4 neurônios e a outra com 3 neurônios e um único neurônio de saída. Cons- trua um grafo arquitetural desta rede, (a) A Figura P1.13 mostra um grafo de fluxo de sinal de uma rede 2-2-2-1 alimentada adiante. A função q(:) representa uma função logística. Escreva o mapeamento de entrada-saída definido por esta rede, (b) Suponha que o neurônio de saída do grafo de fluxo de sinal da Fig. P1.13 opere na sua região linear. Escreva o mapeamento de entrada-saída definido por esta nova rede, A rede descrita na Fig. P1.13 não tem bias. Suponha que bias iguais a —1 e +1 sejam aplicados aos neurônios superior e inferior da primeira camada oculta, e bias iguais a +l e —2 sejam aplicados aos neurônios superior e inferior da segunda camada oculta, respecti- vamente. Escreva a nova forma do mapeamento de entrada-saída definido pela rede. Considere uma rede de múltiplas camadas alimentada adiante, na qual todos os neurônios operam nas suas regiões lineares. Justifique a afirmação de que esta rede é equivalente a uma rede alimentada adiante de camada única. Construa uma rede totalmente recorrente com 5 neurônios, mas sem auto-realimentação. A Figura P1.17 mostra um grafo de fluxo de sinal de uma rede recorrente constituída de dois neurônios. Escreva a equação de diferenças não-linear que define a evolução de x (n) CAPÍTULO 2 Processos de Aprendizagem 2.1 INTRODUÇÃO A propriedade que é de importância primordial para uma rede neural é a sua habilidade de aprender a partir de seu ambiente e de melhorar o seu desempenho através da aprendizagem. A melhoria do desempenho ocorre com o tempo de acordo com alguma medida preestabelecida. Uma rede neural aprende acerca do seu ambiente através de um processo interativo de ajustes aplicados a seus pesos sinápticos e níveis de bias. Idealmente, a rede se torna mais instruída sobre o seu ambiente após cada iteração do processo de aprendizagem. Há atividades demais associadas à noção de “aprendizagem” para justificar a sua definição de forma precisa. Além disso, o processo de aprendizagem depende do ponto de vista, o que causa dificuldades em se obter um consenso sobre uma definição precisa do termo. A aprendizagem do ponto de vista de um psicólogo, por exemplo, é bastante diferente da aprendizagem em um sentido de sala de aula. Reconhecendo que o nosso interesse particular se concentra nas redes neurais, utilizamos uma definição de aprendizagem que é adaptada de Mendel e McClaren (1970). Definimos aprendizagem no contexto de redes neurais como: Aprendizagem é um processo pelo qual os parâmetros livres de uma rede neural são adaptados através de um processo de estimulação pelo ambiente no qual a rede está inserida. O tipo de aprendizagem é determinado pela maneira pela qual a modificação dos parâmetros ocorre. Esta definição do processo de aprendizagem implica a seguinte segliência de eventos: 1. A rede neural é estimulada por um ambiente. 2. Arede neural sofre modificações nos seus parâmetros livres como resultado desta estimulação, 3. Arede neural responde de uma maneira nova ao ambiente, devido às modificações ocorridas na sua estrutura interna. 76 RepEs NEURAIS Um conjunto preestabelecido de regras bem-definidas para a solução de um problema de apren- dizagem é denominado um algoritmo de aprendizagem! Como se pode esperar, não há um algoritmo de aprendizagem único para o projeto de redes neurais. Em vez disso, temos um “conjunto de ferramentas” representado por uma variedade de algoritmos de aprendizagem, cada qual oferecen- do vantagens específicas. Basicamente, os algoritmos de aprendizagem diferem entre si pela forma como é formulado o ajuste de um peso sináptico de um neurônio. Um outro fator a ser considerado é a maneira pela qual uma rede neural (máquina de aprendizagem), constituída de um conjunto de neurônios interligados, se relaciona com o seu ambiente. Neste último contexto, falamos de um paradigma de aprendizagem que se refere a um modelo do ambiente no qual a rede neural opera. Organização do Capítulo O capítulo está organizado em quatro partes inter-relacionadas. Na primeira parte, que consiste das Seções 2.2 a 2.6, discutimos cinco regras básicas de aprendizagem: aprendizagem por correção de erro, aprendizagem baseada em memória, aprendizagem hebbiana, aprendizagem competitiva e aprendizagem de Boltzmann. A aprendizagem por correção de erro está fundamentada na filtragem ótima. A aprendizagem baseada em memória opera memorizando explicitamente os dados de trei- namento. Tanto a aprendizagem hebbiana como a aprendizagem competitiva são inspiradas em considerações neurobiológicas. A aprendizagem de Boltzmann é diferente porque é baseada em idéias tomadas emprestadas da mecânica estatística. A segunda parte do capítulo explora os paradigmas de aprendizagem. A Seção 2.7 discute o problema de atribuição de crédito, que é básico para o processo de aprendizagem. As Seções 2.8 e 2.9 apresentam um resumo de dois paradigmas de aprendizagem: (1) a aprendizagem com um pro- fessor e (2) a aprendizagem sem um professor. A terceira parte do capítulo, que consiste das Seções 2.10 a 2.12, examina as questões relativas às tarefas de aprendizagem, memória e adaptação. A parte final do capítulo, que consiste das Seções 2.13 a 2.15, trata dos aspectos probabilísticos e estatísticos do processo de aprendizagem. A Seção 2.13 discute o dilema bias/variância. A seção 2.14 discute a teoria estatística da aprendizagem, baseada na noção da dimensão V-C que fornece uma medida da capacidade da máquina. A Seção 2.14 introduz um outro conceito importante: a aprendizagem provavelmente aproximadamente correta (PAC), que fornece um modelo conservativo para o processo de aprendizagem. O capítulo é concluído com algumas considerações finais na Seção 2.16. 2.2 APRENDIZAGEM POR CORREÇÃO DE ERRO Para ilustrar nossa primeira regra de aprendizagem, considere o caso simples de um neurônio k que constitui o único nó computacional da camada de saída de uma rede neural alimentada adiante, como representado na Fig. 2.1a. O neurônio k é acionado por um vetor de sinal x(n) produzido por uma ou mais camadas de neurônios ocultos, que são, por sua vez, acionadas por um vetor de entrada (estímulo) aplicado aos nós de fonte (i.e., a camada de entrada) da rede neural. O argumento n representa o instante de tempo discreto, ou mais precisamente, o passo de tempo de um processo iterativo envolvido no ajuste dos pesos sinápticos do neurônio k. O sinal de saída do neurônio k é representado por y,(n). Este sinal de saída, representando a única saída da rede neural, é comparado com uma resposta desejada ou saída-alvo, representada por d (n). Conseguentemente, é produzido um sinal de erro, representado por e (n). Por definição, temos assim Processos DE APRENDIZAGEM 77 I | Uma ou mais É t Vetor de entrada camadas de x(n) Neurônio de | dn) ddr) E saída i neurônios k | a E ] ocultos | 7 | | en) 1 l i A ea ue e um e e e e e e e e e e e e e e e e e e e em me) Rede de múltiplas camadas alimentadas adiante (a) Diagrama em blocos de uma rede neural, ressaltando o único neurônio da canada de saída contanto E - «Mel “.r dt Ma IS, Mesa Wi ' alado É EEE o .=——..— ao + nqiil Mt o, ro nl aus F Wim 4 x E z de sqonÊ Ri “Era atue (b) Grafo de fluxo de sinal do neurônio de saída FIGURA 2.1 Ilustração da aprendizagem por correção de erro edn)= dn) -»4n) (2.1) O sinal de erro e (n) aciona um mecanismo de controle, cujo propósito é aplicar uma segiiência de ajustes corretivos aos pesos sinápticos do neurônio k. Os ajustes corretivos são projetados para aproximar passo a passo o sinal de saída y, (n) da resposta desejada d (n). Este objetivo é alcançado minimizando-se uma função de custo ou índice de desempenho, &(n), definido em termos do sinal de erro e, (n) como: Ema sem) (2.2) Com isso, &(n) é o valor instantâneo da energia do erro. Os ajustes passo a passo dos pesos sinápticos do neurônio k continuam até o sistema atingir um estado estável (i.e., os pesos sinápticos estão essencialmente estabilizados). Neste ponto, o processo é encerrado. O processo de aprendizagem descrito aqui é denominado, por razões óbvias, aprendizagem por correção de erro. Em particular, a minimização da função de custo &(n) resulta na regra de aprendizagem normalmente referida como regra delta ou regra de Widrow-Hojf, assim denominada em homenagem aos seus criadores (Widrow e Hoff, 1960). Suponha que w, ln) represente o valor do peso sináptico 1, do neurônio k excitado por um elemento x (n) do vetor de sinal x(n) no passo de tempo n. De acordo com a regra delta, o ajuste Aw, (n) aplicado ao peso sináptico 10, no passo de tempo n é definido por Aew, ln) =ne (nx (n) (2.3) 80 Renes Neurais e Atribua x, à classe (hipótese) que está mais freglentemente representada nos k vizinhos mais próximos de x... (i.e. use uma votação majoritária para fazer a classificação). Assim, o classificador pelos k vizinhos mais próximos atua como um dispositivo que calcula a média. Em particular, ele discrimina um dado estranho, como ilustrado na Fig. 2.2 para k = 3. Um dado estranho é uma observação que tem um valor improvável em relação a um modelo de interes- se. No Capítulo 5, discutimos um outro tipo importante de classificador baseado em memória, conhecido como rede de função de base radial. ! FIGURA 2.2 A área contida no interior LE 4 do círculo tracejado inclui dois pontos a Ih pertencentes à classe 1 e um ponto li fa estranho pertencente à classe 0. O Estranho == teto DM ponto d corresponde ao vetor de teste ne =] X ate COM K=3, O classificador pelos k jo AA vizinhos mais próximos atribui a classe 1 ao ponto d, mesmo ele estando mais | I próximo ao dado estranho 2.4 APRENDIZAGEM HEBBIANA O postulado de aprendizado de Hebb é a mais antiga e mais famosa de todas as regras de aprendi- zagem; ele é assim denominado em homenagem ao neuropsicólogo Hebb (1949). Citando o livro de Hebb (1949, p.62), The Organization of Behavior: Quando um axônio da célula A está perto o suficiente para excitar uma célula B e participa do seu disparo repetida ou persistentemente, então algum processo de crescimento ou modificação meta- bólica acontece em uma das células ou em ambas, de tal forma que a eficiência de A como uma das células que dispara B é aumentada. Hebb propôs esta modificação como uma base da aprendizagem associativa (a nível celular), que resultaria em uma modificação permanente do padrão de atividade de um “agrupamento de células nervosas” espacialmente distribuído. Esta afirmação foi feita em um contexto neurobiológico. Podemos expandir e rescrevê-la como uma regra em duas partes (Stent, 1973; Changeux e Danchin, 1976): 1. Se dois neurônios em ambos os lados de uma sinapse (conexão) são ativados simultaneamente (i.e. sincronamente), então a força daquela sinapse é seletivamente aumentada, 2. Se dois neurônios em ambos os lados de uma sinapse são ativados assincronamente, então aquela sinapse é seletivamente enfraquecida ou eliminada. Uma sinapse assim é denominada uma sinapse hebbiana (A regra de Hebb original não contém a parte 2). Mais precisamente, definimos uma sinapse hebbiana como uma sinapse que usa um meca- nismo dependente do tempo, altamente local e fortemente interativo para aumentar a eficiência Processos DE APRENDIZAGEM 81 sináptica como uma função da correlação entre as atividades pré-sináptica e pós-sináptica. A partir desta definição podemos deduzir os seguintes quatro mecanismos (propriedades) fundamen- tais que caracterizam uma sinapse hebbiana (Brown et al., 1990): 1. Mecanismo dependente do tempo. Este mecanismo se refere ao fato de que as modificações em uma sinapse hebbiana dependem do tempo exato de ocorrência dos sinais pré-sinápticos e pós- sinápticos. 2. Mecanismo Local. Pela sua natureza, uma sinapse é um local de transmissão onde sinais por- tadores de informação (representando a atividade incidente nas unidades pré-sináptica e pós-sináptica) estão em contigúidade espaço-temporal. Esta informação localmente disponível é utilizada por uma sinapse hebbiana para produzir uma modificação sináptica local que é específica para a entra- da. 3. Mecanismo interativo. A ocorrência de uma modificação em uma sinapse hebbiana depende dos sinais em ambos os lados da sinapse. Isto é, uma forma de aprendizagem hebbiana depende de uma “interação verdadeira” entre os sinais pré-sináptico e pós-sináptico, no sentido de que não podemos fazer uma previsão a partir de apenas uma dessas duas atividades, Note também que esta dependência ou interação pode ser de natureza determinística ou estatística. 4. Mecanismo conjuncional ou correlativo. Uma interpretação do postulado de aprendizado de Hebb é que a condição para uma modificação da eficiência sináptica é a conjunção dos sinais pré- sináptico é pós-sináptico. Assim, de acordo com esta interpretação, a ocorrência simultânea dos sinais pré-sináptico e pós-sináptico (dentro de um curto intervalo de tempo) é suficiente para produ- zir a modificação sináptica. É por esta razão que uma sinapse hebbiana é algumas vezes denomina- da sinapse conjuncional. Para uma outra interpretação do postulado de aprendizado de Hebb, pode- mos considerar o mecanismo interativo que caracteriza uma sinapse hebbiana em termos estatísti- cos. Em particular, a correlação temporal entre os sinais pré-sináptico e pós-sináptico é vista como sendo responsável por uma modificação sináptica. Neste sentido, uma sinapse hebbiana é também denominada uma sinapse correlativa. A correlação é de fato a base do aprendizado (Eggermont, 1990). Reforço e Depressão Sinápticos A definição de uma sinapse hebbiana apresentada aqui não inclui processos adicionais que podem resultar no enfraquecimento de uma sinapse conectando um par de neurônios. De fato, podemos generalizar o conceito de uma modificação hebbiana reconhecendo que uma atividade positivamen- te correlacionada produz reforço sináptico e que uma atividade não-correlacionada ou negativa- mente correlacionada produz enfraquecimento sináptico (Stent, 1973). A depressão sináptica pode ser também do tipo não-interativo. Especificamente, a condição interativa para o enfraquecimento sináptico pode ser simplesmente a atividade não-coincidente pré-sináptica ou pós-sináptica. Podemos seguir um passo à frente, classificando uma modificação sináptica como hebbiana, anti-hebbiana e não-hebbiana (Palm, 1982). De acordo com este esquema, uma sinapse hebbiana aumenta sua força com sinais pré-sináptico e pós-sináptico positivamente correlacionados e dimi- nui a sua força quando estes sinais não são correlacionados ou são negativamente correlacionados. Inversamente, uma sinapse anti-hebbiana enfraquece sinais pré-sináptico e pós-sináptico positiva- mente correlacionados e reforça sinais negativamente correlacionados. Tanto em uma sinapse hebbiana como em uma sinapse anti-hebbiana, entretanto, a modificação da eficiência sináptica se baseia em um mecanismo que é dependente do tempo, altamente local e de natureza fortemente interativa. Neste sentido, uma sinapse anti-hebbiana é ainda de natureza hebbiana, apesar de não o 82 Repes NEURAIS ser funcionalmente. Uma sinapse não-hebbiana, por outro lado, não envolve qualquer tipo de meca- nismo hebbiano. Modelos Matemáticos de Modificações Hebbianas Para formular a aprendizagem hebbiana em termos matemáticos, considere um peso sináptico 1,, do neurônio k com sinais pré-sináptico e pós-sináptico representados por x e y,, respectivamente. O ajuste aplicado ao peso sináptico ww, no passo de tempo n é expresso na forma geral Aw Xn) = FO kn), x (1) (2.8) onde F(:,-) é uma função tanto do sinal pré-sináptico como do pós-sináptico. Os sinais x(n) en) são freqiientemente tratados como adimensionais. A fórmula da Eq. (2.8) admite muitas formas, sendo que todas são qualificadas como hebbianas. A seguir, consideramos duas destas formas. Hipótese de Hebb. A forma mais simples de aprendizagem hebbiana é descrita por Sw ln) =np,Ca)x (1) (2.9) onde 1 é uma constante positiva que determina a taxa de aprendizagem. A Equação (2.9) claramen- te enfatiza a natureza correlativa de uma sinapse hebbiana. Ela é algumas vezes referida como a regra do produto das atividades. À curva superior da Fig. 2.3 mostra uma representação gráfica da Eq. (2.9), com a modificação Aw, traçada em função do sinal de saída (atividade pós-sináptica) ,. Desta representação, vemos que a aplicação repetida do sinal de entrada (atividade pré-sináptica) X, resulta em um aumento de y, e, portanto, em um crescimento exponencial que ao final leva a cone- xão sináptica à saturação. Naquele ponto nenhuma informação será armazenada na sinapse e a seletividade é perdida. Awk; Hipótese de Hebb inclinação = na; Hipótese da inclinação = nfx, — X) sda 4 covariância Ponto de Atividade balanço = 7 pós-sináptica yy =n6g-3p Ponto de FIGURA 2.3 Ilustração depressão da hipótese de Hebb e da máxima hipótese da covariância Hipótese da covariância. Uma forma de superar a limitação da hipótese de Hebb é através da utilização da hipótese da covariância introduzida por Sejnowski (1977a, b). Nesta hipótese, os Processos DE APRENDIZAGEM 85 Um neurônio, então, aprende ao deslocar pesos sinápticos de seus nós de entrada inativos para os seus nós ativos. Se um neurônio não responde a um padrão de entrada particular, então não ocorrerá aprendizado naquele neurônio. Se um neurônio particular vencer a competição, então cada nó de entrada deste neurônio libera uma certa proporção de seu peso sináptico e este peso liberado será então distribuído uniformemente entre os nós de entrada ativos. De acordo com a regra de aprendi- zagem competitiva padrão, a variação Aw, aplicada ao peso sináptico 1, é definida por hii= pe —W,) se o neurônio k vencer a competição (2.13) 0 se o neurônio k perder a competição onde 1) é o parâmetro taxa de aprendizagem. Esta regra tem o efeito global de mover o vetor de peso sináptico w, do neurônio vencedor k em direção ao padrão de entrada x. Podemos utilizar a analogia geométrica representada na Fig. 2.5 para ilustrar a essência da aprendizagem competitiva (Rumelhart e Zipser, 1985). Supomos que cada padrão (vetor) de entra- da x tem um determinado comprimento euclidiano constante, de forma que podemos vê-lo como um ponto em uma esfera unitária N-dimensional, onde N é o número de nós de entrada. N representa também a dimensão de cada vetor de peso sináptico w,. Supomos ainda que todos os neurônios da rede têm o mesmo comprimento euclidiano (norma), como mostrado por 3wj=1 para todo k (2.14) j Quando os pesos sinápticos são escalados adequadamente, formam um conjunto de vetores que se encontram na mesma esfera unitária N-dimensional. Na Fig. 2.5a, mostramos três agrupamentos (clusters) naturais dos padrões de estímulo representados por pontos. Esta figura inclui também um estado inicial possível da rede (representado por cruzes) que pode existir antes do aprendizado. À Figura 2.5b mostra um estado final típico da rede que resulta da utilização de aprendizagem compe- titiva. Em particular, cada neurônio de saída descobriu um agrupamento de padrões de entrada movendo o seu vetor de peso sináptico para o centro de gravidade do agrupamento descoberto tel o ee a e stat o e E “ AA GRE E RS, OM iêS , + 4 “ a - . m A à É e 3 = = “ E q : * E Ta “ Bi 2 Pia - + + Pic ds “ amp E uu “E. ' É ' as a ' , 1 imp * 04 E o A ' ma 1 é Edi a 1 = , - " Sos EM ; sl E 4 = E E E I ú ” r = É É . . É a j A =. a É Ed “o a e 1 : 4 = a ns . É É, a fo se. A + e “" * om ad a “a E da q» o « + ur E qRaNtar Ed É aiat A ds 1 e Ad amo e" a CNO 4; a * ad pa o jd (a) (b) FIGURA 2.5 Interpretação geométrica do processo de aprendizagem competitiva. Os pontos representam os vetores de entrada e as cruzes representam os vetores de pesos sinápticos de três neurônios de saída. (a) Estado inicial da rede. (b) Estado final da rede 86 RepEs NEURAIS (Rumelhart e Zipser, 1985; Hertz et al., 1991). Esta figura ilustra a habilidade de uma rede neural de realizar a tarefa de agrupamento (clustering) através de aprendizagem competitiva. Entretanto, para realizar esta função de uma maneira “estável”, os padrões de entrada devem se localizar em agrupa- mentos suficientemente distintos. Caso contrário, a rede pode ser instável porque não responderá mais a um determinado padrão de entrada com o mesmo neurônio de saída. 2.6 APRENDIZAGEM DE BOLTZMANN A tegra de aprendizagem de Boltzmann, assim chamada em homenagem a Ludwig Boltzmann, é um algoritmo de aprendizagem estocástico derivado de idéias enraizadas na mecânica estatística.” Uma rede neural projetada com base na regra de aprendizagem de Boltzmann é denominada uma máquina de Boltzmann (Ackley et al., 1985; Hinton e Sejnowski, 1986). Em uma máquina de Boltzmann, os neurônios constituem uma estrutura recorrente e operam de uma maneira binária, uma vez que, por exemplo, eles estão ou em um estado “ligado” represen- tado por +1, ou em um estado “desligado” representado por —1. A máquina é caracterizada por uma função de energia, E, cujo valor é determinado pelos estados particulares ocupados pelos neurônios individuais da máquina, como mostrado por 1 Ena A Dt; (2.15) Jak onde x, é o estado do neurônio j e tw, é O peso sináptico conectando o neurônio j ao neurônio k. O fato de que j * k significa apenas que nenhum dos neurônios da máquina tem auto-realimentação. A máquina opera escolhendo um neurônio ao acaso — por exemplo, o neurônio k — em um determina- do passo do processo de aprendizagem, trocando então o estado do neurônio k do estado x, para o estado -x, a uma temperatura T com probabilidade 1 Messe = CARTA fa) onde AE, é a variação de energia (.e., a variação da função de energia da máquina) resultante daquela troca. Note que T não é uma temperatura física, mas apenas uma pseudotemperatura, como explicado no Capítulo 1. Se esta regra for aplicada repetidamente, a máquina atingirá o equilíbrio térmico. Os neurônios de uma máquina de Boltzmann se dividem em dois grupos funcionais: os visí- veis e os ocultos. Os neurônios visíveis fornecem uma interface entre a rede e o ambiente em que ela opera, enquanto que os neurônios ocultos sempre operam livremente. Há dois modos de operação a serem considerados: e Condição presa, na qual os neurônios visíveis estão todos presos a estados específicos deter- minados pelo ambiente. e Condição de operação livre, na qual todos os neurônios (visíveis e ocultos) podem operar livremente. Suponha que pj represente a correlação entre os estados dos neurônios j e k, com a rede na sua condição presa, Suponha que p;, represente a correlação entre os estados dos neurônios j e k, com a rede na sua condição de operação livre. Ambas as correlações correspondem às médias sobre Processos DE APRENDIZAGEM B7 todos os estados possíveis da máquina, quando ela está em equilíbrio térmico, Então, de acordo com a regra de aprendizagem de Boltzmann, a variação Aw, aplicada ao peso sináptico 1, do neurônio j para o neurônio k é definida por (Hinton e Sejnowski, 1986) Aw, =(P; —Pj) JHk (2.17) onde 1] é o parâmetro taxa de aprendizagem. Note que tanto p;; como Pp, assumem valores no intervalo entre —1 e +1. Uma breve revisão da mecânica estatística é apresentada no Capítulo 11; naquele capítulo, apresentamos um tratamento detalhado da máquina de Boltzmann e de outras máquinas estocásticas. 2.7 O PROBLEMA DE ATRIBUIÇÃO DE CRÉDITO Quando se estudam algoritmos de aprendizagem para sistemas distribuídos, é útil se considerar a noção de atribuição de crédito (Minsky, 1961). Basicamente, o problema de atribuição de crédito é o problema de se atribuir crédito ou culpa por resultados globais a cada uma das decisões internas que tenham sido tomadas por uma máquina de aprendizagem e que tenham contribuído para aque- les resultados. (O problema de atribuição de crédito é também denominado problema de carga, isto é, o problema de “carregar” um determinado conjunto de dados de treinamento para dentro dos parâmetros livres da rede.) Em muitos casos, a dependência dos resultados em relação a decisões internas é mediada por uma segiiência de ações tomadas pela máquina de aprendizagem. Em outras palavras, as decisões internas afetam a escolha das ações particulares que são tomadas e, com isso, as ações e não as decisões internas influenciam diretamente os resultados globais. Nestas situações, podemos de- compor o problema de atribuição de crédito em dois subproblemas (Sutton, 1984): 1. A atribuição de crédito por resultados a ações. Este é o chamado problema de atribuição de crédito temporal que envolve os instantes de tempo guando as ações que merecem crédito foram realmente tomadas. 2. A atribuição de crédito por ações a decisões internas. Este é o chamado problema de atribuição de crédito estrutural que envolve atribuir crédito às estruturas internas das ações geradas pelo sistema. O problema de atribuição de crédito estrutural é relevante no contexto de uma máquina de aprendi- zagem com múltiplos componentes quando devemos determinar precisamente qual componente particular do sistema deve ter seu comportamento alterado e em que medida, de forma a melhorar o desempenho global do sistema. Por outro lado, o problema de atribuição de crédito temporal é relevante quando há muitas ações tomadas por uma máquina de aprendizagem que acarretam certos resultados, e devemos determinar quais dessas ações foram responsáveis pelos resultados. O pro- blema combinado de atribuição de crédito temporal e estrutural é enfrentado por qualquer máquina de aprendizagem distribuída que se esforce em melhorar seu desempenho em situações envolvendo comportamento estendido no tempo (Williams, 1988). O problema de atribuição de crédito surge, por exemplo, quando a aprendizagem por correção de erro é aplicada em uma rede neural de múltiplas camadas alimentada adiante. À operação de cada neurônio oculto, bem como de cada neurônio de saída desta rede, é importante para a correta operação global da rede, em uma tarefa de aprendizagem de interesse. Ou seja, para resolver uma tarefa predeterminada, a rede deve atribuir certas formas de comportamento a todos os seus neurônios, 90 Repes NEuRAIS Reforço Vetor de estado primário (entrada) [ES Ambiente [=D Crítico Reforço heurístico Ações == Sistema de aprendizagem FIGURA 2.7 Diagrama em blocos da aprendizagem por reforço mente naquela segiiência de passos de tempo sejam de fato os melhores determinantes do compor- tamento global do sistema. A função da máquina de aprendizagem, que constitui o segundo compo- nente do sistema, é descobrir estas ações e realimentá-las para o ambiente. A aprendizagem por reforço atrasado é difícil de ser realizada por duas razões básicas: e Não existe um professor para fornecer uma resposta desejada em cada passo do processo de aprendizagem. e O atraso incorrido na geração do sinal de reforço primário implica que a máquina de aprendi- zagem deve resolver um problema de atribuição de crédito temporal. Com isso, queremos dizer que a máquina de aprendizagem deve ser capaz de atribuir crédito ou culpa individual- mente a cada ação na segiiência de passos de tempo que levam ao resultado final, enquanto que o reforço primário é capaz apenas de avaliar o resultado. Apesar destas dificuldades, a aprendizagem por reforço atrasado é muito atraente. Ela fornece a base para o sistema interagir com o seu ambiente, desenvolvendo com isso a habilidade de aprender arealizar uma tarefa predeterminada com base apenas nos resultados de sua experiência, que resul- tam da interação. A aprendizagem por reforço está intimamente relacionada com a programação dinâmica, que foi desenvolvida por Bellman (1957) no contexto da teoria de controle ótimo. A programação dinã- mica fornece o formalismo matemático para a tomada de decisão segiuencial. Enquadrando a apren- dizagem por reforço dentro da abordagem da programação dinâmica, o assunto se torna bastante rico, como demonstrado em Bertsekas e Tsitsiklis (1996). Um tratamento introdutório sobre pro- gramação dinâmica e sua relação com a aprendizagem por reforço é apresentado no Capítulo 12. 2. Aprendizagem não-supervisionada Na aprendizagem não-supervisionada ou auto-organizada, não há um professor exteno ou um crítico para supervisionar o processo de aprendizado, como indicado na Fig. 2.8. Em vez disso, são dadas condições para realizar uma medida independente da tarefa da qualidade da representação que a rede deve aprender, e os parâmetros livre da rede são otimizados em relação a esta medida. Uma vez que a rede tenha se ajustado às regularidades estatísticas dos dados de entrada, ela desen- volve a habilidade de formar representações internas para codificar as características da entrada e, desse modo, de criar automaticamente novas classes (Becker, 1991). Processos DE APRENDIZAGEM 91 Vetor descrevendo o estado do emilio Sistema de Ambiente ===> é FIGURA 2.8 Diagrama em blocos da aprendizagem aprendizagem não-supervisionada Para realizarmos a aprendizagem não-supervisionada, podemos utilizar a regra de aprendiza- gem competitiva. Podemos utilizar, por exemplo, uma rede neural de duas camadas — uma camada de entrada e uma camada competitiva. A camada de entrada recebe os dados disponíveis. A camada competitiva consiste de neurônios que competem entre si (de acordo com uma regra de aprendiza- gem) pela “oportunidade” de responder às características contidas nos dados de entrada. Na sua forma mais simples, a rede opera de acordo com uma estratégia do tipo “o vencedor leva tudo”. Como descrito na Seção 2.5, nesta estratégia o neurônio com a maior entrada total “ganha” a com- petição e se torna ligado; todos os outros neurônios, então, se tornam desligados. Nos Capítulos de 8 a 11, são descritos diferentes algoritmos para aprendizagem não-supervisio- nada. 2.10 TAREFAS DE APRENDIZAGEM Nas seções anteriores deste capítulo, discutimos diferentes algoritmos de aprendizagem e paradigmas de aprendizagem. Nesta seção, descrevemos algumas tarefas básicas de aprendizagem. A escolha de um algoritmo de aprendizagem particular é influenciada pela tarefa de aprendizagem que uma rede neural deve executar. Neste contexto, identificamos seis tarefas de aprendizagem que se apli- cam ao uso de redes neurais de uma forma ou de outra. Associação de Padrões Uma memória associativa é uma memória distribuída inspirada no cérebro, que aprende por asso- ciação. Desde Aristóteles, sabe-se que a associação é uma característica proeminente da memória humana, e todos os modelos de cognição utilizam associação de uma forma ou de outra como a operação básica (Anderson, 1995). A associação assume uma de duas formas: auto-associação ou heteroassociação. Na auto- associação, uma rede neural deve armazenar um conjunto de padrões (vetores), que são apresenta- dos repetidamente à rede. Subseqiientemente, apresenta-se à rede uma descrição parcial ou distorcida (ruidosa) de um padrão original armazenado e a tarefa é recuperar (recordar) aquele padrão parti- cular. À heteroassociação difere da auto-associação pelo fato de um conjunto arbitrário de padrões de entrada ser associado a um outro conjunto arbitrário de padrões de saída, A auto-associação envolve o uso de aprendizagem não-supervisionada, enquanto que, na heteroassociação, a aprendi- zagem é supervisionada. Considere que x, represente um padrão-chave (vetor) aplicado a uma memória associativa e y, represente um padrão memorizado (vetor). A associação de padrões realizada pela rede é descrita por ES, =, 2a] (2.18) 92 RenEs NEURAIS onde q é o número de padrões armazenados na rede. O padrão-chave x, age como um estímulo que não apenas determina a localização de armazenamento do padrão memorizado y,, mas também é a chave para sua recuperação. Em uma memória auto-associativa, y, = X,, e assim os espaços (de dados) de entrada e de saída da rede têm a mesma dimensionalidade. Em uma memória heteroassociativa, Y, É X, portanto, a dimensionalidade do espaço de saída neste segundo caso pode ou não ser igual à dimensionalidade do espaço de entrada. Há duas fases envolvidas na operação de uma memória associativa: e Afase de armazenamento, que se refere ao treinamento da rede de acordo com a Eq. (2.18). e A fase de recordação, que envolve a recuperação de um padrão memorizado em resposta à apresentação à rede de uma versão ruidosa ou distorcida de um padrão-chave. Suponha que o estímulo (entrada) x represente uma versão ruidosa ou distorcida de um padrão- chave x. Este estímulo produz uma resposta (saída) y, como indicado na Fig. 2.9. Para a recordação perfeita, nós deveríamos obter y = Y, onde y, é o padrão memorizado associado ao padrão-chave x. Quando y * Y, parax=x, diz-se que a memória associativa fez um erro de recordação. Vetor de i Vetor de Associador entrada ===> de padrões ==> saída FIGURA 2.9 A relação de entrada-saída X y de um associador de padrões O número q de padrões armazenados em uma memória associativa fornece uma medida direta da capacidade de armazenamento da rede. No projeto de uma memória associativa, o desafio é tornar a capacidade de armazenamento q (expressa como uma porcentagem do número total N de neurônios utilizados para construir a rede) tão grande quanto possível e ainda assim conseguir que uma grande fração dos padrões memorizados sejam recordados corretamente. Reconhecimento de Padrões Os seres humanos são bons no reconhecimento de padrões. Recebemos dados do mundo à nossa volta através dos nossos sentidos é somos capazes de reconhecer a fonte dos dados. Fregiientemente, somos capazes de fazer isso quase que imediatamente e praticamente sem esforço. Podemos, por exemplo, reconhecer um rosto familiar de uma pessoa muito embora esta pessoa tenha envelhecido desde o nosso último encontro, identificar uma pessoa familiar pela sua voz ao telefone, apesar de uma conexão ruim, e distinguir um ovo fervido que é bom de um ruim pelo seu cheiro. Os humanos realizam o reconhecimento de padrões através de um processo de aprendizagem; e assim acontece com as redes neurais. O reconhecimento de padrões é formalmente definido como o processo pelo qual um padrão/ sinal recebido é atribuído a uma classe dentre um número predeterminado de classes (categorias). Uma rede neural realiza o reconhecimento de padrões passando inicialmente por uma seção de treinamento, durante a qual se apresenta repetidamente à rede um conjunto de padrões de entrada junto com a categoria à qual cada padrão particular pertence. Mais tarde, apresenta-se à rede um novo padrão que não foi visto antes, mas que pertence à mesma população de padrões utilizada para treinar a rede. A rede é capaz de identificar a classe daquele padrão particular por causa da informa- ção que ela extraiu dos dados de treinamento. O reconhecimento de padrões realizado por uma rede neural é de natureza estatística, com os padrões sendo representados por pontos em um espaço de Processos DE APRENDIZAGEM 95 Sistema É => desconhe- ; cido Vetor de entrada Fo ã + EE A —4o f í Modelo [> porrede neural 4 ( FIGURA 2.11 Diagrama em blocos da identificação de sistema onde a função de valor vetorial f(-) representa a inversa de f(:). Note, entretanto, que f(.) não é a recíproca de f(-); em vez disso, o uso do índice —1 é meramente para indicar uma inversão. Em muitas situações encontradas na prática, a função de valor vetorial f(.) é por demais complexa para que se possa formular diretamente a função inversa f!(-). Dado o con- junto de exemplos rotulados da Eq. (2.20), podemos construir uma aproximação por rede neural de f"!(-), utilizando o esquema mostrado na Fig. 2.12. Na situação aqui descrita, os papéis de x, e d, foram trocados: o vetor d, é utilizado como a entrada e x, é tratado como a resposta desejada. Suponha que o vetor de sinal de erro e, represente a diferença entre x, e a saída real y, da rede neural, produzida em resposta a d. Como no problema de identificação de sistemas, este vetor de sinal de erro é utilizado para ajustar os parâmetros livres da rede neural, de modo a minimizar a diferença quadrática entre as saídas do sistema inverso desconhecido e da rede neural em um sentido estatístico, e é calculado sobre o conjunto de treinamento com- pleto. Erro E pa Saída do Vetor de entrada —" sistema modelo tr, e d nº Modlo LE N v dA * > tm e = É | inverso 1 SE 1 VZ E iaá) 1 Es na , FIGURA 2.12 Diagrama em blocos da modelagem de sistemas inversos Controle O controle de uma planta é uma outra tarefa de aprendizagem que pode ser feita por uma rede neural; aqui, “planta” significa um processo ou uma parte crítica de um sistema que deve ser man- tido em uma condição controlada. A relevância da aprendizagem para o controle não deveria ser surpreendente porque, afinal, o cérebro humano é um computador (i.e., um processador de informa- ção), que, visto como um sistema, produz saídas que são ações. No contexto de controle, o cérebro 96 RepEs NEURAIS é a prova viva de que é possível construir um controlador genérico que tira total vantagem da implementação física paralelamente distribuída, que pode controlar muitos milhares de atuadores (fibras musculares) em paralelo, que pode tratar não-linearidades e ruído e que pode realizar otimização sobre um horizonte de planejamento muito amplo (Werbos, 1992). Considere o sistema de controle realimentado da Fig. 2.13. O sistema envolve o uso de reali- mentação unitária em torno de uma planta a ser controlada; isto é, a saída da planta é realimentada diretamente para a entrada.” Com isso, a saída da planta y é subtraída de um sinal de referência d fornecido por uma fonte externa. O sinal de erro e assim produzido é aplicado a um controlador neural com o propósito de ajustar os seus parâmetros livres. O objetivo principal do controlador é fornecer entradas apropriadas para a planta, fazendo com que a sua saída y siga o sinal de referência d. Em outras palavras, o controlador deve inverter o comportamento de entrada-saída da planta. Notamos que na Fig. 2.13 o sinal de erro e deve-se propagar através do controle neural antes de alcançar a planta. Conseqiuentemente, para realizar ajustes nos parâmetros livres da planta de acordo com um algoritmo de aprendizagem por correção de erros, precisamos conhecer a matriz jacobiana o); q.) BA 2.23 = (2.23) Sinal Entrada Sinal de Mi de erro da planta referência Saída da planta E o ÉS como E Planta E ' t FIGURA 2.13 Diagrama em blocos de um sistema de controle realimentado Realimentação unitária onde y, é um elemento da saída da planta y e u, é um elemento da entrada da planta u. Infelizmente, as derivadas parciais y,/ u, para vários k e j dependem do ponto de operação da planta e, portanto, não são conhecidas. Podemos adotar uma de duas abordagens para tratar este problema: e Aprendizagem indireta. Utilizando medidas de entrada-saída reais da planta, é construído ini- cialmente um modelo baseado em rede neural para produzir uma cópia da planta. Por sua vez, este modelo é utilizado para fornecer uma estimativa da matriz jacobiana J. As derivadas parciais que constituem esta matriz jacobiana são utilizadas subsegiientemente no algoritmo de aprendizagem por correção de erro para calcular os ajustes dos parâmetros livres do controlador neural (Nguyen e Widrow, 1989; Suykens et al., 1996; Widrow e Walach, 1996). e Aprendizagem direta. Os sinais das derivadas parciais dy,/du, são geralmente conhecidos e normalmente se mantêm constantes ao longo do intervalo dinâmico da planta. Isto sugere que podemos aproximar estas derivadas parciais pelos seus sinais individuais. Os seus valores absolutos recebem uma representação distribuída nos parâmetros livres do controlador neural (Saerens e Soquet, 1991; Schiffman e Geffers, 1993). Com isso, o controlador neural se torna capacitado a aprender os ajustes de seus parâmetros livres diretamente da planta. Processos DE APRENDIZAGEM 97 Filtragem O termo filtro se refere frequentemente a um dispositivo ou algoritmo utilizado para extrair infor- mação sobre uma determinada grandeza de interesse a partir de um conjunto de dados ruidosos. O ruído pode surgir de uma variedade de fontes. Os dados podem ter sido medidos por meio de sensores ruidosos, por exemplo, ou podem representar um sinal portador de informação que foi corrompido pela transmissão através de um canal de comunicação. Como outro exemplo, pode-se ter uma com- ponente de sinal útil, corrompida por um sinal de interferência captado do meio ambiente. Podemos utilizar um filtro para realizar três tarefas básicas de processamento de informação: 1. Filtragem. Esta tarefa se refere à extração de informação sobre uma quantidade de interesse no tempo discreto n, utilizando dados medidos até o tempo n, inclusive. 2. Suavização. Esta segunda tarefa difere da filtragem pelo fato de que não é necessário que a informação sobre a grandeza de interesse esteja disponível no tempo x e de que os dados medi- dos após o tempo n podem ser usados para obter esta informação. Isto significa que, na suavização, há um atraso na produção do resultado de interesse. Já que no processo de suavização podemos usar dados obtidos não apenas até o tempo n mas também após o tempo n, podemos esperar que a suavização seja mais precisa que a filtragem em um sentido estatístico. 3. Previsão. Esta tarefa corresponde ao lado preditivo do processamento de informação. O objetivo aqui é derivar informação sobre como será a grandeza de interesse em um determinado tempo n +n, no futuro, para algum n, > 0, utilizando os dados medidos até o tempo n inclusive. Um problema de filtragem com o qual os seres humanos estão familiarizados é o problema da festa de coquetelº Temos uma habilidade notável para nos concentrarmos em um locutor dentro de um ambiente ruidoso de uma festa de coquetel, apesar de o sinal de voz originário daquele locutor estar envolvido por um fundo extremamente ruidoso devido à interferência de outras conversas na sala. Presume-se que alguma forma de análise pré-atentiva, pré-consciente deve estar envolvida na reso- lução do problema da festa de coquetel (Velmans, 1995). No contexto das redes neurais (artificiais), um problema similar de filtragem ocorre na chamada separação cega de sinal (Comon, 1994; Bell e Sejnowski, 1995; Amari e al, 1996). Para formular o problema da separação cega de sinal, consi- dere um conjunto de sinais de fonte desconhecidos (DE. que são mutuamente independentes entre si. Estes sinais são misturados linearmente por um sensor desconhecido para produzir o vetor de observação m-por-l (veja a Fig. 2.14) x(n) = A u(n) (2.24) onde u(n) = [u (mn), u,(0),..., 4, (n)]" (2.25) x(n) = [x (n), x (n),..., x, (mn) (2.26) Des us tea DR nom esdna aequo > 2 Pl. ] o aa dm: 1.68] FIGURA 2.14 Diagrama em blocos O Ambient da separação cega de fonte desconhecido