Baixe Redes Neurais 2a Edicao - Simon Haykin e outras Notas de estudo em PDF para Engenharia Civil, somente na Docsity!
E AO IND mA SIN
— REDES
IRONIA
Ppipefoles = emRtlce
em Aa
E TE ——
H419r Haykin, Simon
Redes neurais: princípios e prática / Simon Haykin;
trad, Paulo Martins Engel. — 2.ed. — Porto Alegre : Bookman,
2001.
ISBN 978-85-7307-718-6
|. Inteligência artificial — Redes neurais. 1. Título.
CDU 007.52
Catalogação na publicação: Mônica Ballejo Canto — CRB 10/1023
Aos incontáveis pesquisadores da área de redes neurais
pelas suas contribuições originais,
aos vários revisores pelas suas contribuições críticas,
aos meus numerosos estudantes de pós-graduação
pelo seu interesse entusiasmado
e
à minha esposa, Nancy, pela sua paciência e tolerância.
Prefácio
As Redes Neurais, ou redes neurais artificiais para sermos mais precisos, representam uma tecnologia
que tem raízes em muitas disciplinas: neurociência, matemática, estatística, física, ciência da com-
putação e engenharia. As redes neurais encontram aplicações em campos tão diversos, como mode-
lagem, análise de séries temporais, reconhecimento de padrões, processamento de sinais e controle,
em virtude de uma importante propriedade: a habilidade de aprender a partir de dados de entrada
com ou sem um professor.
Este livro fornece uma fundamentação abrangente das redes neurais, reconhecendo a natureza
multidisciplinar do tema, O material apresentado no livro é suplementado por exemplos, experi-
mentos computacionais, problemas no final de cada capítulo e uma bibliografia.
O livro consiste de quatro partes, organizadas como segue:
1. Material introdutório, consistindo dos Capítulos 1 e 2. O Capítulo 1 descreve, predominante-
mente em termos qualitativos, o que são as redes neurais, as suas propriedades, composições e
como elas se relacionam com a inteligência artificial. Este capítulo se encerra com algumas
notas históricas. O Capítulo 2 fornece uma visão geral das muitas facetas do processo de apren-
dizagem e das suas propriedades estatísticas. Este capítulo introduz um conceito importante: a
dimensão de Vapnik-Chervonenkis (V-C) usada como uma medida da capacidade de uma famí-
lia de funções de classificação realizadas por uma máquina de aprendizagem.
2. Máquinas de aprendizagem com um professor, consistindo dos capítulos 3 a 7. O capítulo 3
estuda a classe mais simples de redes neurais, nesta parte: as redes envolvendo um ou mais
neurônios de saída mas nenhum neurônio oculto. Neste capítulo são descritos o algoritmo do
mínimo quadrado médio (LMS, least-mean-square), bastante popular no projeto de filtros
adaptativos, e o teorema de convergência do perceptron. O Capítulo 4 apresenta um tratamento
exaustivo dos perceptrons de múltiplas camadas treinados com o algoritmo de retropropagação
(back-propagation). Este algoritmo (que representa uma generalização do algoritmo LMS)
emergiu como o “carro chefe” das redes neurais. O Capítulo 5 apresenta um tratamento mate-
mático detalhado de uma outra classe de redes neurais em camadas: as redes de função de base
Agradecimentos
Sou profundamente grato aos vários revisores que ofereceram gratuitamente seu tempo para ler o
livro, em parte ou no seu todo, Em particular, gostaria de expressar minha profunda gratidão ao Dr.
Kenneth Rose, da University of California, Santa Barbara, pelas suas muitas contribuições constru-
tivas e ajuda inestimável.
Também sou grato ao Dr. S. Amari, RIKEN, Japão; Dr. Sue Becker, McMaster University; Dr.
Ron Racine, McMaster University; Dr. Sean Holden, University College, Londres; Dr. Michael
Turmon, JPL, Pasadena; Dr. Babak Hassibi, Stanford University; Dr. Paul Yee, anteriormente da
McMaster University; Dr. Edgar Osuna, MIT; Dr. Bernard Schôlkopf, Max Planck Institute, Ale-
manha; Dr. Michael Jordan, MIT; Dr. Radford Neal, University of Toronto; Dr. Zoubin Gharhamani,
University of Toronto; Dr. Marc Van Hulle, Katholicke Universiteit Leuven, Bélgica; Dr. John
Tsitsiklis, MIT; Dr. Jose Principe, University of Florida, Gainsville; Sr. Gint Puskorius, Laboratório
de Pesquisa da Ford, Dearbom, Mich.; Dr. Lee Feldkamp, Laboratório de Pesquisa da Ford, Dearborn,
Mich.; Dr. Lee Giles, NEC Research Institute, Princeton, NJ; Dr. Mikel Forcada, Universitat d' Alcant,
Espanha; Dr. Eric Wan, Oregon Graduate Institue of Science and Technology; Dr. Yann LeCun,
AT&T Research, NJ; Dr. Jean-Francois Cardoso, École Nationale, Paris; Dr. Anthony Bell, anteri-
ormente do Salk Institute, San Diego; e Dr. Stefan Kremer, University of Guelph. Todos eles me
ajudaram imensamente no aperfeiçoamento da apresentação do material em diferentes partes do
livro.
Eu também desejo agradecer ao Dr. Ralph Linsker, IBM, Watson Research Center, Dr. Yaser
Abu-Mostafa, Cal Tech.; Dr. Stuart Geman, Brown University; Dr. Alan Gelford, University of
Connecticut; Dr. Yoav Freund, AT&T Research; Dr. Bart Kosko, University of Southern California;
Dr. Narish Sinha, McMaster University; Dr. Grace Wahba, University of Wiscounsin; Dr. Kostas
Diamantaras, Aristotelian University of Thessaloniki, Grécia; Dr. Robert Jacobs, University of
Rochester; Dr. Peter Dayan, MIT, Dr, Dimitris Bertsekas, MIT; Dr. Andrew Barto, University of
Massachusetts; Dr. Don Hush, University of New Maxico; Dr. Yoshua Bengio, University of Mon-
treal; Dr. Andrew Cichoki, RIKEN, Japão; Dr. H. Yang, Oregon Graduate Institute of Science and
Technology; Dr. Scott Douglas, University of Utah; Dr. Pierre Comon, Thomson-Sintra Asm., França;
Dr. Terrence Sejnowski, Salk Institute; Dr. Harris Drucker, Monmouth College; Dr. Nathan Intrator,
ne
XIl | AGRADECIMENTOS
Tel Aviv University, Israel; Dr. Vladimir Vapnik, AT&T Research, NJ; Dr. Teuvo Kohonen, Helsinki
University of Technology, Finlândia; Dr. Vladimir Cherkassky, University of Minnesota; Dr. Sebastian
Seung, AT&T Research, NJ; Dr. Steve Luttrell, DERA, Great Malvem, Reino Unido; Dr. David
Lowe, Aston University, Reino Unido; Dr. N. Ansari, New Jersey Institute of Technology; Dr. Danil
Prokhorov, Ford Research Laboratory, Dearborn, Mich.; Dr. Shigero Katagiri, ATR Human
Information Processing Research Lab, Japão; Dr. James Anderson, Brown University; Dr. Irwin
Sandberg, University of Texas, Austin; Dr. Thomas Cover, Stanford University: Dr. Walter Freeman,
University of California, Berkeley; Dr. Charles Micchelli, IBM Research, Yorktown Heights; Dr.
Kari Torkkola, Motorola Phoenix Corp.; Dr. Andreas Andreou, Johns Hopkins University; Dr, Martin
Beckerman, Oak Ridge National Laboratory; e Dr. Thomas Anastasio, University of Illinois, Urba-
na.
Fico profundamente grato ao meu estudante de pós-graduação Hugh Pasika por realizar mui-
tos dos experimentos do livro com o MATLAB e por preparar o Web site para o livro. Agradeço a
ajuda do meu estudante de pós-graduação Himesh Madhuranath, do Dr. Sadasivan Puthusserypady,
do Dr. J. Nie, Dr. Paul Yee e do Sr. Gint Puskorius (Ford Research) na realização de cinco experi-
mentos.
Sou muito grato a Hugh Pasika por revisar o livro inteiro. Neste sentido, também agradeço o
Dr. Robert Dony (University of Guelph), Dr. Stefan Kremer (University of Guelph) e o Dr. Sadasivan
Puthusserypaddy por revisar capítulos selecionados do livro.
Sou muito grato ao meu editor Tom Robbins e à editora Alice Dworkin por seu total suporte e
encorajamento. Agradeço a Julie Hollist pela cópia cuidadosa para editoração a partir dos manus-
critos. Gostaria de agradecer os esforços de Jennifer Maughan e o pessoal de WestWords Inc. em
Logan, Utah, na produção do livro.
Desejo registrar minha profunda gratidão a Brigitte Maier, Thode Library, McMaster University,
pelo seu incansável esforço em procurar e encontrar as muitas referências difíceis que tornaram a
bibliografia bastante completa. Agradeço muito a ajuda da Bibliotecária de Ciências e Engenharia
Peggy Findlay e da Bibliotecária de Referência Regina Bendip.
Por último mas não menos importante, gostaria de agradecer minha secretária Lola Brooks
por digitar as várias versões diferentes do manuscrito. Sem a sua ajuda dedicada, a escrita deste
livro e a sua produção teriam sido bem mais longas.
ABREVIAÇÕES E SÍMBOLOS Xv
RSN relação sinal-ruído
RV razão de verossimilhança
SCF separação cega de fonte (de sinal)
SIMO única entrada — múltiplas saídas (single input — multiple output)
SISO única entrada — única saída (single input — single output)
SOM mapa auto-organizável (selforganizing map)
TCM teoria do campo médio
TDNN rede neural de atrasos de tempo (time-delay neural network)
TLFN rede alimentada adiante atrasada no tempo (time lagged feedforward network)
VC validação cruzada
Vac Vapnik-Chervononkis (dimensão de)
VCG validação cruzada generalizada
VLSI integração em escala muito ampla (very-large-scale integration)
XOR OU exclusivo (exclusive OR)
SIMBOLOS IMPORTANTES
a ação
ab produto interno dos vetores ae b
ab” produto externo dos vetores a e b
!
( a) coeficiente binomial
AUB união de A e B
B inverso da temperatura
b, bias aplicado ao neurônio k
cos(a,b) co-seno do ângulo entre os vetores ae b
D profundidade de memória
Dj divergência de Kullback-Leibler entre as funções de densidade
de probabilidade fe g
D adjunto do operador D
E função de energia
E, energia do estado i na mecânica estatística
E operador estatístico da esperança matemática
(E) energia média
erf função erro
erfe função erro complementar
exp exponencial
[A erro médio quadrado ou soma de erros quadrados
E(n) valor instantâneo da soma de erros quadrados
Cum soma total de erros quadrados
E energia livre
XVI ABREVIAÇÕES E SÍMBOLOS
He)
SF me
H
Hr!
função de densidade de probabilidade do vetor aleatório X
subconjunto (rede) com o menor risco empírico mínimo
matriz hessiana
inversa da matriz H
raiz quadrada de —1, também representado por
matriz identidade
matriz de informação de Fisher
erro médio quadrado
matriz jacobiana
matriz de covariância do erro na teoria do filtro de Kalman
raiz quadrada da matriz K
transposta da raiz quadrada da matriz K
constante de Boltzmann
logaritmo
logaritmo da função de verossimilhança do vetor w
logaritmo da função de verossimilhança do vetor w baseada em um único exemplo
matriz de controlabilidade
matriz de observabilidade
tempo discreto
probabilidade do estado i em mecânica estatística
probabilidade de transição do estado i para o estado j
matriz estocástica
probabilidade de classificação correta
probabilidade de erro
probabilidade condicional de erro e dado que a entrada é retirada da classe €
probabilidade que os neurônios visíveis de uma máquina de Boltzmann estejam
no estado q, dado que a rede esteja na sua condição presa (i.e., fase positiva)
probabilidade que os neurônios visíveis de uma máquina de Boltzmann estejam
no estado at, dado que a rede esteja na sua condição livre (i.e., fase negativa)
estimativa da função de autocorrelação de x(n) ex(n)
estimativa da função de correlação cruzada de d(n) e x,(n)
matriz de correlação de um vetor de entrada
tempo contínuo
temperatura
conjunto de treinamento (amostra)
traço de um operador matricial
operador variância
função de Lyapunov do vetor de estado x
campo local induzido ou potencial de ativação do neurônio j
valor ótimo do vetor de pesos sinápticos
peso sináptico da sinapse j pertencente ao neurônio k
vetor de peso ótimo
valor de equilíbrio do vetor de estado x
média do estado x, em um sentido “térmico”
estimativa de x, representada por um circunflexo
valor absoluto (magnitude) de x
ABREVIAÇÕES E SÍMBOLOS
complexo conjugado de x, representado por um asterisco
norma euclidiana (comprimento) do vetor x
transposto do vetor x, representado pelo índice 7
operador atraso unitário
função de partição
gradiente local do neurônio j no tempo n
pequena variação aplicada ao peso 1
operador gradiente
operador laplaciano
gradiente de J em relação a w
divergente do vetor F
parâmetro da taxa de aprendizagem
acumulador
política
limiar aplicado ao neurônio k (i.e., negativo do bias b,)
parâmetro de regularização
k-ésimo autovalor de uma matriz quadrada
função de ativação não-linear do neurônio k
símbolo para “pertence a”
símbolo para “união de”
símbolo para “interseção de”
símbolo para convolução
índice para simbolizar a pseudo-inversa de uma matriz
Intervalos abertos e fechados
e Ointervalo aberto (a,b) de uma variável x significa que a < x < D.
O intervalo fechado [4,b] de uma variável x significa que a = x < b.
O intervalo fechado de [a,b) de uma variável x significa que a <x< b; da mesma forma para
o intervalo aberto (a,b].
Mínimos e M
áximos
xvii
e Osímbolo arg min f(w) significa o mínimo da função f(w) em relação ao vetor do argu-
mento w.
e Osímbolo arg max f(w) significa o máximo da função f(w) em relação ao vetor do argu-
mento w.
xx | SUMÁRIO
2.10 Tarefas de Aprendizagem 91
211 Memória 100
2.12 Adaptação 108
2.13 Natureza Estatística do Processo de Aprendizagem 110
2.14 Teoria Estatística da Aprendizagem 114
2.15 Modelo de Aprendizagem Provavelmente Aproximadamente Correto 127
2.16 Resumoe Discussão 131
Notas e Referências 132
Problemas 137
3 Perceptrons de Camada Única 143
3.1 Introdução 143
3.2 O Problema da Filtragem Adaptativa 144
3.3 Técnicas de Otimização Irrestritas 147
3.4 Filtro Linear de Mínimos Quadrados 152
3.5 Algoritmo do Mínimo Quadrado Médio 155
3.6 Curvas de Aprendizagem 159
3.7 Estratégias de Variação da Taxa de Aprendizagem 161
3.8 OPerceptron 161
3.9 Teorema de Convergência do Perceptron 163
3.10 Relação entre o Perceptron e o Classificador Bayesiano para um Ambiente
Gaussiano 169
3.11 Resumo e Discussão 175
Notas e Referências 176
Problemas 177
4 Perceptrons de Múltiplas Camadas 183
4.1 Introdução 183
4.2 Algumas Considerações Preliminares 186
4.3 Algoritmo de Retropropagação 188
4.4 Resumo do Algoritmo de Retropropagação 200
4.5 OProblemado XOR 202
4.6 Heurísticas para Melhorar o Desempenho do Algoritmo de Retropropagação 205
4.7 Representação da Saída e Regra de Decisão 211
4.8 Experimento Computacional 214
4.9 Detecção de Características 225
4.10 Retropropagação e Diferenciação 228
4.11 A Matriz Hessiana 230
4.12 Generalização 232
4.13 Aproximação de Funções 234
4.14 Validação Cruzada 239
4.15 Técnicas de Poda de Rede 244
4.16 Virtudes e Limitações da Aprendizagem por Retropropagação 252
4.17 Aceleração da Convergência da Aprendizagem por Retropropagação 259
Sumário XXI
4.18 Aprendizagem Supervisionada Vista como um Problema de Otimização 260
4.19 Redes Convolutivas 271
4.20 Resumoe Discussão 273
Notas e Referências 275
Problemas 278
5 Redes de Função de Base Radial 283
5.1 Introdução 283
5.2 O Teorema de Cover sobre a Separabilidade de Padrões 284
5.3 O Problema de Interpolação 290
5.4 A Aprendizagem Supervisionada como um Problema de Reconstrução de
Hipersuperfície Malformulado 293
5.5 A Teoria da Regularização 294
5.6 Redes de Regularização 305
5.7 Redes de Função de Base Radial Generalizadas 307
5.8 O Problema do XOR (Revisitado) 311
5.9 Estimação do Parâmetro de Regularização 314
5.10 Propriedades Aproximativas das Redes RBF 320
5.11 Comparação entre Redes RBF e Perceptrons de Múltiplas Camadas 323
5.12 Regressão de Núcleo e sua Relação com as Redes RBF 323
5.13 Estratégias de Aprendizagem 328
5.14 Experimento Computacional: Classificação de Padrões 336
5.15 Resumo e Discussão 337
Notas e Referências 339
Problemas 343
6 Máquinas de Vetor de Suporte 349
6.1 Introdução 349
6.2 Hiperplano Ótimo para Padrões Linearmente Separáveis 350
6.3 Hiperplano Ótimo para Padrões Não-Separáveis 357
6.4 Como Construir uma Máquina de Vetor de Suporte para Reconhecimento de
Padrões 361
6.5 Exemplo: O Problema do XOR (Revisitado) 367
6.6 Experimento Computacional 369
6.7 Função de Perda Insensívelae 372
6.8 Máquinas de Vetor de Suporte para Regressão Não-Linear 373
6.9 Resumoe Discussão 376
Notas e Referências 380
Problemas 381
7 Máquinas de Comitê 385
7.1 Introdução 385
7.2
Média de Ensemble 387
XXil | SUMÁRIO
7.3 Experimento Computacional I 390
7.4 Reforço 391
7.5 Experimento Computacional II 398
7.6 Modelo de Mistura Gaussiano Associativo 401
7.7 Modelo de Mistura Hierárquica de Especialistas 406
7.8 Seleção de Modelo Usando uma Árvore de Decisão Padrão 408
7.9 Probabilidades a Priorie a Posteriori 412
7.10 Estimação por Máxima Verossimilhança 413
711 Estratégias de Aprendizagem para o Modelo MHE 415
7.12 O Algoritmo ME 417
7.13 Aplicação do Algoritmo ME ao Modelo MHE 418
7.14 Resumoe Discussão 421
Notas e Referências 423
Problemas 425
8 Análise de Componentes Principais 429
8.1 Introdução 429
8.2 Alguns Princípios Intuitivos de Auto-Organização 430
8.3 Análise de Componentes Principais 433
8.4 Autofiltro Máximo Baseado na Aprendizagem Hebbiana 442
8.5 Análise de Componentes Principais Baseada na Aprendizagem Hebbiana 452
8.6 Experimento Computacional: Codificação de Imagem 458
8.7 Análise de Componentes Principais Adaptativa Usando Inibição Lateral 461
8.8 Duas Classes de Algoritmos de ACP 469
8.9 Métodos de Computação por Lote e Adaptativo 470
8.10 Análise de Componentes Principais por Núcleo 472
8.11 Resumoe Discussão 477
Notas e Referências 479
Problemas 480
9 Mapas Auto-Organizáveis 483
9.1 Introdução 483
9.2 Dois Modelos Básicos de Mapeamento de Características 484
9.3 O Mapa Auto-Organizável 486
9.4 Resumo do Algoritmo SOM 493
9.5 Propriedades do Mapa de Características 494
9.6 Simulações Computacionais 502
9.7 Quantização Vetorial por Aprendizagem 506
9.8 Experimento Computacional: Classificação Adaptativa de Padrões 508
9.9 Quantização Vetorial Hierárquica 510
9.10 Mapas Contextuais 514
9.11 Resumoe Discussão 516
Notas e Referências 517
Problemas 519
SUMÁRIO XXV
15 Redes Recorrentes Dirigidas Dinamicamente 787
15.1 Introdução 787
15.2 Arquiteturas de Redes Recorrentes 788
15.3 | O Modelo de Espaço de Estados 794
15.4 Modelo Auto-Regressivo Não-Linear com Entradas Exógenas 802
15.5 OQ Poder Computacional das Redes Recorrentes 804
15.6 Algoritmos de Aprendizagem 805
15.7 Retropropagação Através do Tempo 808
15.8 Aprendizagem Recorrente em Tempo Real 812
15.9 Filtros de Kalman 819
15.10 Filtro de Kalman Estendido Desacoplado 823
15.11 Experimento Computacional 828
15.12 Extinção de Gradientes em Redes Recorrentes 831
15.13 Identificação de Sistemas 834
15.14 Controle Adaptativo por Referência a Modelo 836
15.15 Resumo e Discussão 840
Notas e Referências 841
Problemas 843
Epilogo 849
Bibliografia 855
Índice 893
CAPÍTULO 1
Introdução
1.1 O QUE É UMA REDE NEURAL?
O trabalho em redes neurais artificiais, usualmente denominadas “redes neurais”, tem sido motiva-
do desde o começo pelo reconhecimento de que o cérebro humano processa informações de uma
forma inteiramente diferente do computador digital convencional. O cérebro é um computador
(sistema de processamento de informação) altamente complexo, não-linear e paralelo. Ele tem a
capacidade de organizar seus constituintes estruturais, conhecidos por neurônios, de forma a reali-
zar certos processamentos (p.ex., reconhecimento de padrões, percepção e controle motor) muito
mais rapidamente que o mais rápido computador digital hoje existente, Considere, por exemplo, a
visão humana, que é uma tarefa de processamento de informação (Marr, 1982; Levine, 1985;
Churchland e Sejnowski, 1992). A função do sistema visual é fornecer uma representação do ambi-
ente à nossa volta e, mais importante que isso, fornecer a informação de que necessitamos para
interagir com o ambiente. Para sermos específicos, o cérebro realiza rotineiramente tarefas de reco-
nhecimento perceptivo (p. ex., reconhecendo um rosto familiar inserido em uma cena não-familiar)
em aproximadamente 100-200 ms, ao passo que tarefas de complexidade muito menor podem levar
dias para serem executadas em um computador convencional,
Como outro exemplo, considere o sonar de um morcego. O sonar é um sistema ativo de loca-
lização por eco. Além de fornecer informações sobre a distância até um alvo (p. ex., um inseto
voador), o sonar de um morcego transmite também informação sobre a velocidade relativa do alvo,
o tamanho do alvo, o tamanho de várias características do alvo € o azimute e a elevação do alvo
(Suga, 1990a, b). A complexa computação neural necessária para extrair toda essa informação do
eco do alvo ocorre no interior de um cérebro do tamanho de uma ameixa. De fato, um morcego
guiado por eco pode perseguir e capturar seu alvo com uma facilidade e taxa de sucesso que são de
causar inveja a um engenheiro de radar ou sonar.
Como, então, um cérebro humano ou o cérebro de um morcego faz isso? No momento do
nascimento, um cérebro tem uma grande estrutura e a habilidade de desenvolver suas próprias re-
gras através do que usualmente denominamos “experiência”. Na verdade, a experiência vai sendo
30 Renes NEURAIS
se fizer um sistema, assegurando-se de que o sistema se mantenha estável, mais robusto tenderá a
ser o seu desempenho quando o sistema for exigido a operar em um ambiente não-estacionário.
Contudo, deve ser enfatizado, que adaptabilidade nem sempre resulta em robustez; na verdade pode
resultar no contrário. Um sistema adaptativo com constantes de tempo pequenas, por exemplo,
pode se modificar rapidamente e assim tender a responder a perturbações espúrias, causando uma
drástica degradação no desempenho do sistema. Para aproveitar todos os benefícios da adaptabili-
dade, as constantes de tempo principais do sistema devem ser grandes o suficiente para que o siste-
ma ignore perturbações espúrias mas ainda assim serem suficientemente pequenas para responder a
mudanças significativas no ambiente; o problema aqui descrito é referido como o dilema da estabi-
lidade-plasticidade (Grossberg, 1988b).
4. Resposta a Evidências. No contexto de classificação de padrões, uma rede neural pode ser
projetada para fornecer informação não somente sobre qual padrão particular selecionar, mas tam-
bém sobre a confiança ou crença na decisão tomada. Esta última informação pode ser utilizada para
rejeitar padrões ambíguos, caso eles estejam presentes, e com isso melhorar o desempenho de clas-
sificação da rede.
5. Informação Contextual. O conhecimento é representado pela própria estrutura e estado de
ativação de uma rede neural. Cada neurônio da rede é potencialmente afetado pela atividade de
todos os outros neurônios na rede. Consegiientemente, a informação contextual é tratada natural-
mente pela rede neural,
6. Tolerância à Falhas. Uma rede neural, implementada na forma física (em hardware), tem o
potencial de ser inerentemente tolerante a falhas, ou capaz de realizar computação robusta, no
sentido de que seu desempenho se degrada suavemente sob condições de operação adversas. Se um
neurônio ou suas conexões são danificados, por exemplo, a recuperação de um padrão armazenado
é prejudicada em qualidade. Contudo, devido à natureza distribuída da informação armazenada na
rede, o dano deve ser extenso para que a resposta global da rede seja degradada seriamente. Assim,
a princípio, uma rede neural exibe uma degradação suave do desempenho em vez de apresentar uma
falha catastrófica. Há algumas evidências empíricas para a computação robusta, mas geralmente ela
não é controlada. Para se assegurar que uma rede neural seja de fato tolerante a falhas pode ser
necessário adotar-se medidas corretivas no projeto do algoritmo utilizado para treinar a rede (Kerlirzin
e Vallet, 1993),
7. Implementação em VLSI. A natureza maciçamente paralela de uma rede neural a faz ser
potencialmente rápida na computação de certas tarefas. Esta mesma característica torna uma rede
neural adequada para implementação utilizando tecnologia de integração em escala muito ampla.
Uma virtude benéfica particular da tecnologia VLSI (very-large-scale-integration) é que ela forne-
ce um meio de capturar comportamentos realmente complexos de uma forma altamente hierárqui-
ca (Mead, 1989).
8. Uniformidade de Análise e Projeto. Basicamente, as redes neurais desfrutam de universalida-
de como processadores de informação. Dizemos isso no sentido de que a mesma notação é utilizada
em todos os domínios envolvendo a aplicação de redes neurais. Esta característica se manifesta de
diferentes modos:
e Os neurônios, de uma forma ou de outra, representam um ingrediente comum a todas as redes
neurais.
e Esta uniformidade torna possível compartilhar teorias e algoritmos de aprendizagem em apli-
cações diferentes de redes neurais.
e Redes modulares podem ser construídas através de uma integração homogênea de módulos.
Introbução 31
9. Analogia Neurobiológica. O projeto de uma rede neural é motivado pela analogia com o cére-
bro, que é uma prova viva de que o processamento paralelo tolerante a falhas é não somente possível
fisicamente mas também rápido e poderoso. Os neurobiólogos olham para as redes neurais (artifi-
ciais) como uma ferramenta de pesquisa para a interpretação de fenômenos neurobiológicos. Por
outro lado, os engenheiros olham para a neurobiologia procurando novas idéias para resolver pro-
blemas mais complexos do que aqueles baseados em técnicas convencionais de projeto por cone-
xões fixas. Estes dois pontos de vista são ilustrados respectivamente pelos dois exemplos a seguir:
e Em Anastasio (1993), modelos de sistemas lincares do reflexo vestíbulo-ocular são compara-
dos com modelos de redes neurais baseados em redes recorrentes, que são descritas na seção
1.6 e discutidas em detalhe no Capítulo 15. O reflexo vestíbulo-ocular (RVO) é parte do siste-
ma oculomotor. A função do RVO é manter a estabilidade da imagem visual (j.e., retinal)
fazendo rotações oculares opostas às rotações da cabeça. O RVO é mediado por neurônios
pré-motores nos núcleos vestibulares que recebem e processam os sinais de rotação da cabeça
advindos dos neurônios sensoriais vestibulares e enviam os resultados para os neurônios mo-
tores do músculo ocular. O RVO é bem apropriado para modelagem porque a sua entrada
(rotação da cabeça) e a sua saída (rotação ocular) podem ser especificadas precisamente. Ele é
também um reflexo relativamente simples e as propriedades neurofisiológicas de seus neurônios
constituintes se encontram bem descritas. Entre os três tipos neurais, os neurônios pré-moto-
res (interneurônios de reflexo) nos núcleos vestibulares são os mais complexos e, portanto, os
mais interessantes. O RVO foi modelado anteriormente utilizando descritores concentrados de
sistemas lineares e a teoria de controle. Estes modelos foram úteis para explicar algumas das
propriedades globais do RVO, mas forneciam pouco entendimento das propriedades dos seus
neurônios constituintes. Esta situação melhorou substancialmente através da modelagem por
rede neural. Modelos de redes recorrentes do RVO (programados utilizando um algoritmo
chamado aprendizagem recursiva em tempo-real que é descrito no Capítulo 15) podem repro-
duzir e ajudar a explicar muitos aspectos estáticos, dinâmicos, não-lineares e distribuídos do
processamento de sinal pelos neurônios que medeiam o RVO, especialmente os neurônios dos
núcleos vestibulares (Anastasio, 1993).
e Na retina, mais que em qualquer outra parte do cérebro, é onde nós começamos a agregar as
relações entre o mundo externo representado por um sentido visual, sua imagem física proje-
tada em um arranjo de receptores e as primeiras imagens neurais. A retina é uma folha fina de
tecido neural que reveste o hemisfério posterior do globo ocular. A tarefa da retina é converter
uma imagem ótica em uma imagem neural para ser transmitida através do nervo ótico para
uma quantidade de centros para análise posterior. Esta é uma tarefa complexa, como evidenci-
ado pela organização sináptica da retina. Nas retinas de todos os vertebrados, a transformação
da imagem ótica em imagem neural envolve três estágios (Sterling, 1990):
(i) Transdução da energia luminosa por uma camada de neurônios receptores.
(ii) Transmissão dos sinais resultantes (produzidos em resposta à luz) por sinapses químicas
para uma camada de células bipolares.
(iii) Transmissão desses sinais, também por sinapses químicas, para neurônios de saída que
são chamados de células ganglionares.
Em ambos os estágios sinápticos (i.e., das células receptoras para as células bipolares e das células
bipolares para as ganglionares) há neurônios especializados conectados lateralmente chamados cé-
lulas horizontais e células amácrinas, respectivamente. A tarefa desses neurônios é modificar a
transmissão através das camadas sinápticas. Há também elementos centrífugos chamados de célu-
32 Reves NEURAIS
las interplexiformes; sua tarefa é transmitir sinais da camada sináptica interna para a camada exter-
na. Alguns poucos pesquisadores construíram circuitos eletrônicos que mimetizam a estrutura da
retina (Mahowald e Mead, 1989; Boahen e Ardreou, 1992; Boahen, 1996). Estes circuitos eletrônicos
são chamados de circuitos integrados neuromórficos, um termo cunhado por Mead (1989). Um
sensor de imagem neuromórfico consiste de um arranjo de fotoreceptores combinados com circui-
tos analógicos em cada elemento de imagem (pixel, picture element). Ele emula a retina na medida
em que se adapta localmente a variações na luminância, detecta bordas e detecta o movimento. A
analogia neurobiológica, exemplificada pelos circuitos integrados neuromórficos, é útil também de
outro modo importante: ela fornece uma esperança e a crença, e de uma certa maneira a existência
de prova, de que a compreensão física das estruturas neurobiológicas pode ter influência produtiva
na arte da eletrônica e da tecnologia VLSI.
Tendo em mente esta inspiração na neurobiologia, parece-nos apropriado examinarmos
brevemente o cérebro humano e seus níveis estruturais de organização.
1.2 O CÉREBRO HUMANO
O sistema nervoso humano pode ser visto como um sistema de três estágios, como mostrado no
diagrama em blocos da Fig. 1.1 (Arbib, 1987). O centro do sistema é o cérebro, representado pela
rede neural (nervosa), que recebe continuamente informação, percebe-a e toma decisões apropria-
das. Dois conjuntos de setas são mostrados na figura. Aquelas que apontam da esquerda para a
direita indicam a transmissão para frente do sinal portador de informação, através do sistema. As
setas apontando da direita para a esquerda indicam a presença de realimentação no sistema. Os
receptores convertem estímulos do corpo humano ou do ambiente externo em impulsos elétricos
que transmitem informação para a rede neural (cérebro). Os atuadores convertem impulsos elétricos
gerados pela rede neural em respostas discerníveis como saídas do sistema.
t—m
[| Rede
Lo] Neural |.
Estímulo —»| Receptores Atuadores ——>» Resposta
FIGURA 1.1 Representação em diagrama em blocos do sistema nervoso
O esforço para entender o cérebro sé tornou mais fácil pelo trabalho pioneiro de Ramón y
Cajál (1911), que introduziu a idéia dos neurônios como constituintes estruturais do cérebro. Tipi-
camente, os neurônios são de cinco a seis ordens de grandeza mais lentos que as portas lógicas em
silício; os eventos em um circuito de silício acontecem na ordem de nanossegundos (10), enquan-
to que eventos neurais acontecem na ordem de milissegundos (102s). Entretanto, o cérebro com-
pensa a taxa de operação relativamente lenta de um neurônio pelo número realmente espantoso de
neurônios (células nervosas), com conexões maciças entre si. Estima-se que haja aproximadamente
10 bilhões de neurônios no córtex humano e 60 trilhões de sinapses ou conexões (Shepherd e Koch,
1990). O resultado livre é que o cérebro é uma estrutura extremamente eficiente. Mais especifica-
mente, a eficiência energética do cérebro é de aproximadamente 10º joules (J) por operação por
segundo, enquanto que o valor correspondente para os melhores computadores em uso em nossos
dias é de cerca de 10 joules por operação por segundo (Faggin, 1991).
As sinapses são unidades estruturais e funcionais elementares que medeiam as interações
entre os neurônios. O tipo mais comum de sinapse é a sinapse química, que opera da seguinte
INnmovução 35
Sistema nervoso central
À
Circuitos inter-regionais
À
Circuitos locais
E
Neurônios
Árvores dendritais
E
Microcircuitos neurais
E
Sinapses
E
FIGURA 1.3 Organização
Moléculas estrutural dos níveis no
cérebro
Figura 1.4 apresenta um mapa citoarquitetural do córtex cerebral como apurado por Brodmann
(Brodal, 1981).
FIGURA 1.4 Mapa citoarquitectural do córtex cerebral, As diferentes áreas são identificadas pela
espessura de suas camadas e tipos de células nelas contidas. Algumas das áreas específicas
mais importantes são como segue. Córtex motor: banda motora, área 4; área pré-motora, área 6;
campos oculares frontais, área 8. Córiex somestésico: áreas 3, 1, 2. Córtex visual: áreas 17, 18,
19. Córtex auditivo: áreas 41 e 42. (De A. Brodal, 1981; com permissão da Oxford University Press.)
36 RepEs NEURAIS
Esta figura mostra claramente que diferentes entradas sensoriais (motora, somestésica, visual, audi-
tiva, etc.) são mapeadas sobre áreas correspondentes do córtex cerebral de uma forma ordenada. No
nível final de complexidade, os mapas topográficos e outros circuitos inter-regionais medeiam tipos
específicos de comportamento no sistema nervoso central.
É importante reconhecer que os níveis estruturais de organização descritos aqui são uma ca-
racterística única do cérebro. Eles não são encontrados em lugar algum em um computador digital,
e não estamos próximos de recriá-los com redes neurais artificiais. Apesar disso, estamos avançan-
do gradualmente no caminho de uma hierarquia de níveis computacionais similar aquela descrita na
Fig. 1.3. Os neurônios artificiais que utilizamos para construir nossas redes neurais são realmente
primitivos em comparação com aqueles encontrados no cérebro. As redes neurais que atualmente
podemos projetar são comparativamente tão primitivas quanto os circuitos locais e inter-regionais
do cérebro. O que é realmente gratificante, contudo, é o progresso notável alcançado em várias
frentes durante as últimas duas décadas, Com a analogia neurobiológica como fonte de inspiração e
com a riqueza das ferramentas teóricas e tecnológicas que temos acumulado, estamos certos de que
em mais uma década nossa compreensão das redes neurais artificiais será muito mais sofisticada do
que ela o é atualmente.
Nosso interesse primordial neste livro está limitado ao estudo das redes neurais artificiais de
uma perspectiva de engenharia.? Começamos o estudo descrevendo os modelos de neurônios (arti-
ficiais) que formam a base das redes neurais consideradas nos capítulos subsequentes do livro.
1.3 MODELOS DE UM NEURÔNIO
Um neurônio é uma unidade de processamento de informação que é fundamental para a operação
de uma rede neural. O diagrama em blocos da Fig. 1.5 mostra o modelo de um neurônio, que forma
a base para o projeto de redes neurais (artificiais). Aqui nós identificamos três elementos básicos do
modelo neuronal:
Bias
ã da
by efa à
é E VA,
| o Função de
lot fuja de? ativação
e ao 1
Sinais de q Lg 4 + tap Saida
entrada e %
A inss
Junção
* aditiva
| Amit nat
Pesos FIGURA 1.5 Modelo não-linear de
sinápticos um neurônio
1. Um conjunto de sinapses ou elos de conexão, cada uma caracterizada por um peso ou força
própria. Especificamente, um sinal x, na entrada da sinapse j conectada ao neurônio k é multipli-
cado pelo peso sináptico U Éi importante notar a maneira como são escritos os índices do peso
sináptico w,. O primeiro índice se refere ao neurônio em questão e o segundo se refere ao
terminal de entrada da sinapse à qual o peso se refere. Ao contrário de uma sinapse do cérebro,
o peso sináptico de um neurônio artificial pode estar em um intervalo que inclui valores negati-
vos bem como positivos.
INnrovução 37
2. Um somador para somar os sinais de entrada, ponderados pelas respectivas sinapses do neurônio;
as operações descritas aqui constituem um combinador linear.
3. Uma função de ativação para restringir a amplitude da saída de um neurônio. A função de
ativação é também referida como função restritiva já que restringe (limita) o intervalo permis-
sível de amplitude do sinal de saída a um valor finito.
Tipicamente, o intervalo normalizado da amplitude da saída de um neurônio é escrito como o
intervalo unitário fechado [0, 1] ou alternativamente [-1, 1].
O modelo neuronal da Fig. 1.5 incluí também um bias aplicado externamente, representado por b,.
O bias b, tem o efeito de aumentar ou diminuir a entrada líquida da função de ativação, dependendo
se ele é positivo ou negativo, respectivamente,
Em termos matemáticos, podemos descrever um neurônio k escrevendo o seguinte par de
equações:
mm
=> Wx, (1.1)
j=t
e
»= PM + D) (1.2)
onde X,, X,, -..; X, São Os sinais de entrada; Wigo Mia aces Wi são os pesos sinápticos do neurônio k; u É
é a saída do combinador linear devido aos sinais de entrada; b, é o bias; q (*) é a função de ativação;
ey, sinal de saída do neurônio. O uso do bias b, tem o efeito de aplicar uma transformação afim
à saída u, do combinador linear no modelo da Fig. 1.5, como mostrado por
v=u,+b, (1.3)
Em particular, dependendo se o bias b, é positivo ou negativo, a relação entre o campo local induzi-
do ou potencial de ativação v, do neurônio k e a saída do combinador linear u, é modificada na
forma ilustrada na Fig. 1.6; de agora em diante, o termo “campo local induzido” será usado. Note
que como resultado desta transformação afim, o gráfico de v, em função de u, não passa mais pela
origem.
Campo local dep dr
induzido, , -
a t “11
ae A E A Saída do combinador
linear, +
FIGURA 1.6 Transformação afim produzida
pela presença de um bias; note que v, = b, em
u,=0.
K
40 — Repes NEURAIS
2. Função Linear por Partes. Para a função linear por partes descrita na Fig.1.8b temos
IJ, v2+1
(0)=40, +i>v>-i
9 nad, (1.11)
13
onde assume-se que o fator de amplificação dentro da região linear de operação é a unidade. Esta
forma de função de ativação pode ser vista como uma aproximação de um amplificador não-linear.
As duas situações seguintes podem ser vistas como formas especiais da função linear por partes:
e Se a região linear de operação é mantida sem entrar em saturação, surge um combinador
linear.
e A função linear por partes se reduz à função de limiar, se o fator de amplificação da região
linear é feito infinitamente grande.
3. Função Sigmóide. A função sigmóide, cujo gráfico tem a forma de s, é de longe a forma mais
comum de função de ativação utilizada na construção de redes neurais artificiais. Ela é definida
como uma função estritamente crescente que exibe um balanceamento adequado entre comporta-
mento linear e não-linear,” Um exemplo de função sigmóide é a função logística,* definida por
l
in I+exp(-av) GL. 12a
onde a é o parâmetro de inclinação da função sigmóide. Variando-se o parâmetro a, obtemos fun-
ções sigmóides com diferentes inclinações, como ilustrado na Fig. 1.8c. Na verdade, a inclinação na
origem é igual a a/4. No limite, quando o parâmetro de inclinação se aproxima do infinito, a função
sigmóide se torna simplesmente uma função de limiar. Enquanto que a função de limiar assume o
valor de O ou 1, uma função sigmóide assume um intervalo contínuo de valores entre O e 1. Note
também que a função sigmóide é diferenciável, enquanto que a função de limiar não o é.
(Diferenciabilidade é uma característica importante da teoria de redes neurais, como descrito no
Capítulo 4.)
As funções de ativação definidas nas Egs. (1.8), (1.11) e (1.12) se estendem de O a +1. Algu-
mas vezes é desejável que a função de ativação se estenda de —1 a +1, assumindo neste caso uma
forma anti-simétrica em relação à origem; isto é, a função de ativação é uma função ímpar do campo
local induzido. Especificamente, a função de limiar da Eg. (1.8) é definida agora como
1 sev>0
q(v)=4 0 sev=0 (1.13)
-l sev<0
a qual é normalmente denominada função sinal. Para a forma correspondente de uma função sigmóide,
podemos utilizar a função tangente hiperbólica, definida por
q (v) = tanh (v) (1.14)
O fato de se permitir que uma função de ativação do tipo sigmóide assuma valores negativos como
descrito pela Eq. (1.14) traz benefícios analíticos (como mostrado no Capítulo 4).
Intropução 41
Modelo Estocástico de um Neurônio
O modelo neuronal descrito na Fig. 1.7 é determinístico já que o seu comportamento de entrada-
saída é definido precisamente para todas as entradas. Para algumas aplicações de redes neurais, é
desejável que a análise seja baseada em um modelo neuronal estocástico. Em uma abordagem ana-
liticamente tratável, é dada uma interpretação probabilística à função de ativação do modelo de
McCulloch-Pitts. Mais especificamente, permite-se que um neurônio assuma apenas um de dois
estados: +1 ou —1, por exemplo. A decisão para disparar um neurônio (i.e., mudar seu estado de
“desligado” para “ligado”) é probabilística. Considere que x represente o estado do neurônio e Pfv)
represente a probabilidade de disparar, onde v é o campo local induzido do neurônio. Nós podemos
então escrever
o +1 com probabilidade P(v)
* 21.1 com probabilidade 1- P(v)
Uma escolha padrão para P(v) é a função de forma sigmóide (Little, 1974):
1
O ERON) Eta)
onde T é uma pseudotemperatura que é utilizada para controlar o nível de ruído e portanto a incer-
teza de disparar. É importante perceber, entretanto, que T não é a temperatura física de uma rede
neural, seja ela uma rede neural biológica ou artificial, Em vez disso, como já mencionado, nós
devemos considerar T meramente como um parâmetro que controla as flutuações térmicas que
representam os efeitos do ruído sináptico. Note que quando T > 0, o neurônio estocástico descrito
pela Eg. (1.15) se reduz a uma forma sem ruído (i.e., determinística), que é o modelo de McCulloch-
Pitts.
1.4 REDES NEURAIS VISTAS COMO GRAFOS ORIENTADOS
O diagrama em blocos da Fig. 1.5 ou aquele da Fig. 1.7 fornece uma descrição funcional dos vários
elementos que constituem o modelo de um neurônio artificial. Nós podemos simplificar a aparência
do modelo utilizando a idéia de grafos de fluxo de sinal sem sacrificar quaisquer detalhes do mode-
lo. Os grafos de fluxo de sinal juntamente com um conjunto bem-definido de regras foram desen-
volvidos originalmente por Mason (1953, 1956) para redes lineares. A presença de não-linearidade
no modelo de um neurônio limita o escopo de sua aplicação às redes neurais. Apesar disso, os
grafos de fluxo de sinal fornecem um método elegante para retratar o fluxo dos sinais em uma rede
neural, que é o nosso objetivo nesta seção.
Um grafo de fluxo de sinal é uma rede de elos (raros) orientados que são interligados em
certos pontos chamados nós. Um nó típico j tem um sinal nodal x, associado. Um elo orientado
típico origina-se no nó j e termina no nó k; ele tem uma função de transferência ou transmitância
associada que especifica a maneira pela qual o sinal y, no nó k depende do sinal x, no nó j. O fluxo
de sinais nas diversas partes do grafo é ditado por três regras básicas:
Regra 1. Um sinal flui ao longo de um elo somente no sentido definido pela seta do elo.
Dois diferentes tipos de elos podem ser distinguidos:
42 RepEs NEURAIS
e Elos sinápticos, cujo comportamento é governado por uma relação de entrada-saída linear.
Especificamente, o sinal nodal x, é multiplicado pelo peso sináptico 1w,, para produzir O sinal
nodal y,, como ilustrado na Fig. 1.9a.
(a)
0a
Lo O —-als sp pr b*
(b)
Faia
E gta
a
(e)
Y .
a”
Louro
a E
ea
FIGURA 1.9 Ilustração das regras básicas
para a construção de grafos de fluxo de sinal td)
e Elos de ativação, cujo comportamento é governado em geral por uma relação de entrada-saída
não-linear. Esta forma de relação é ilustrada na Fig. 1.9b, onde q(-) é a função de ativação
não-linear.
Regra 2. Um sinal nodal é igual à soma algébrica de todos os sinais que entram no nó pertinente
via os elos incidentes.
Esta segunda regra é ilustrada na Fig. 1.9c para o caso de convergência sináptica ou fan-in.
Regra 3. O sinal em um nó é transmitido para cada elo de saída originário deste nó, sendo a trans-
missão inteiramente independente das funções de transferência dos elos de saída.
Esta terceira regra é ilustrada na Fig. 1.9d para o caso de divergência sináptica ou fan-out.
Utilizando estas regras podemos construir, por exemplo, o grafo de fluxo de sinal da Fig. 1.10
como o modelo de um neurônio, correspondente ao diagrama em blocos da Fig. 1.7. A representa-
ção mostrada na Fig. 1.10 é claramente mais simples em aparência que aquela da Fig. 1.7, apesar de
conter todos os detalhes funcionais descritos naquele diagrama. Note que em ambas as figuras a
entrada x, = +1 e o peso sináptico associado w,. = b,, onde b, é o bias aplicado ao neurônio k.
De fato, com base no grafo de fluxo de sinal da Fig. 1.10 como o modelo de um neurônio,
podemos agora oferecer a seguinte definição matemática de uma rede neural:
Introbução 45
a ne Ee FIGURA 1.13 Grafo de fluxo de sinal de
a eq a qo, o E E
" a f a um filtro de resposta a impulso de duração
| infinita (HA, infinite-duration impulse
response), de primeira ordem
à entrada em uma unidade de tempo. Podemos então expressar o operador de laço fechado do
sistema como
Ao
I-AB 1-wz)
=w(l-wz'y
Utilizando a expansão binomial para (1 - w z'y!, podemos rescrever o operador de laço fechado do
sistema como
A [a
=w3 w (1.19)
1=AB > é
Assim, substituindo a Eg. (1.19) em (1.18), obtemos
yu (m) = 105 00'2" [x (1)] (1.20)
t=0
onde novamente incluímos os colchetes para enfatizar o fato de z! ser um operador. Em particular,
da definição de z! temos
2 bin] =x (n =) (1.21)
onde x(n — |) é uma amostra do sinal de entrada atrasada de | unidades de tempo. Consegiientemen-
te, podemos expressar o sinal de saída y, (n) como uma soma ponderada infinita das amostras pre-
sentes e passadas do sinal de entrada x (n), como mostrado por
x M)= Suttx, (n=1) (1.22)
I=0
Vemos claramente agora que o comportamento dinâmico do sistema é controlado pelo peso 20. Em
particular, podemos distinguir dois casos específicos:
1. |ew]<1, para o qual o sinal de saída y (n) é exponencialmente convergente; isto é, o sistema é
estável. Isto é ilustrado na Fig. 1.14a para um tw positivo.
2. |w>1,parao qual o sinal de saída y (n) é divergente; isto é, o sistema é instável. Se u|=1 a
divergência é linear como na Fig. 1.14b, e se Jw|> 1 a divergência é exponencial como na Fig.
1.14c.
A estabilidade tem papel de destaque no estudo de sistemas realimentados.
O caso de [w| < 1 corresponde a um sistema com memória infinita no sentido de a saída do
sistema depender das amostras da entrada que se estendem sobre o passado infinito. Além disso, a
memória é esvaecente já que a influência de uma amostra passada se reduz exponencialmente com
o tempo n.
A análise do comportamento dinâmico das redes neurais envolvendo a aplicação de realimen-
tação infelizmente é complicada pelo fato de as unidades de processamento utilizadas para cons-
46 RepEs NEURAIS
ni tra.
a
ú =
FP.
à as É SA
4% a E ud
(a)
“ e
or
+." * |
nene R
= smisaá ; = (ES
noso 4 rod
(b)
É
ma Vai
»
R w +
FIGURA 1.14 Resposta temporal tes E '
da Fig. 1.13 para três valores dife- É
rentes de pesos wem um caminho
para frente. (a) Estável. (b) Diver-
gência linear. (c) Divergência feminino ja dE ri:
A ly E a A L
exponencial
(e)
truir a rede serem geralmente não-lineares. Outras considerações adicionais sobre este assunto
serão tratadas mais adiante neste livro.
1.6 ARQUITETURAS DE REDE
A maneira pela qual os neurônios de uma rede neural estão estruturados está intimamente ligada
com o algoritmo de aprendizagem usado para treinar a rede. Podemos, portanto, falar de algoritmos
(regras) de aprendizagem utilizados no projeto de redes neurais como sendo estruturados. A classi-
ficação de algoritmos de aprendizagem é considerada no próximo capítulo, e o desenvolvimento de
diferentes algoritmos de aprendizagem é tratado nos capítulos subsequentes do livro. Nesta seção,
focalizamos nossa atenção nas arquiteturas (estruturas) de rede. Em geral, podemos identificar três
classes de arquiteturas de rede fundamentalmente diferentes:
1. Redes Alimentadas Adiante com Camada Única
Em uma rede neural em camadas, os neurônios estão organizados na forma de camadas. Na forma
mais simples de uma rede em camadas, temos uma camada de entrada de nós de fonte que se
projeta sobre uma camada de saída de neurônios (nós computacionais), mas não vice-versa. Em
outras palavras, esta rede é estritamente do tipo alimentada adiante ou acíclica. Ela é ilustrada na
Introbução 47
Fig. 1.15 para o caso de quatro nós tanto na camada de entrada como na de saída. Esta rede é
chamada de rede de camada única, sendo que a designação “camada única” se refere à camada de
saída de nós computacionais (neurônios). Não contamos a camada de entrada de nós de fonte,
porque lá não é realizada qualquer computação.
FIGURA 1.15 Rede alimentada
Camada de entrada de Camada de saída adiante ou acíclica com uma
neurônios de fonte de neurônios única camada de neurônios
2. Redes Alimentadas Diretamente com Múltiplas Camadas
A segunda classe de uma rede neural alimentada adiante se distingue pela presença de uma ou mais
camadas ocultas, cujos nós computacionais são chamados correspondentemente de neurônios ocultos
ou unidades ocultas. A função dos neurônios ocultos é intervir entre a entrada externa e a saída da
rede de uma maneira útil. Adicionando-se uma ou mais camadas ocultas, tornamos a rede capaz de
extrair estatísticas de ordem elevada. Em um sentido bastante livre, a rede adquire uma perspectiva
global apesar de sua conectividade local, devido ao conjunto extra de conexões sinápticas e da
dimensão extra de interações neurais (Churchland e Sejnowski, 1992). À habilidade de os neurônios
ocultos extraírem estatísticas de ordem elevada é particularmente valiosa quando o tamanho da
camada de entrada é grande.
Os nós de fonte da camada de entrada da rede fornecem os respectivos elementos do padrão de
ativação (vetor de entrada), que constituem os sinais de entrada aplicados aos neurônios (nós
computacionais) na segunda camada (j.e., a primeira camada oculta). Os sinais de saída da segunda
camada são utilizados como entradas para a terceira camada, e assim por diante para o resto da rede.
Tipicamente, os neurônios em cada camada da rede têm como suas entradas apenas os sinais de
saída da camada precedente. O conjunto de sinais de saída dos neurônios da camada de saída (final)
da rede constitui a resposta global da rede para o padrão de ativação fornecido pelos nós de fonte da
camada de entrada (primeira). O grafo arquitetural na Fig. 1.16 ilustra a planta de uma rede neural
de múltiplas camadas alimentada adiante para o caso de uma única camada oculta. Por concisão, a
rede na Fig. 1.16 é referida como uma rede 10-4-2 porque ela tem 10 neurônios de fonte, 4 neurônios
ocultos e 2 neurônios de saída. Como um outro exemplo, uma rede alimentada adiante com m nós
de fonte, h, neurônios na primeira camada oculta, A, neurônios na segunda camada oculta e q neurônios
na camada de saída é referida como uma rede m-h -h,-q.
A rede neural da Fig. 1.16 é dita totalmente conectada, no sentido de que cada um dos nós de
uma camada da rede está conectado a todos os nós da camada adjacente seguinte. Entretanto, se
alguns dos elos de comunicação (conexões sinápticas) estiverem faltando na rede, dizemos que a
rede é parcialmente conectada.
50 Renes Neurais
a atingir os objetivos especificados da aplicação de interesse, O conhecimento do mundo consiste
de dois tipos de informação:
1. O estado conhecido do mundo, representado pelos fatos sobre o que é e o que era conhecido;
esta forma de conhecimento é chamada de informação prévia.
2. As observações (medidas) do mundo, obtidas por meio de sensores projetados para sondar o
ambiente no qual a rede neural deve operar. Normalmente, estas observações são inerentemente
ruidosas, sendo sujeitas a erros devido a ruído do sensor e imperfeições do sistema. De qualquer
maneira, as observações que são assim obtidas fornecem o conjunto de informações de onde
são retirados os exemplos utilizados para treinar a rede neural.
Os exemplos podem ser rotulados ou não-rotulados. Nos exemplos rotulados, cada exemplo que
representa um sinal de entrada é associado a uma resposta desejada correspondente (i.e., saída-
alvo). Por outro lado, os exemplos não-rotulados consistem de ocorrências diferentes dos próprios
sinais de entrada. De qualquer maneira, um conjunto de exemplos, rotulados ou não, representa o
conhecimento acerca do ambiente de interesse que uma rede neural pode aprender através de treina-
mento.
Um conjunto de pares de entrada-saída, com cada par consistindo de um sinal de entrada e a
resposta desejada correspondente, é referido como um conjunto de dados de treinamento ou amos-
tra de treinamento. Para ilustrar como este conjunto de dados pode ser utilizado, considere, por
exemplo, o problema do reconhecimento de um dígito manuscrito. Neste problema, o sinal de entra-
da consiste de uma imagem com pixels (elementos da imagem) pretos ou brancos, com cada ima-
gem representando um dos 10 dígitos que estão bem separados do fundo. A resposta desejada é
definida pela “identidade” do dígito particular cuja imagem é apresentada para a rede como o sinal
de entrada. Tipicamente, a amostra de treinamento consiste de uma grande variedade de dígitos
manuscritos que são representativos de uma situação do mundo real. Dado este conjunto de exem-
plos, o projeto de uma rede neural pode prosseguir como segue:
e Primeiro, uma arquitetura apropriada é selecionada para a rede neural, com uma camada de
entrada consistindo de nós de fonte iguais em número aos pixels de uma imagem de entrada, e
uma camada de saída consistindo de 10 neurônios (um para cada dígito). Um subconjunto de
exemplos é então utilizado para treinar a rede por meio de um algoritmo apropriado. Esta fase
do projeto da rede é chamada de aprendizagem.
e Segundo, o desempenho de reconhecimento da rede treinada é testado com dados não apre-
sentados anteriormente. Especificamente, uma imagem de entrada é apresentada para a rede,
mas desta vez não lhe é fornecida a identidade do dígito que corresponde a esta imagem
particular. O desempenho da rede é então estimado comparando-se o reconhecimento do dígi-
to fornecido pela rede com a real identidade do dígito em questão. Esta segunda fase da opera-
ção da rede é chamada generalização, um termo emprestado da psicologia.
Aqui se encontra uma diferença fundamental entre o projeto de uma rede neural e o de sua
contrapartida, o processamento de informação clássico (classificação de padrões). Neste último
caso, normalmente procedemos primeiramente formulando um modelo matemático das observa-
ções do ambiente, validando o modelo com dados reais, e então estruturando o projeto com base
neste modelo. O projeto de uma rede neural, ao contrário, é baseado diretamente nos dados do
mundo real, permitindo-se que o conjunto de dados fale por si mesmo. Assim, a rede neural não
somente fornece o modelo implícito do ambiente no qual ela está inserida, como também realiza a
função de processamento de informação de interesse.
Inmrobução 51
Os exemplos utilizados para treinar uma rede neural podem consistir tanto de exemplos posi-
tivos como de exemplos negativos. Em um problema de detecção passiva de sonar, por exemplo, os
exemplos positivos são relativos aos dados de treinamento de entrada que contêm o alvo de interes-
se (ex., um submarino). Agora, em um ambiente de sonar passivo, sabe-se que a presença eventual
de vida marinha nos dados de teste causa alarmes falsos ocasionais. Para atenuar este problema,
exemplos negativos (p.ex., ecos da vida marinha) são incluídos nos dados de treinamento para
ensinar a rede a não confundir a vida marinha com o alvo.
Em uma rede neural com uma arquitetura específica, a representação do conhecimento do
meio ambiente é definida pelos valores assumidos pelos parâmetros livres (i.e., pesos sinápticos e
bias) da rede. A forma dessa representação de conhecimento constitui o verdadeiro projeto da rede
neural, e portanto é a chave para o seu desempenho,
Entretanto, o tema da representação do conhecimento no interior de uma rede artificial é mui-
to complicado, Apesar disso, existem quatro regras para a representação do conhecimento que são
de senso comum (Anderson, 1988).
Regra 1. Entradas similares de classes similares normalmente devem produzir representações si-
milares no interior da rede, e portanto devem ser classificadas como pertencentes à mesma catego-
ria.
Há uma profusão de medidas para determinar a “similaridade” entre entradas. Uma medida de
similaridade usada frequentemente é baseada no conceito de distância euclidiana. Para sermos es-
pecíficos, considere que x, represente um vetor m-por-1
pa T
K= [XX]
cujos elementos são todos números reais; o índice superior T indica a transposição matricial. O
vetor x, define um ponto em um espaço de dimensão m chamado espaço euclidiano e representado
por R”. A distância euclidiana entre um par de vetores m por 1, x,e X, é definida por
d(x, x;)= x, — 2]
e u2
s po db |
kal
onde x, € x, são os k-ésimos elementos dos vetores de entrada x, e x, respectivamente.
Correspondentemente, a similaridade entre as entradas representadas pelos vetores x, e x,é definida
como o recíproco da distância euclidiana d(x,, x). Quanto mais próximo entre si estiverem os ele-
mentos individuais dos vetores de entrada x, e X, menor será a distância euclidiana d(x, X), e
portanto maior será a similaridade entre os vetores x, e X, A regra 1 afirma que se os vetores x, x,
são similares, eles devem ser atribuídos à mesma categoria (classe).
Uma outra medida de similaridade é baseada na idéia de um produto escalar ou produto inter-
no que também é tomada emprestada da álgebra matricial. Dado um par de vetores x, e X, de mesma
dimensão, o seu produto interno é X%, que na forma expandida é escrito como segue:
(1.23)
Fr
(x, X,))=X,X;
j (1.24)
= + ki
k=l
52 Reves NEURAIS
O produto interno (x, x.) dividido por |x|| |x]| é o co-seno do ângulo subentendido entre os vetores
x, x,
As duas medidas de similaridade definidas aqui estão na verdade intimamente relacionadas
entre si, como ilustrado na Fig. 1.19. A distância euclidiana ||x, — x.]| entre os vetores x, e x, está
relacionada com a “projeção” do vetor x, sobre o vetor x, A Figura 1.19 mostra claramente que,
quanto menor a distância euclidiana ||x, — x e portanto quanto mais similares forem os vetores x, e
X, maior será o produto interno x, o
A “+
m
oa
” tl
“ e g
FIGURA 1.19 Ilustração da HE
relação entre o produto *
interno e a distância Eno É - semp
euclidiana como medidas de " o! “.
similaridade entre padrões ala,
Para formalizarmos esta relação, primeiro normalizamos os vetores x, e x, para terem compri-
mento unitário, ou seja,
dl = Igll= 1
Podemos então utilizar a Eg. (1.23) para escrever
E (x,x,) == (x, [= x) (x, =X
1.25
=2- 2x; x, ( )
A Equação (1.25) mostra que a minimização da distância euclidiana d(x, x) corresponde à
maximização do produto interno (x, x) e, portanto, da similaridade entre os vetores x, e x.
A distância euclidiana e o produto interno descritos aqui são definidos em termos
determinísticos. O que acontece quando os vetores x, e x, são retirados de duas populações (fontes)
de dados diferentes? Para sermos específicos, suponha que a diferença entre essas duas populações
esteja somente nos seus vetores médios. Considere que |, e |, representem os valores médios dos
vetores x, e X, respectivamente. Isto é,
L=Elx] (1.26)
onde E é o operador estatístico esperado. O vetor médio q, é definido de forma similar. Como uma
medida de distância entres essas duas populações, podemos utilizar a distância de Mahalanobis,
representada por d,. O quadrado do valor dessa distância de x, para x, é definido por (Duda e Hart,
1973):
di=(x,-uJL'(x,-4;) (1.27)
onde E"! é a inversa da matriz de covariância E. Assume-se que à matriz de covariância é a mesma
para ambas as populações, como mostrado por
Inrovução 55
5 sã ; 4 '
onde (W,b constitui o mesmo conjunto de pesos compartilhado por todos os quatro neurônios
ocultos, e x, é o sinal captado do nó de fonte k = i + j — 1. A Equação (1.29) está na forma de uma
soma convolutiva. É por este motivo que uma rede alimentada adiante utilizando conexões locais é
pesos compartilhados da forma aqui descrita é conhecida como rede convolutiva.
A questão de incorporar informação prévia no projeto de uma rede neural é uma parte da
Regra 4; a parte restante da regra envolve a questão das invariâncias.
Como Incorporar Invariâncias no Projeto de uma Rede Neural
Considere os seguintes fenômenos físicos:
e Quando um objeto de interesse sofre rotação, o modo como a imagem do objeto é percebida
por um observador normalmente muda de forma correspondente.
e Em um radar coerente que fornece informação tanto de amplitude como de fase sobre o seu
meio ambiente, o eco vindo de um alvo móvel é deslocado em fregiiência pelo efeito Doppler
que surge devido ao movimento radial do alvo em relação ao radar.
e A locução de uma pessoa pode ser feita em uma voz alta ou baixa, e de maneira lenta ou
rápida.
Para construir um sistema de reconhecimento de objetos, um sistema de reconhecimento de alvos
de radar e um sistema de reconhecimento de voz que possa lidar com estes fenômenos, respectiva-
mente, o sistema deve ser capaz de lidar com uma série de transformações do sinal observado
(Barnard e Casasent, 1991). Consegiientemente, um requisito fundamental para o reconhecimento
de padrões é projetar um classificador que seja invariante a tais transformações. Em outras pala-
vras, uma estimativa de classe representada por uma saída do classificador não deve ser afetada
pelas transformações do sinal observado aplicado à entrada do classificador,
Existem pelo menos três técnicas para implementar uma rede neural do tipo classificador
invariante a transformações (Barnard e Casasent, 1991):
1. Invariância por Estrutura. A invariância pode ser imposta à rede neural estruturando apro-
priadamente o seu projeto. Mais especificamente, as conexões sinápticas entre os neurônios da
rede são criadas de forma que versões transformadas da mesma entrada sejam forçadas a produzir a
mesma saída. Considere, por exemplo, a classificação de uma imagem por uma rede neural com a
exigência de ela ser independente a rotações no plano da imagem, em torno do seu centro. Podemos
impor invariância rotacional na estrutura da rede da seguinte forma. Seja 1, O peso sináptico do
neurônio j conectado ao pixel i da imagem de entrada. Se forçarmos a condição ww, =w, para todos
os pixels í e k que se encontrem a distâncias iguais do centro da imagem, então a rede neural será
invariante a rotações no plano. Entretanto, para que seja mantida a invariância rotacional, o peso
sináptico VU, deve ser duplicado para todo pixel da imagem de entrada à mesma distância radial da
origem. Isto causa uma desvantagem da invariância por estrutura: o número de conexões sinápticas
da rede neural se torna proibitivamente grande mesmo para imagens de tamanho moderado.
2. Invariância por Treinamento. Uma rede neural tem uma habilidade natural para classificar
padrões. Esta habilidade pode ser explorada diretamente para obter invariância a transformações da
forma descrita a seguir. A rede é treinada apresentando-se um número de exemplos diferentes do
mesmo objeto, sendo os exemplos escolhidos para corresponder a diferentes transformações (i.e.,
vistas de aspectos diferentes) do objeto. Desde que o número de exemplos seja suficientemente
56 Repes NEURAIS
grande e que a rede seja treinada para aprender a discriminar as vistas de aspectos diferentes do
objeto, podemos então esperar que a rede generalize corretamente para outras transformações que
não as apresentadas durante o treinamento. Entretanto, por uma perspectiva de engenharia, a
invariância por treinamento tem duas desvantagens. Primeiro, quando a rede neural foi treinada
para reconhecer um objeto de maneira invariante em relação a transformações conhecidas, não é
óbvio que este treinamento também capacitará a rede a reconhecer outros objetos de classes dife-
rentes, de maneira igualmente invariante. Segundo, o esforço computacional imposto à rede pode
ser demasiadamente severo para se lidar, especialmente se a dimensionalidade do espaço de carac-
terísticas for elevada.
3. Espaço de Características Invariantes. A terceira técnica de criar uma rede neural invariante
do tipo classificador está ilustrada na Fig. 1,21,
o . — —
: Extrator de Rede neural dal
Estimati
FIGURA 1.21 Diagrama em blocos Enipiad es orar SAD UÍPO a É a va
de um sistema do tipo espaço de invariante assiicador e classe
características invariantes
tm mm!
Ela se baseia na premissa de que pode ser possível se extrair características que caracterizem o
conteúdo essencial da informação de um conjunto de dados de entrada e que sejam invariantes a
transformações das entradas. Se tais características forem utilizadas, então a rede como um classi-
ficador é aliviada do fardo de ter que delinear o intervalo de transformações de um objeto com
fronteiras de decisão complicadas. Na verdade, as únicas diferenças que podem aparecer entre exem-
plos diferentes do mesmo objeto devem-se a fatores inevitáveis como ruído e oclusão. A utilização
de um espaço de características invariantes oferece três vantagens distintas. Primeiro, o número de
características aplicadas à rede pode ser reduzido a níveis realistas. Segundo, as exigências impos-
tas ao projeto da rede são relaxadas. Terceiro, é assegurada a invariância para todos os objetos em
relação a transformações conhecidas (Barnard e Casasent, 1991). Entretanto, para que ela funcio-
ne, esta abordagem requer conhecimento prévio do problema,
Concluindo, o uso de um espaço de características invariantes, como aqui descrito, pode pro-
porcionar uma técnica muito adequada para classificadores neurais.
Para ilustrar a idéia de um espaço de características invariantes, considere o exemplo de um
sistema de radar coerente utilizado para vigilância aérea, onde os alvos de interesse incluem aerona-
ves, sistemas meteorológicos, bandos de pássaros migratórios e objetos terrestres, Os ecos de radar
destes alvos possuem diferentes características espectrais. Além disso, estudos experimentais mos-
traram que estes sinais de radar podem ser modelados bastante ficlmente como um processo auto-
regressivo (AR) de ordem moderada (Haykin e Deng, 1991). Um modelo AR é uma forma especial
de modelo regressivo definido para dados de valores complexos como
x(n)= Salar eço (1.30)
t=1
onde as falo, são os coeficientes AR, M é a ordem do modelo, x(n) é a entrada e e(n) É o erro
descrito como ruído branco. Basicamente, o modelo AR da Eg. (1.30) é representado por um filtro
de linha de atraso com derivação como ilustrado na Fig. 1.22a para M = 2. De forma equivalente,
ele pode ser representado por um filtro de grade (lattice filter), como mostrado na Fig. 1.22b, cujos
coeficientes são chamados de coeficientes de reflexão. Existe uma correspondência de um para um
entre os coeficientes AR do modelo da Fig. 1.22a e os coeficientes de reflexão do modelo da Fig.
1.22b. Os dois modelos representados assumem que a entrada x(n) tem um valor complexo, como
Inrovução 57
LO ur ' O SÉ]
=o- + = —
=
EA Es
1 pa
DE ça ic
7
ars a
*
— - - oi qm:
dh
(a)
Ra
É . a
— .=—— Ta To ema uni tai
A a E
A E es 4
a
dE o
Lai É
—.. de - =
os el
NE o * ES
sia 7 Es r
pe L nt i ea
E
m = X Fm —— & de O mt
— mm ais * ar
FIGURA 1.22 Modelo auto-regressivo de ordem 2: (a) modelo de linha de atraso com derivação;
(b) modelo de filtro de grade (lattice filtem. (O asterisco representa conjugação complexa.)
no caso de um radar coerente, no qual os coeficientes AR e os coeficientes de reflexão são todos
valores complexos. O asterisco na Eg. (1.30) e na Fig. 1.22 significa a conjugação complexa. Por
enquanto, é suficiente se dizer que os dados do radar coerente podem ser descritos por um conjunto
de coeficientes auto-regressivos, ou por um conjunto correspondente de coeficientes de reflexão.
Este último conjunto de coeficientes terá uma vantagem computacional, pois existem algoritmos
eficientes para o seu cálculo diretamente a partir dos dados de entrada. Entretanto, o problema da
extração de características é complicado pelo fato de que objetos em movimento produzem
frequências Doppler variáveis que dependem de suas velocidades radiais, medidas em relação ao
radar, e que tendem a obscurecer o conteúdo espectral dos coeficientes de reflexão, usados como
discriminadores de características. Para superar esta dificuldade, devemos incluir a invariância
Doppler no cálculo dos coeficientes de reflexão. O ângulo de fase do primeiro coeficiente de refle-
xão vem a ser igual à frequência Doppler do sinal de radar. Consegiientemente, aplica-se a norma-
tização da freqiiência Doppler a todos os coeficientes de modo a remover o deslocamento Doppler
médio. Isto é feito definindo-se um novo conjunto de coeficientes de reflexão [x' ) relacionados
com o conjunto de coeficientes de reflexão ordinários [x, ) calculados a partir dos dados de entrada
como mostrado a seguir:
K= Ke? para m=1,2.., M (1.31)
onde 6 é o ângulo de fase do primeiro coeficiente de reflexão. A operação descrita pela Eq. (1.31) é
chamada de heteródina. Um conjunto de características de radar invariantes a Doppler é então
60 | RepEs NEURAIS
, a, RA !
a id mais É 4
FIGURA 1.24 Ilustração dos & no É
três componentes principais de E Raciótimo
um sistema de IA ic qe
“Conhecimento”, como é utilizado pelos pesquisadores de IA, é apenas mais um termo para
dados. Ele pode ser do tipo declarativo ou procedimental. Em uma representação declarativa, o
conhecimento é representado como uma coleção estática de fatos, com um pequeno conjunto de
procedimentos gerais utilizados para manipular os fatos. Uma característica particular das repre-
sentações declarativas é que elas parecem possuir um significado próprio, do ponto de vista do
usuário humano, independente do seu uso dentro do sistema de IA. Em uma representação
procedimental, por outro lado, o conhecimento está incorporado em um código executável que
representa o significado do conhecimento. Ambas as formas de conhecimento, declarativo e
procedimental, são necessárias na maioria dos domínios de problemas de interesse.
2. Raciocínio. Na sua forma mais básica, raciocínio é a habilidade de resolver problemas. Para um
sistema ser qualificado como um sistema de raciocínio, ele deve satisfazer certas condições (Fischler
e Firschein, 1987):
e O sistema deve ser capaz de expressar e resolver uma vasta gama de problemas e tipos de
problemas.
e O sistema deve ser capaz de tornar conhecidas para ele tanto a informação explícita como a
informação implícita.
e O sistema deve ter um mecanismo de controle que determine quais operações devem ser apli-
cadas para um problema particular, quando uma solução para este problema foi obtida, ou
quando deve ser encerrado o tratamento deste problema.
A resolução de problemas pode ser vista como um problema de busca. Uma maneira comum de
lidar com a “busca” é utilizar regras, dados e controle (Nilsson, 1980). As regras operam sobre os
dados, e o controle opera sobre as regras. Considere, por exemplo, o “problema do caixeiro viajan-
te”, no qual o objetivo é encontrar o roteiro mais curto que vá de uma cidade para outra, com todas
as cidades no roteiro sendo visitadas somente uma vez. Neste problema, os dados são constituídos
pelo conjunto dos roteiros possíveis e pelos seus custos em um grafo ponderado, as regras definem
as maneiras de prosseguir de uma cidade para outra, e o controle decide quais regras devem ser
aplicadas e quando aplicá-las.
Em muitas situações encontradas na prática (p. ex., no diagnóstico médico), o conhecimen-
to disponível é incompleto ou inexato. Em tais situações, são utilizados procedimentos de racioci-
nio probabilístico, permitindo deste modo que sistemas de IA lidem com incertezas (Russell e
Norvig, 1995; Pearl, 1988).
3. Aprendizagem. No modelo simples de aprendizagem de máquina representado na Fig. 1.25,0
ambiente fornece alguma informação para um elemento de aprendizagem.
Inrobução 61
Elemento de Base de Elemento de
Ambiente aprendizagem” "conhecimento" desempenho
des
FIGURA 1.25 Modelo simples de aprendizagem de máquina
O elemento de aprendizagem utiliza, então, esta informação para aperfeiçoar a base de conheci-
mento, e finalmente o elemento de desempenho utiliza a base de conhecimento para executar a sua
tarefa. Normalmente, a informação que o ambiente fornece para a máquina é imperfeita, resultando
que o elemento de desempenho não sabe previamente como preencher os detalhes ausentes ou
ignorar os detalhes que não são importantes. Portanto, a máquina opera inicialmente por suposição
e depois recebe realimentação do elemento de desempenho. O mecanismo de realimentação permi-
te que a máquina avalie suas hipóteses e as revise, se necessário.
A aprendizagem de máquina envolve dois tipos bastante diferentes de processamento de infor-
mação: o indutivo e o dedutivo. No processamento de informação indutivo, padrões gerais e regras
são determinados a partir dos dados brutos e da experiência. Por outro lado, no processamento de
informação dedutivo são utilizadas regras gerais para determinar fatos específicos. A aprendizagem
baseada em similaridade utiliza indução, enquanto que a prova de um teorema é uma dedução
baseada em axiomas conhecidos e em outros teoremas existentes. À aprendizagem baseada em
explanação utiliza tanto indução como dedução.
A importância das bases de conhecimento e as dificuldades experimentadas com a aprendiza-
gem levaram ao desenvolvimento de vários métodos para aperfeiçoar as bases de conhecimento.
Especificamente, se existirem especialistas em uma dada área, é normalmente mais fácil obter a
experiência compilada dos especialistas do que tentar duplicar os experimentos que os levaram a
adquirir esta experiência, Esta é a idéia por trás dos sistemas especialistas.
Agora que nos familiarizamos com as máquinas da IA simbólica, como nós as compararíamos
com as redes neurais como modelos cognitivos? Para esta comparação, seguimos três subdivisões:
o nível de explanação, o estilo de processamento e a estrutura representativa (Memmi, 1989).
1. Nível de Explanação. Na IA clássica, é dada ênfase à construção de representações simbóli-
cas, que são presumivelmente assim chamadas porque representam algo. Do ponto de vista da
cognição, a IA assume a existência de representações mentais e ela modela a cognição como o
processamento segiiencial de representações simbólicas (Newell e Simon, 1972).
Por outro lado, nas redes neurais a ênfase está no desenvolvimento de modelos de processamento
paralelamente distribuído (PDP, Parallel Distributed Processing). Estes modelos assumem que o
processamento de informação acontece através da interação de um grande número de neurônios,
onde cada neurônio envia sinais excitadores e inibitórios para outros neurônios da rede (Rumelhart
e McClelland, 1986). Além disso, as redes neurais dão grande ênfase à explanação biológica dos
fenômenos cognitivos.
2. Estilo de Processamento. Na IA clássica, o processamento é segiiencial, como na programa-
ção de computadores típica. Mesmo quando não há uma ordenação predeterminada (listando-se os
fatos e as regras de um sistema especialista, por exemplo), as operações são executadas passo a
passo. O mais provável é que a inspiração para o processamento segiiencial tenha vindo da natureza
sequencial da linguagem natural e da inferência lógica, bem como da estrutura da máquina de von
62 Repes NEURAIS
Neumann. Não devemos esquecer que a IA clássica surgiu pouco depois da máquina de von Neumann,
durante a mesma era intelectual.
O paralelismo, ao contrário, não é somente um conceito essencial ao processamento de infor-
mação em redes neurais, mas é também a fonte de sua flexibilidade. Além disso, o paralelismo pode
ser maciço (centenas de milhares de neurônios), o que dá às redes neurais uma forma notável de
robustez. Como a computação está distribuída sobre muitos neurônios, normalmente não importa
muito se os estados de alguns neurônios da rede se desviarem de seus valores esperados. Entradas
ruidosas ou incompletas podem ainda ser reconhecidas, uma rede danificada pode ainda ser capaz
de funcionar satisfatoriamente, e a aprendizagem não precisa ser perfeita. O desempenho da rede se
degrada suavemente dentro de um certo limite. A rede pode se tornar ainda mais robusta através da
“codificação grosseira” (Hinton, 1981), pela qual cada característica é espalhada sobre vários
neurônios.
3. Estrutura Representativa. Considerando que perseguimos uma linguagem do pensamento como
um modelo para a IA clássica, constatamos que as representações simbólicas possuem uma estrutu-
ra quase lingiiística. As expressões da IA clássica, assim como as expressões da linguagem natural,
são geralmente complexas, construídas de uma forma sistemática a partir de símbolos simples.
Dado um repertório limitado de símbolos, novas expressões significativas podem ser compostas em
virtude da capacidade de composição das expressões simbólicas e da analogia entre a estrutura
sintática e a semântica.
A natureza e estrutura das representações é, contudo, um problema crucial para as redes neurais.
Na edição especial de março de 1988 da revista Cognition, Fodor e Pylyshyn fazem críticas vigoro-
sas sobre a adequação das redes neurais em lidar com cognição e lingiística. Eles argumentam que
as redes neurais estão do lado errado em duas questões básicas da cognição: a natureza das repre-
sentações meniais e a natureza dos processos mentais. De acordo com Fodor e Pylyshyn, pode-se
afirmar para as teorias da IA clássica, mas não para as redes neurais, que:
e As representações mentais exibem de forma característica uma estrutura constituinte
combinatória e semântica combinatória.
e (Os processos mentais são caracteristicamente sensíveis à estrutura combinatória das represen-
tações sobre as quais operam.
Em resumo, podemos descrever a IA simbólica como a manipulação formal de uma linguagem de
algoritmos e representações de dados em uma forma de cima para baixo (top-down). Por outro lado,
podemos descrever as redes neurais como processadores distribuídos paralelamente com uma habi-
lidade natural para aprender e que normalmente operam de uma forma de baixo para cima (bottom-
up). Portanto, torna-se evidente que, para a implementação de tarefas cognitivas, melhor que procu-
rar soluções baseadas em IA simbólica ou em redes neurais isoladamente, uma abordagem potenci-
almente mais vantajosa seria construir modelos conexionistas estruturados ou sistemas híbridos
que integrem ambas as abordagens. Fazendo isso, somos capazes de combinar as características
desejáveis de adaptabilidade, robustez e uniformidade oferecidas pelas redes neurais com a repre-
sentação, inferência e universalidade, que são características inerentes da IA simbólica (Feldman,
1992; Waltz, 1997). De fato, foi com este objetivo em mente, que foram desenvolvidos vários méto-
dos para extração de regras a partir de redes neurais treinadas. Além do entendimento de como as
abordagens simbólica e conexionista podem ser integradas para construir máquinas inteligentes, há
várias outras razões para a extração de regras de redes neurais (Andrews e Diederich, 1996):
INnmrovução 65
Von Neumann foi uma das grandes figuras da ciência na primeira metade do século vinte. A
arquitetura de von Neumann, básica para o projeto de um computador digital, é assim denominada
em sua homenagem. Em 1955, foi convidado pela Universidade de Yale para proferir as Palestras
Silliman durante 1956. Ele morreu em 1957, e o manuscrito inacabado das Palestras Silliman foi
publicado mais tarde como um livro, The Computer and the Brain (1958). Este livro é interessante
porque sugere o que von Neumann teria feito se tivesse vivido; ele teria se dado conta das diferenças
profundas entre cérebros e computadores.
Uma questão particularmente interessante no contexto das redes neurais é aquela do projeto
de uma rede confiável com neurônios que podem ser vistos como componentes não-confiáveis. Este
problema importante foi resolvido por von Neumann (1956) utilizando a idéia de redundância, o
que motivou Winograd e Cowan (1963) a sugerir a utilização de uma representação redundante
distribuída para as redes neurais. Winograd e Cowan mostraram como um número grande de ele-
mentos pode coletivamente representar um conceito individual, com o aumento correspondente em
robustez e paralelismo.
Cerca de 15 anos após a publicação do clássico artigo de McCulloch e Pitts, uma nova aborda-
gem para o problema de reconhecimento de padrões foi introduzida por Rosenblatt (1958) em seu
trabalho sobre o perceptron, um método inovador de aprendizagem supervisionada. O coroamento
do trabalho de Rosenblatt foi o chamado teorema da convergência do perceptron, cuja primeira
demonstração foi delineada por Rosenblatt (1960b); outras provas do teorema também apareceram
em Novikoff (1963) e outros. Em 1960, Widrow e Hoff introduziram o algoritmo do mínimo qua-
drado médio (LMS, Least Mean-Square) e o usaram para formular o Adaline (adaptive linear element,
elemento linear adaptativo). A diferença entre o perceptron e o Adaline está no procedimento de
aprendizagem. Uma das primeiras redes neurais em camadas treináveis com múltiplos elementos
adaptativos foi a estrutura Madaline (multiple-adaline) proposta por Widrow e seus estudantes
(Widrow, 1962). Em 1967, Amari utilizou o método do gradiente estocástico para classificação
adaptativa de padrões. Em 1965, foi publicado o livro de Nilsson, Learning Machines que ainda é a
exposição mais bem escrita sobre padrões linearmente separáveis por hipersuperfícies. Durante o
período clássico do perceptron nos anos 1960, parecia que as redes neurais poderiam realizar qual-
quer coisa. Mas então veio o livro de Minsky e Papert (1969), que utilizaram a matemática para
demonstrar que existem limites fundamentais para aquilo que os perceptrons de camada única po-
dem calcular. Em uma breve seção sobre perceptrons de múltiplas camadas, eles afirmavam que não
havia razão para supor que qualquer uma das limitações do perceptron de camada única poderia ser
superada na versão de múltiplas camadas.
Um problema importante encontrado no projeto de um perceptron de múltiplas camadas é o
problema de atribuição de crédito (i.e., o problema de atribuir crédito a neurônios ocultos da rede).
A terminologia “atribuição de crédito” foi utilizada primeiro por Minsky (1961), sob o título de “O
Problema de Atribuição de Crédito para Sistemas de Aprendizagem por Reforço”. No final dos anos
1960, já havia sido formulada a maioria das idéias e conceitos necessários para resolver o problema
de atribuição de crédito do perceptron, bem como muitas das idéias que fundamentam as redes
(neurais de atratores) recorrentes que são agora denominadas redes de Hopfield. Entretanto, tive-
mos que esperar até os anos 80 para que emergissem as soluções para esses problemas básicos. De
acordo com Cowan (1990) houve três razões para este atraso de mais de 10 anos:
e Uma razão foi tecnológica — não havia computadores pessoais ou estações de trabalho para a
experimentação. Quando Gabor, por exemplo, desenvolveu o seu filtro não-linear de aprendi-
zagem, seu grupo de pesquisadores levou mais seis anos para construir o filtro com dispositi-
vos analógicos (Gabor, 1954; Gabor et al., 1960).
66 | RepEs NEURAIS
e A outra razão foi em parte psicológica e em parte financeira. A monografia de 1969 de
Minsky e Papert certamente não encorajou ninguém a trabalhar com perceptrons, tampouco
as agências a apoiar trabalhos sobre eles.
e A analogia entre redes neurais e spins de grade foi prematura. O modelo do vidro de spins de
Sherrington e Kirkpatrick foi inventado somente em 1975.
Estes fatores contribuíram de um modo ou de outro para o esmorecimento do interesse continuado
em redes neurais nos anos 70. Muitos pesquisadores, com exceção daqueles que trabalhavam em
psicologia e em neurociências, abandonaram a área durante aquela década. De fato, somente um
punhado dos pioneiros originais mantiveram seu comprometimento com as redes neurais. De uma
perspectiva de engenharia, podemos considerar os anos 70 como uma década de adormecimento
para as redes neurais.
Uma atividade importante que emergiu nos anos 70 foram os mapas auto-organizáveis utili-
zando aprendizagem competitiva. O trabalho em simulação computacional feito por von der Malsburg
(1973) talvez tenha sido o primeiro a demonstrar a auto-organização. Em 1976, Willshaw e von der
Malsburg publicaram o primeiro artigo sobre a formação de mapas auto-organizáveis, motivados
pelos mapas ordenados de forma topológica do cérebro.
Nos anos 80, foram feitas importantes contribuições em várias frentes à teoria e ao projeto de
redes neurais, e com isso houve um ressurgimento do interesse pelas redes neurais.
Grossberg (1980), baseando-se no seu trabalho anterior sobre aprendizagem competitiva
(Grossberg, 1972, 1976a, b), estabeleceu um novo princípio de auto-organização conhecido como
teoria da ressonância adaptativa (ART, Adaptive Resonance Theory). Basicamente, a teoria envol-
ve uma camada de reconhecimento de baixo para cima (bottom-up) e uma camada generativa de
cima para baixo (top-down). Se o padrão de entrada e o padrão realimentado aprendido coincidi-
rem, então ocorre um estado dinâmico chamado de “ressonância adaptativa” (i.e., amplificação e
prolongamento da atividade neural). Este princípio de projeções para frenteipara trás foi redescoberto
por outros pesquisadores sob diferentes aspectos.
Em 1982, Hopfield utilizou a idéia de uma função de energia para formular um novo modo de
se entender a computação executada por redes recorrentes com conexões sinápticas simétricas.
Além disso, ele estabeleceu o isomorfismo entre uma rede recorrente assim definida e o modelo
Esing utilizado na física estatística. Esta analogia desencadeou um grande interesse da física teórica
(e dos físicos) pela modelagem neural, transformando com isso a área de redes neurais. Esta classe
particular de redes neurais com realimentação atraiu muita atenção nos anos 1980, e no decorrer do
tempo tornou-se conhecida como redes de Hopjield. Apesar de as rede de Hopfield não serem
modelos realísticos dos sistemas neurobiológicos, o princípio que elas incorporam, isto é, O
armazenamento de informação em redes dinamicamente estáveis, é profundo. A origem deste prin-
cípio remonta ao trabalho pioneiro de muitos outros investigadores:
e Cragg e Tamperley (1954, 1955) observaram que assim como os neurônios podem ser “dispa-
rados” (ativados) ou “não disparados” (quiescentes), também os átomos em uma rede têm
seus spins apontando “para cima” ou “para baixo”.
e Cowan (1967) introduziu a característica de disparo “sigmóide” e a condição de disparo suave
para um neurônio que era baseada na função logística.
e Grossberg (1967, 1968) introduziu o modelo aditivo de um neurônio, envolvendo equações
não-lincares de diferenças/diferenciais e explorou o uso do modelo como uma base para a
memória de curto prazo.
INnrobução 67
e Amari (1972) introduziu, de forma independente, o modelo aditivo de um neurônio e o utili-
zou para estudar o comportamento dinâmico de elementos semelhantes a neurônios conectados
aleatoriamente.
e Wilson e Cowan (1972) derivaram equações diferenciais não-lineares acopladas correspon-
dentes à dinâmica de populações localizadas no espaço, contendo neurônios tanto excitadores
como inibitórios.
e Little e Shaw (1975) descreveram um modelo probabilístico de um neurônio, quer disparando
ou não um potencial de ação, e usaram o modelo para desenvolver uma teoria da memória de
curto prazo.
e Anderson, Silverstein, Ritz e Jones (1977) propuseram o modelo do estado cerebral em uma
caixa (brain-state-in-a-box, BSB), consistindo de uma rede associativa simples acoplada a
uma dinâmica não-linear.
Não causa surpresa, portanto, que a publicação do artigo de Hopfield em 1982 tenha gerado tanta
controvérsia. Apesar disso, foi neste mesmo artigo que pela primeira vez o princípio do
armazenamento de informação em redes dinamicamente estáveis foi explicitado. Além disso, Hopfield
mostrou que ele havia se baseado no modelo do vidro de spins da mecânica estatística para exami-
nar o caso especial das redes recorrentes com conexões simétricas, garantindo com isso a sua con-
vergência para uma condição estável. Em 1983, Cohen e Grossberg estabeleceram um princípio
geral para estimar a estabilidade de uma memória endereçável por conteúdo, que inclui a versão de
tempo contínuo da rede de Hopfield como um caso especial. Uma característica distintiva de uma
rede neural de atratores é o modo natural como o tempo, uma dimensão essencial para a aprendiza-
gem, se manifesta na dinâmica não-linear da rede. Neste contexto, o teorema de Cohen-Grossberg
é de profunda importância.
Um outro desenvolvimento importante em 1982 foi a publicação do artigo de Kohonen sobre
os mapas auto-organizáveis (Kohonen, 1982), utilizando uma estrutura de rede unidimensional ou
bidimensional, que era em alguns aspectos diferente do trabalho anterior de Willshaw e von der
Malsburg. O modelo de Kohonen recebeu muito mais atenção em um contexto analítico e em rela-
ção às aplicações na literatura que o modelo de Willshaw-von der Malsburg, e tornou-se uma refe-
rência para a avaliação de outras inovações neste campo.
Em 1983, Kirkpatrick, Gelatt e Vecchi descreveram um novo procedimento denominado
recozimento simulado, para resolver problemas de otimização combinatória. O recozimento simu-
lado tem suas raízes na mecânica quântica. Ele é baseada em uma técnica simples que foi primeira-
mente utilizada em simulações computacionais por Metropolis et al. (1953). A idéia do recozimento
simulado foi utilizada mais tarde por Ackley, Hinton e Sejnowski (1985) no desenvolvimento de
uma máquina estocástica conhecida como a máquina de Boltzmann, que foi a primeira realização
bem-sucedida de uma rede neural de múltiplas camadas. Apesar de o algoritmo de aprendizagem da
máquina de Boltzmann não ter se mostrado tão eficiente do ponto de vista computacional como o
algoritmo de retropropagação (Back-propagation), ele superou o impasse psicológico, mostrando
que a especulação de Minsky e Papert (1969) não estava corretamente embasada. A máquina de
Boltzmann também serviu de base para o desenvolvimento subsequente das redes de crença sigmóide
de Neal (1992), que conseguiu realizar duas coisas: (1) a melhoria significativa da aprendizagem e
(2) a ligação das redes neurais às redes de crença (Pearl, 1988). Uma melhoria adicional no desem-
penho das redes de crença sigmóide foi realizada por Saul, Jakkolla e Jordan (1996) utilizando a
teoria do campo médio, uma técnica também com raízes na mecânica estatística.
Um artigo de Barto, Sutton e Anderson sobre aprendizagem por reforço foi publicado em
1983. Apesar de eles não terem sido os primeiros a utilizar aprendizagem por reforço (Minsky a
70 Renes NEURAIS
5.
7.
PROBLEMAS
e Schwartz (1991), Shepherd (1990a, b), Koch e Segev (1989), Kuffler et al. (1984) e
Freeman (1975).
Para um relato minucioso das funções sigmóides e questões relacionadas, veja Menon et
al. (1996).
A função logística, ou mais precisamente a função de distribuição logística, deriva seu
nome de uma “lei de crescimento logístico” transcendental que resultou em uma imensa
literatura. Se medidos em unidades apropriadas, todos os processos de crescimento são
supostamente representados pela função distribuição logística
1
ERd= Irest
onde t representa o tempo, e ote À) são constantes. Entretanto, verificou-se que não somen-
te a distribuição logística mas também a gaussiana e outras distribuições podem ser aplica-
das aos mesmos dados com os mesmos resultados de ajuste ou até melhores (Feller, 1968).
De acordo com Kuffler et al. (1984), o termo “campo receptivo” foi cunhado originalmen-
te por Sherrington (1906) e introduzido novamente por Hartline (1940). No contexto de
um sistema visual, o campo receptivo de um neurônio se refere à área restrita sobre a
superfície retinal, que influencia as descargas daquele neurônio causadas pela luz.
Aparentemente, a técnica de compartilhamento de pesos foi originalmente descrita em
Rumelhart et al. (1986b).
As notas históricas apresentadas aqui são enormemente (mas não exclusivamente) basea-
das nas seguintes fontes: (1) o artigo de Saarinen et al. (1992): (2) o capítulo escrito por
Rall (1990): (3) o artigo de Widrow e Lehr (1990); (4) os artigos de Cowan (1990) e
Cowan e Sharp (1988); (5) o artigo de Grossberg (1988c): (6) o livro em dois volumes
sobre computação neural (Anderson et al., 1990; Anderson e Rosenfeld, 1988): (7) o capí-
tulo escrito por Selfridge et al. (1988); (8) a coleção de artigos de von Neumann sobre
computação e teoria da computação (Aspray e Burks, 1986); (9) o manual sobre a teoria
do cérebro e redes neurais editado por Arbib (1995); (10) o Capítulo 1 do livro de Russel
e Norvig (1995); e (11) o artigo de Taylor (1997).
Modelos de um neurônio
1.1
1.2
Um exemplo de função logística é definida por
1
pin) = 1+exp(-av)
cujos valores limites são O e 1. Mostre que a derivada de q (v) em relação a v é dada por
GR. :
e ap(v)[1-q(v)]
Qual é o valor desta derivada na origem?
Uma função sigmóide ímpar é definida por
- lI-exp(-av)
I+exp(-av)
cm
q(v)
1.3
1.4
1.5
1.6
1.7
1.8
Introbução 71
onde tanh representa a tangente hiperbólica. Os valores limites desta segunda função
sigmóide são —1 e +1. Mostre que a derivada de q (v) em relação a v é dada por
dy “q 2
ES =.
ão — 21 $(0)]
Qual é o valor desta derivada na origem? Suponha que o parâmetro de inclinação a seja
infinitamente grande. Qual é a forma resultante de q (1) ?
Uma outra função sigmóide ímpar é a sigmóide algébrica:
q()=——
vl+o?
cujos valores limites são —1 e +1. Mostre que a derivada de q (v) em relação a v é dada por
do PU)
dv vu
Qual é o valor desta derivada na origem?
Considere as duas seguintes funções:
o 2
o o)=-5=) exo(-5 as
(ii) q(v)= Zan (v)
Explique por que estas duas funções satisfazem os requisitos de uma função sigmóide. De
que modo estas duas funções diferem entre si?
Qual das cinco funções sigmóides descritas nos Problemas 1,1 a 1.4 seria qualificada como
uma função distribuição (de probabilidade) cumulativa? Justifique a sua resposta,
Considere a função de ativação pseudolinear q (v) mostrada na Fig. P1.6.
E» v
1
-05a 4 0,5
FIGURA P1.6
(a) Formule q (v) como uma função de v.
(b) O que acontece com q (v) se a aproximar-se de zero?
Repita o Problema 1.6 para a função de ativação pseudolinear q (v) mostrada na Fig. P1.7.
Um neurônio tem uma função de ativação q (v) definida pela função logística do problema
1.1, onde v é o campo local induzido, e o parâmetro de inclinação a está disponível para
ajustes. Considere que x,, X,, ..., X,. Tepresentem os sinais de entrada aplicados aos nós de
fonte do neurônio e que b represente o bias. Por conveniência de representação, podemos
fazer com que o parâmetro de inclinação a seja absorvido pelo campo local induzido v,
escrevendo
72 Repes NEURAIS
1.9
1.10
1,11
FIGURA Pi,7
Como você modificaria as entradas x, X,»., X, de forma a produzir a mesma saída de
antes? Justifique a sua resposta.
Um neurônio j recebe entradas de quatro outros neurônios cujos níveis de ativação são 10,
-20,4e -2. Os respectivos pesos sinápticos do neurônio j são 0,8, 0,2, -1,0 e 0,9. Calcule
a saída do neurônio j para as duas seguintes situações:
(a) O neurônio é linear.
(b) O neurônio é representado por um modelo de McCulloch-Pitts.
Assuma que o bias aplicado ao neurônio é zero,
Repita o Problema 1,9 para um modelo de neurônio baseado na função logística
1
quo= I+exp(-v)
(a) Mostre que o modelo formal de McCulloch-Pitts de um neurônio pode ser aproxima-
do por um neurônio sigmóide (1.e., um neurônio que utiliza uma função de ativação
sigmóide) com pesos sinápticos grandes,
(b) Mostre que um neurônio linear pode ser aproximado por um neurônio sigmóide com
pesos sinápticos pequenos.
Arquiteturas de rede
1.12
1,13
1.14
1.15
1.16
1.17
Uma rede alimentada adiante totalmente conectada tem 10 nós de fonte, 2 camadas ocul-
tas, uma com 4 neurônios e a outra com 3 neurônios e um único neurônio de saída. Cons-
trua um grafo arquitetural desta rede,
(a) A Figura P1.13 mostra um grafo de fluxo de sinal de uma rede 2-2-2-1 alimentada
adiante. A função q(:) representa uma função logística. Escreva o mapeamento de
entrada-saída definido por esta rede,
(b) Suponha que o neurônio de saída do grafo de fluxo de sinal da Fig. P1.13 opere na sua
região linear. Escreva o mapeamento de entrada-saída definido por esta nova rede,
A rede descrita na Fig. P1.13 não tem bias. Suponha que bias iguais a —1 e +1 sejam
aplicados aos neurônios superior e inferior da primeira camada oculta, e bias iguais a +l e
—2 sejam aplicados aos neurônios superior e inferior da segunda camada oculta, respecti-
vamente. Escreva a nova forma do mapeamento de entrada-saída definido pela rede.
Considere uma rede de múltiplas camadas alimentada adiante, na qual todos os neurônios
operam nas suas regiões lineares. Justifique a afirmação de que esta rede é equivalente a
uma rede alimentada adiante de camada única.
Construa uma rede totalmente recorrente com 5 neurônios, mas sem auto-realimentação.
A Figura P1.17 mostra um grafo de fluxo de sinal de uma rede recorrente constituída de
dois neurônios. Escreva a equação de diferenças não-linear que define a evolução de x (n)
CAPÍTULO 2
Processos de Aprendizagem
2.1 INTRODUÇÃO
A propriedade que é de importância primordial para uma rede neural é a sua habilidade de aprender
a partir de seu ambiente e de melhorar o seu desempenho através da aprendizagem. A melhoria do
desempenho ocorre com o tempo de acordo com alguma medida preestabelecida. Uma rede neural
aprende acerca do seu ambiente através de um processo interativo de ajustes aplicados a seus pesos
sinápticos e níveis de bias. Idealmente, a rede se torna mais instruída sobre o seu ambiente após
cada iteração do processo de aprendizagem.
Há atividades demais associadas à noção de “aprendizagem” para justificar a sua definição de
forma precisa. Além disso, o processo de aprendizagem depende do ponto de vista, o que causa
dificuldades em se obter um consenso sobre uma definição precisa do termo. A aprendizagem do
ponto de vista de um psicólogo, por exemplo, é bastante diferente da aprendizagem em um sentido
de sala de aula. Reconhecendo que o nosso interesse particular se concentra nas redes neurais,
utilizamos uma definição de aprendizagem que é adaptada de Mendel e McClaren (1970).
Definimos aprendizagem no contexto de redes neurais como:
Aprendizagem é um processo pelo qual os parâmetros livres de uma rede neural são adaptados
através de um processo de estimulação pelo ambiente no qual a rede está inserida. O tipo de
aprendizagem é determinado pela maneira pela qual a modificação dos parâmetros ocorre.
Esta definição do processo de aprendizagem implica a seguinte segliência de eventos:
1. A rede neural é estimulada por um ambiente.
2. Arede neural sofre modificações nos seus parâmetros livres como resultado desta estimulação,
3. Arede neural responde de uma maneira nova ao ambiente, devido às modificações ocorridas na
sua estrutura interna.
76 RepEs NEURAIS
Um conjunto preestabelecido de regras bem-definidas para a solução de um problema de apren-
dizagem é denominado um algoritmo de aprendizagem! Como se pode esperar, não há um algoritmo
de aprendizagem único para o projeto de redes neurais. Em vez disso, temos um “conjunto de
ferramentas” representado por uma variedade de algoritmos de aprendizagem, cada qual oferecen-
do vantagens específicas. Basicamente, os algoritmos de aprendizagem diferem entre si pela forma
como é formulado o ajuste de um peso sináptico de um neurônio. Um outro fator a ser considerado
é a maneira pela qual uma rede neural (máquina de aprendizagem), constituída de um conjunto de
neurônios interligados, se relaciona com o seu ambiente. Neste último contexto, falamos de um
paradigma de aprendizagem que se refere a um modelo do ambiente no qual a rede neural opera.
Organização do Capítulo
O capítulo está organizado em quatro partes inter-relacionadas. Na primeira parte, que consiste das
Seções 2.2 a 2.6, discutimos cinco regras básicas de aprendizagem: aprendizagem por correção de
erro, aprendizagem baseada em memória, aprendizagem hebbiana, aprendizagem competitiva e
aprendizagem de Boltzmann. A aprendizagem por correção de erro está fundamentada na filtragem
ótima. A aprendizagem baseada em memória opera memorizando explicitamente os dados de trei-
namento. Tanto a aprendizagem hebbiana como a aprendizagem competitiva são inspiradas em
considerações neurobiológicas. A aprendizagem de Boltzmann é diferente porque é baseada em
idéias tomadas emprestadas da mecânica estatística.
A segunda parte do capítulo explora os paradigmas de aprendizagem. A Seção 2.7 discute o
problema de atribuição de crédito, que é básico para o processo de aprendizagem. As Seções 2.8 e
2.9 apresentam um resumo de dois paradigmas de aprendizagem: (1) a aprendizagem com um pro-
fessor e (2) a aprendizagem sem um professor.
A terceira parte do capítulo, que consiste das Seções 2.10 a 2.12, examina as questões relativas
às tarefas de aprendizagem, memória e adaptação.
A parte final do capítulo, que consiste das Seções 2.13 a 2.15, trata dos aspectos probabilísticos
e estatísticos do processo de aprendizagem. A Seção 2.13 discute o dilema bias/variância. A seção
2.14 discute a teoria estatística da aprendizagem, baseada na noção da dimensão V-C que fornece
uma medida da capacidade da máquina. A Seção 2.14 introduz um outro conceito importante: a
aprendizagem provavelmente aproximadamente correta (PAC), que fornece um modelo conservativo
para o processo de aprendizagem.
O capítulo é concluído com algumas considerações finais na Seção 2.16.
2.2 APRENDIZAGEM POR CORREÇÃO DE ERRO
Para ilustrar nossa primeira regra de aprendizagem, considere o caso simples de um neurônio k que
constitui o único nó computacional da camada de saída de uma rede neural alimentada adiante,
como representado na Fig. 2.1a. O neurônio k é acionado por um vetor de sinal x(n) produzido por
uma ou mais camadas de neurônios ocultos, que são, por sua vez, acionadas por um vetor de entrada
(estímulo) aplicado aos nós de fonte (i.e., a camada de entrada) da rede neural. O argumento n
representa o instante de tempo discreto, ou mais precisamente, o passo de tempo de um processo
iterativo envolvido no ajuste dos pesos sinápticos do neurônio k. O sinal de saída do neurônio k é
representado por y,(n). Este sinal de saída, representando a única saída da rede neural, é comparado
com uma resposta desejada ou saída-alvo, representada por d (n). Conseguentemente, é produzido
um sinal de erro, representado por e (n). Por definição, temos assim
Processos DE APRENDIZAGEM 77
I
|
Uma ou mais É t
Vetor de entrada camadas de x(n) Neurônio de | dn) ddr)
E saída
i neurônios k | a E
] ocultos |
7 | | en)
1 l
i
A ea ue e um e e e e e e e e e e e e e e e e e e e em me)
Rede de múltiplas camadas
alimentadas adiante
(a) Diagrama em blocos de uma rede neural,
ressaltando o único neurônio da canada
de saída
contanto
E -
«Mel
“.r
dt Ma IS,
Mesa Wi '
alado É EEE o .=——..— ao + nqiil
Mt o, ro nl
aus F
Wim 4 x E
z de sqonÊ Ri “Era
atue
(b) Grafo de fluxo de sinal do neurônio de saída
FIGURA 2.1 Ilustração da aprendizagem por correção de erro
edn)= dn) -»4n) (2.1)
O sinal de erro e (n) aciona um mecanismo de controle, cujo propósito é aplicar uma segiiência de
ajustes corretivos aos pesos sinápticos do neurônio k. Os ajustes corretivos são projetados para
aproximar passo a passo o sinal de saída y, (n) da resposta desejada d (n). Este objetivo é alcançado
minimizando-se uma função de custo ou índice de desempenho, &(n), definido em termos do sinal
de erro e, (n) como:
Ema sem) (2.2)
Com isso, &(n) é o valor instantâneo da energia do erro. Os ajustes passo a passo dos pesos sinápticos
do neurônio k continuam até o sistema atingir um estado estável (i.e., os pesos sinápticos estão
essencialmente estabilizados). Neste ponto, o processo é encerrado.
O processo de aprendizagem descrito aqui é denominado, por razões óbvias, aprendizagem
por correção de erro. Em particular, a minimização da função de custo &(n) resulta na regra de
aprendizagem normalmente referida como regra delta ou regra de Widrow-Hojf, assim denominada
em homenagem aos seus criadores (Widrow e Hoff, 1960). Suponha que w, ln) represente o valor
do peso sináptico 1, do neurônio k excitado por um elemento x (n) do vetor de sinal x(n) no passo
de tempo n. De acordo com a regra delta, o ajuste Aw, (n) aplicado ao peso sináptico 10, no passo
de tempo n é definido por
Aew, ln) =ne (nx (n) (2.3)
80 Renes Neurais
e Atribua x, à classe (hipótese) que está mais freglentemente representada nos k vizinhos
mais próximos de x... (i.e. use uma votação majoritária para fazer a classificação).
Assim, o classificador pelos k vizinhos mais próximos atua como um dispositivo que calcula a
média. Em particular, ele discrimina um dado estranho, como ilustrado na Fig. 2.2 para k = 3. Um
dado estranho é uma observação que tem um valor improvável em relação a um modelo de interes-
se.
No Capítulo 5, discutimos um outro tipo importante de classificador baseado em memória,
conhecido como rede de função de base radial.
! FIGURA 2.2 A área contida no interior
LE 4 do círculo tracejado inclui dois pontos
a Ih pertencentes à classe 1 e um ponto
li fa estranho pertencente à classe 0. O
Estranho == teto DM ponto d corresponde ao vetor de teste
ne =] X ate COM K=3, O classificador pelos k
jo AA vizinhos mais próximos atribui a classe
1 ao ponto d, mesmo ele estando mais
| I próximo ao dado estranho
2.4 APRENDIZAGEM HEBBIANA
O postulado de aprendizado de Hebb é a mais antiga e mais famosa de todas as regras de aprendi-
zagem; ele é assim denominado em homenagem ao neuropsicólogo Hebb (1949). Citando o livro de
Hebb (1949, p.62), The Organization of Behavior:
Quando um axônio da célula A está perto o suficiente para excitar uma célula B e participa do seu
disparo repetida ou persistentemente, então algum processo de crescimento ou modificação meta-
bólica acontece em uma das células ou em ambas, de tal forma que a eficiência de A como uma das
células que dispara B é aumentada.
Hebb propôs esta modificação como uma base da aprendizagem associativa (a nível celular), que
resultaria em uma modificação permanente do padrão de atividade de um “agrupamento de células
nervosas” espacialmente distribuído.
Esta afirmação foi feita em um contexto neurobiológico. Podemos expandir e rescrevê-la como
uma regra em duas partes (Stent, 1973; Changeux e Danchin, 1976):
1. Se dois neurônios em ambos os lados de uma sinapse (conexão) são ativados simultaneamente
(i.e. sincronamente), então a força daquela sinapse é seletivamente aumentada,
2. Se dois neurônios em ambos os lados de uma sinapse são ativados assincronamente, então
aquela sinapse é seletivamente enfraquecida ou eliminada.
Uma sinapse assim é denominada uma sinapse hebbiana (A regra de Hebb original não contém a
parte 2). Mais precisamente, definimos uma sinapse hebbiana como uma sinapse que usa um meca-
nismo dependente do tempo, altamente local e fortemente interativo para aumentar a eficiência
Processos DE APRENDIZAGEM 81
sináptica como uma função da correlação entre as atividades pré-sináptica e pós-sináptica. A
partir desta definição podemos deduzir os seguintes quatro mecanismos (propriedades) fundamen-
tais que caracterizam uma sinapse hebbiana (Brown et al., 1990):
1. Mecanismo dependente do tempo. Este mecanismo se refere ao fato de que as modificações
em uma sinapse hebbiana dependem do tempo exato de ocorrência dos sinais pré-sinápticos e pós-
sinápticos.
2. Mecanismo Local. Pela sua natureza, uma sinapse é um local de transmissão onde sinais por-
tadores de informação (representando a atividade incidente nas unidades pré-sináptica e pós-sináptica)
estão em contigúidade espaço-temporal. Esta informação localmente disponível é utilizada por
uma sinapse hebbiana para produzir uma modificação sináptica local que é específica para a entra-
da.
3. Mecanismo interativo. A ocorrência de uma modificação em uma sinapse hebbiana depende
dos sinais em ambos os lados da sinapse. Isto é, uma forma de aprendizagem hebbiana depende de
uma “interação verdadeira” entre os sinais pré-sináptico e pós-sináptico, no sentido de que não
podemos fazer uma previsão a partir de apenas uma dessas duas atividades, Note também que esta
dependência ou interação pode ser de natureza determinística ou estatística.
4. Mecanismo conjuncional ou correlativo. Uma interpretação do postulado de aprendizado de
Hebb é que a condição para uma modificação da eficiência sináptica é a conjunção dos sinais pré-
sináptico é pós-sináptico. Assim, de acordo com esta interpretação, a ocorrência simultânea dos
sinais pré-sináptico e pós-sináptico (dentro de um curto intervalo de tempo) é suficiente para produ-
zir a modificação sináptica. É por esta razão que uma sinapse hebbiana é algumas vezes denomina-
da sinapse conjuncional. Para uma outra interpretação do postulado de aprendizado de Hebb, pode-
mos considerar o mecanismo interativo que caracteriza uma sinapse hebbiana em termos estatísti-
cos. Em particular, a correlação temporal entre os sinais pré-sináptico e pós-sináptico é vista como
sendo responsável por uma modificação sináptica. Neste sentido, uma sinapse hebbiana é também
denominada uma sinapse correlativa. A correlação é de fato a base do aprendizado (Eggermont,
1990).
Reforço e Depressão Sinápticos
A definição de uma sinapse hebbiana apresentada aqui não inclui processos adicionais que podem
resultar no enfraquecimento de uma sinapse conectando um par de neurônios. De fato, podemos
generalizar o conceito de uma modificação hebbiana reconhecendo que uma atividade positivamen-
te correlacionada produz reforço sináptico e que uma atividade não-correlacionada ou negativa-
mente correlacionada produz enfraquecimento sináptico (Stent, 1973). A depressão sináptica pode
ser também do tipo não-interativo. Especificamente, a condição interativa para o enfraquecimento
sináptico pode ser simplesmente a atividade não-coincidente pré-sináptica ou pós-sináptica.
Podemos seguir um passo à frente, classificando uma modificação sináptica como hebbiana,
anti-hebbiana e não-hebbiana (Palm, 1982). De acordo com este esquema, uma sinapse hebbiana
aumenta sua força com sinais pré-sináptico e pós-sináptico positivamente correlacionados e dimi-
nui a sua força quando estes sinais não são correlacionados ou são negativamente correlacionados.
Inversamente, uma sinapse anti-hebbiana enfraquece sinais pré-sináptico e pós-sináptico positiva-
mente correlacionados e reforça sinais negativamente correlacionados. Tanto em uma sinapse
hebbiana como em uma sinapse anti-hebbiana, entretanto, a modificação da eficiência sináptica se
baseia em um mecanismo que é dependente do tempo, altamente local e de natureza fortemente
interativa. Neste sentido, uma sinapse anti-hebbiana é ainda de natureza hebbiana, apesar de não o
82 Repes NEURAIS
ser funcionalmente. Uma sinapse não-hebbiana, por outro lado, não envolve qualquer tipo de meca-
nismo hebbiano.
Modelos Matemáticos de Modificações Hebbianas
Para formular a aprendizagem hebbiana em termos matemáticos, considere um peso sináptico 1,,
do neurônio k com sinais pré-sináptico e pós-sináptico representados por x e y,, respectivamente. O
ajuste aplicado ao peso sináptico ww, no passo de tempo n é expresso na forma geral
Aw Xn) = FO kn), x (1) (2.8)
onde F(:,-) é uma função tanto do sinal pré-sináptico como do pós-sináptico. Os sinais x(n) en)
são freqiientemente tratados como adimensionais. A fórmula da Eq. (2.8) admite muitas formas,
sendo que todas são qualificadas como hebbianas. A seguir, consideramos duas destas formas.
Hipótese de Hebb. A forma mais simples de aprendizagem hebbiana é descrita por
Sw ln) =np,Ca)x (1) (2.9)
onde 1 é uma constante positiva que determina a taxa de aprendizagem. A Equação (2.9) claramen-
te enfatiza a natureza correlativa de uma sinapse hebbiana. Ela é algumas vezes referida como a
regra do produto das atividades. À curva superior da Fig. 2.3 mostra uma representação gráfica da
Eq. (2.9), com a modificação Aw, traçada em função do sinal de saída (atividade pós-sináptica) ,.
Desta representação, vemos que a aplicação repetida do sinal de entrada (atividade pré-sináptica) X,
resulta em um aumento de y, e, portanto, em um crescimento exponencial que ao final leva a cone-
xão sináptica à saturação. Naquele ponto nenhuma informação será armazenada na sinapse e a
seletividade é perdida.
Awk; Hipótese de Hebb
inclinação = na;
Hipótese da
inclinação = nfx, — X) sda
4 covariância
Ponto de Atividade
balanço = 7 pós-sináptica yy
=n6g-3p
Ponto de
FIGURA 2.3 Ilustração depressão
da hipótese de Hebb e da máxima
hipótese da covariância
Hipótese da covariância. Uma forma de superar a limitação da hipótese de Hebb é através da
utilização da hipótese da covariância introduzida por Sejnowski (1977a, b). Nesta hipótese, os
Processos DE APRENDIZAGEM 85
Um neurônio, então, aprende ao deslocar pesos sinápticos de seus nós de entrada inativos para os
seus nós ativos. Se um neurônio não responde a um padrão de entrada particular, então não ocorrerá
aprendizado naquele neurônio. Se um neurônio particular vencer a competição, então cada nó de
entrada deste neurônio libera uma certa proporção de seu peso sináptico e este peso liberado será
então distribuído uniformemente entre os nós de entrada ativos. De acordo com a regra de aprendi-
zagem competitiva padrão, a variação Aw, aplicada ao peso sináptico 1, é definida por
hii= pe —W,) se o neurônio k vencer a competição (2.13)
0 se o neurônio k perder a competição
onde 1) é o parâmetro taxa de aprendizagem. Esta regra tem o efeito global de mover o vetor de peso
sináptico w, do neurônio vencedor k em direção ao padrão de entrada x.
Podemos utilizar a analogia geométrica representada na Fig. 2.5 para ilustrar a essência da
aprendizagem competitiva (Rumelhart e Zipser, 1985). Supomos que cada padrão (vetor) de entra-
da x tem um determinado comprimento euclidiano constante, de forma que podemos vê-lo como
um ponto em uma esfera unitária N-dimensional, onde N é o número de nós de entrada. N representa
também a dimensão de cada vetor de peso sináptico w,. Supomos ainda que todos os neurônios da
rede têm o mesmo comprimento euclidiano (norma), como mostrado por
3wj=1 para todo k (2.14)
j
Quando os pesos sinápticos são escalados adequadamente, formam um conjunto de vetores que se
encontram na mesma esfera unitária N-dimensional. Na Fig. 2.5a, mostramos três agrupamentos
(clusters) naturais dos padrões de estímulo representados por pontos. Esta figura inclui também um
estado inicial possível da rede (representado por cruzes) que pode existir antes do aprendizado. À
Figura 2.5b mostra um estado final típico da rede que resulta da utilização de aprendizagem compe-
titiva. Em particular, cada neurônio de saída descobriu um agrupamento de padrões de entrada
movendo o seu vetor de peso sináptico para o centro de gravidade do agrupamento descoberto
tel o ee a e stat o e
E “ AA GRE E RS, OM iêS
, + 4 “ a - .
m A à É e 3 = = “
E q : * E
Ta “ Bi 2 Pia - + +
Pic ds “ amp E uu “E.
' É ' as
a ' , 1
imp * 04 E o A
' ma 1 é Edi
a 1 =
,
- " Sos EM
; sl E 4 = E E E I ú
” r
= É É
. . É a j A =. a É Ed
“o a e 1 : 4 = a ns . É
É, a fo se. A + e
“" * om ad a “a E da
q» o « + ur
E qRaNtar Ed É aiat A ds 1 e Ad
amo e" a CNO 4; a *
ad pa o jd
(a) (b)
FIGURA 2.5 Interpretação geométrica do processo de aprendizagem competitiva.
Os pontos representam os vetores de entrada e as cruzes representam os vetores
de pesos sinápticos de três neurônios de saída. (a) Estado inicial da rede. (b) Estado
final da rede
86 RepEs NEURAIS
(Rumelhart e Zipser, 1985; Hertz et al., 1991). Esta figura ilustra a habilidade de uma rede neural de
realizar a tarefa de agrupamento (clustering) através de aprendizagem competitiva. Entretanto, para
realizar esta função de uma maneira “estável”, os padrões de entrada devem se localizar em agrupa-
mentos suficientemente distintos. Caso contrário, a rede pode ser instável porque não responderá
mais a um determinado padrão de entrada com o mesmo neurônio de saída.
2.6 APRENDIZAGEM DE BOLTZMANN
A tegra de aprendizagem de Boltzmann, assim chamada em homenagem a Ludwig Boltzmann, é
um algoritmo de aprendizagem estocástico derivado de idéias enraizadas na mecânica estatística.”
Uma rede neural projetada com base na regra de aprendizagem de Boltzmann é denominada uma
máquina de Boltzmann (Ackley et al., 1985; Hinton e Sejnowski, 1986).
Em uma máquina de Boltzmann, os neurônios constituem uma estrutura recorrente e operam
de uma maneira binária, uma vez que, por exemplo, eles estão ou em um estado “ligado” represen-
tado por +1, ou em um estado “desligado” representado por —1. A máquina é caracterizada por uma
função de energia, E, cujo valor é determinado pelos estados particulares ocupados pelos neurônios
individuais da máquina, como mostrado por
1
Ena A Dt; (2.15)
Jak
onde x, é o estado do neurônio j e tw, é O peso sináptico conectando o neurônio j ao neurônio k. O
fato de que j * k significa apenas que nenhum dos neurônios da máquina tem auto-realimentação. A
máquina opera escolhendo um neurônio ao acaso — por exemplo, o neurônio k — em um determina-
do passo do processo de aprendizagem, trocando então o estado do neurônio k do estado x, para o
estado -x, a uma temperatura T com probabilidade
1
Messe =
CARTA fa)
onde AE, é a variação de energia (.e., a variação da função de energia da máquina) resultante
daquela troca. Note que T não é uma temperatura física, mas apenas uma pseudotemperatura, como
explicado no Capítulo 1. Se esta regra for aplicada repetidamente, a máquina atingirá o equilíbrio
térmico.
Os neurônios de uma máquina de Boltzmann se dividem em dois grupos funcionais: os visí-
veis e os ocultos. Os neurônios visíveis fornecem uma interface entre a rede e o ambiente em que ela
opera, enquanto que os neurônios ocultos sempre operam livremente. Há dois modos de operação a
serem considerados:
e Condição presa, na qual os neurônios visíveis estão todos presos a estados específicos deter-
minados pelo ambiente.
e Condição de operação livre, na qual todos os neurônios (visíveis e ocultos) podem operar
livremente.
Suponha que pj represente a correlação entre os estados dos neurônios j e k, com a rede na sua
condição presa, Suponha que p;, represente a correlação entre os estados dos neurônios j e k, com
a rede na sua condição de operação livre. Ambas as correlações correspondem às médias sobre
Processos DE APRENDIZAGEM B7
todos os estados possíveis da máquina, quando ela está em equilíbrio térmico, Então, de acordo com
a regra de aprendizagem de Boltzmann, a variação Aw, aplicada ao peso sináptico 1, do neurônio
j para o neurônio k é definida por (Hinton e Sejnowski, 1986)
Aw, =(P; —Pj) JHk (2.17)
onde 1] é o parâmetro taxa de aprendizagem. Note que tanto p;; como Pp, assumem valores no
intervalo entre —1 e +1.
Uma breve revisão da mecânica estatística é apresentada no Capítulo 11; naquele capítulo,
apresentamos um tratamento detalhado da máquina de Boltzmann e de outras máquinas estocásticas.
2.7 O PROBLEMA DE ATRIBUIÇÃO DE CRÉDITO
Quando se estudam algoritmos de aprendizagem para sistemas distribuídos, é útil se considerar a
noção de atribuição de crédito (Minsky, 1961). Basicamente, o problema de atribuição de crédito é
o problema de se atribuir crédito ou culpa por resultados globais a cada uma das decisões internas
que tenham sido tomadas por uma máquina de aprendizagem e que tenham contribuído para aque-
les resultados. (O problema de atribuição de crédito é também denominado problema de carga, isto
é, o problema de “carregar” um determinado conjunto de dados de treinamento para dentro dos
parâmetros livres da rede.)
Em muitos casos, a dependência dos resultados em relação a decisões internas é mediada por
uma segiiência de ações tomadas pela máquina de aprendizagem. Em outras palavras, as decisões
internas afetam a escolha das ações particulares que são tomadas e, com isso, as ações e não as
decisões internas influenciam diretamente os resultados globais. Nestas situações, podemos de-
compor o problema de atribuição de crédito em dois subproblemas (Sutton, 1984):
1. A atribuição de crédito por resultados a ações. Este é o chamado problema de atribuição de
crédito temporal que envolve os instantes de tempo guando as ações que merecem crédito
foram realmente tomadas.
2. A atribuição de crédito por ações a decisões internas. Este é o chamado problema de atribuição
de crédito estrutural que envolve atribuir crédito às estruturas internas das ações geradas pelo
sistema.
O problema de atribuição de crédito estrutural é relevante no contexto de uma máquina de aprendi-
zagem com múltiplos componentes quando devemos determinar precisamente qual componente
particular do sistema deve ter seu comportamento alterado e em que medida, de forma a melhorar o
desempenho global do sistema. Por outro lado, o problema de atribuição de crédito temporal é
relevante quando há muitas ações tomadas por uma máquina de aprendizagem que acarretam certos
resultados, e devemos determinar quais dessas ações foram responsáveis pelos resultados. O pro-
blema combinado de atribuição de crédito temporal e estrutural é enfrentado por qualquer máquina
de aprendizagem distribuída que se esforce em melhorar seu desempenho em situações envolvendo
comportamento estendido no tempo (Williams, 1988).
O problema de atribuição de crédito surge, por exemplo, quando a aprendizagem por correção
de erro é aplicada em uma rede neural de múltiplas camadas alimentada adiante. À operação de
cada neurônio oculto, bem como de cada neurônio de saída desta rede, é importante para a correta
operação global da rede, em uma tarefa de aprendizagem de interesse. Ou seja, para resolver uma
tarefa predeterminada, a rede deve atribuir certas formas de comportamento a todos os seus neurônios,
90 Repes NEuRAIS
Reforço
Vetor de estado primário
(entrada)
[ES Ambiente [=D Crítico
Reforço
heurístico
Ações == Sistema de
aprendizagem
FIGURA 2.7 Diagrama em blocos
da aprendizagem por reforço
mente naquela segiiência de passos de tempo sejam de fato os melhores determinantes do compor-
tamento global do sistema. A função da máquina de aprendizagem, que constitui o segundo compo-
nente do sistema, é descobrir estas ações e realimentá-las para o ambiente.
A aprendizagem por reforço atrasado é difícil de ser realizada por duas razões básicas:
e Não existe um professor para fornecer uma resposta desejada em cada passo do processo de
aprendizagem.
e O atraso incorrido na geração do sinal de reforço primário implica que a máquina de aprendi-
zagem deve resolver um problema de atribuição de crédito temporal. Com isso, queremos
dizer que a máquina de aprendizagem deve ser capaz de atribuir crédito ou culpa individual-
mente a cada ação na segiiência de passos de tempo que levam ao resultado final, enquanto
que o reforço primário é capaz apenas de avaliar o resultado.
Apesar destas dificuldades, a aprendizagem por reforço atrasado é muito atraente. Ela fornece a
base para o sistema interagir com o seu ambiente, desenvolvendo com isso a habilidade de aprender
arealizar uma tarefa predeterminada com base apenas nos resultados de sua experiência, que resul-
tam da interação.
A aprendizagem por reforço está intimamente relacionada com a programação dinâmica, que
foi desenvolvida por Bellman (1957) no contexto da teoria de controle ótimo. A programação dinã-
mica fornece o formalismo matemático para a tomada de decisão segiuencial. Enquadrando a apren-
dizagem por reforço dentro da abordagem da programação dinâmica, o assunto se torna bastante
rico, como demonstrado em Bertsekas e Tsitsiklis (1996). Um tratamento introdutório sobre pro-
gramação dinâmica e sua relação com a aprendizagem por reforço é apresentado no Capítulo 12.
2. Aprendizagem não-supervisionada
Na aprendizagem não-supervisionada ou auto-organizada, não há um professor exteno ou um
crítico para supervisionar o processo de aprendizado, como indicado na Fig. 2.8. Em vez disso, são
dadas condições para realizar uma medida independente da tarefa da qualidade da representação
que a rede deve aprender, e os parâmetros livre da rede são otimizados em relação a esta medida.
Uma vez que a rede tenha se ajustado às regularidades estatísticas dos dados de entrada, ela desen-
volve a habilidade de formar representações internas para codificar as características da entrada e,
desse modo, de criar automaticamente novas classes (Becker, 1991).
Processos DE APRENDIZAGEM 91
Vetor
descrevendo
o estado do
emilio Sistema de
Ambiente ===> é FIGURA 2.8 Diagrama em blocos da
aprendizagem aprendizagem não-supervisionada
Para realizarmos a aprendizagem não-supervisionada, podemos utilizar a regra de aprendiza-
gem competitiva. Podemos utilizar, por exemplo, uma rede neural de duas camadas — uma camada
de entrada e uma camada competitiva. A camada de entrada recebe os dados disponíveis. A camada
competitiva consiste de neurônios que competem entre si (de acordo com uma regra de aprendiza-
gem) pela “oportunidade” de responder às características contidas nos dados de entrada. Na sua
forma mais simples, a rede opera de acordo com uma estratégia do tipo “o vencedor leva tudo”.
Como descrito na Seção 2.5, nesta estratégia o neurônio com a maior entrada total “ganha” a com-
petição e se torna ligado; todos os outros neurônios, então, se tornam desligados.
Nos Capítulos de 8 a 11, são descritos diferentes algoritmos para aprendizagem não-supervisio-
nada.
2.10 TAREFAS DE APRENDIZAGEM
Nas seções anteriores deste capítulo, discutimos diferentes algoritmos de aprendizagem e paradigmas
de aprendizagem. Nesta seção, descrevemos algumas tarefas básicas de aprendizagem. A escolha
de um algoritmo de aprendizagem particular é influenciada pela tarefa de aprendizagem que uma
rede neural deve executar. Neste contexto, identificamos seis tarefas de aprendizagem que se apli-
cam ao uso de redes neurais de uma forma ou de outra.
Associação de Padrões
Uma memória associativa é uma memória distribuída inspirada no cérebro, que aprende por asso-
ciação. Desde Aristóteles, sabe-se que a associação é uma característica proeminente da memória
humana, e todos os modelos de cognição utilizam associação de uma forma ou de outra como a
operação básica (Anderson, 1995).
A associação assume uma de duas formas: auto-associação ou heteroassociação. Na auto-
associação, uma rede neural deve armazenar um conjunto de padrões (vetores), que são apresenta-
dos repetidamente à rede. Subseqiientemente, apresenta-se à rede uma descrição parcial ou distorcida
(ruidosa) de um padrão original armazenado e a tarefa é recuperar (recordar) aquele padrão parti-
cular. À heteroassociação difere da auto-associação pelo fato de um conjunto arbitrário de padrões
de entrada ser associado a um outro conjunto arbitrário de padrões de saída, A auto-associação
envolve o uso de aprendizagem não-supervisionada, enquanto que, na heteroassociação, a aprendi-
zagem é supervisionada.
Considere que x, represente um padrão-chave (vetor) aplicado a uma memória associativa e y,
represente um padrão memorizado (vetor). A associação de padrões realizada pela rede é descrita
por
ES, =, 2a] (2.18)
92 RenEs NEURAIS
onde q é o número de padrões armazenados na rede. O padrão-chave x, age como um estímulo que
não apenas determina a localização de armazenamento do padrão memorizado y,, mas também é a
chave para sua recuperação.
Em uma memória auto-associativa, y, = X,, e assim os espaços (de dados) de entrada e de saída
da rede têm a mesma dimensionalidade. Em uma memória heteroassociativa, Y, É X, portanto, a
dimensionalidade do espaço de saída neste segundo caso pode ou não ser igual à dimensionalidade
do espaço de entrada.
Há duas fases envolvidas na operação de uma memória associativa:
e Afase de armazenamento, que se refere ao treinamento da rede de acordo com a Eq. (2.18).
e A fase de recordação, que envolve a recuperação de um padrão memorizado em resposta à
apresentação à rede de uma versão ruidosa ou distorcida de um padrão-chave.
Suponha que o estímulo (entrada) x represente uma versão ruidosa ou distorcida de um padrão-
chave x. Este estímulo produz uma resposta (saída) y, como indicado na Fig. 2.9. Para a recordação
perfeita, nós deveríamos obter y = Y, onde y, é o padrão memorizado associado ao padrão-chave x.
Quando y * Y, parax=x, diz-se que a memória associativa fez um erro de recordação.
Vetor de i Vetor de
Associador
entrada ===> de padrões ==> saída FIGURA 2.9 A relação de entrada-saída
X y de um associador de padrões
O número q de padrões armazenados em uma memória associativa fornece uma medida direta
da capacidade de armazenamento da rede. No projeto de uma memória associativa, o desafio é
tornar a capacidade de armazenamento q (expressa como uma porcentagem do número total N de
neurônios utilizados para construir a rede) tão grande quanto possível e ainda assim conseguir que
uma grande fração dos padrões memorizados sejam recordados corretamente.
Reconhecimento de Padrões
Os seres humanos são bons no reconhecimento de padrões. Recebemos dados do mundo à nossa
volta através dos nossos sentidos é somos capazes de reconhecer a fonte dos dados. Fregiientemente,
somos capazes de fazer isso quase que imediatamente e praticamente sem esforço. Podemos, por
exemplo, reconhecer um rosto familiar de uma pessoa muito embora esta pessoa tenha envelhecido
desde o nosso último encontro, identificar uma pessoa familiar pela sua voz ao telefone, apesar de
uma conexão ruim, e distinguir um ovo fervido que é bom de um ruim pelo seu cheiro. Os humanos
realizam o reconhecimento de padrões através de um processo de aprendizagem; e assim acontece
com as redes neurais.
O reconhecimento de padrões é formalmente definido como o processo pelo qual um padrão/
sinal recebido é atribuído a uma classe dentre um número predeterminado de classes (categorias).
Uma rede neural realiza o reconhecimento de padrões passando inicialmente por uma seção de
treinamento, durante a qual se apresenta repetidamente à rede um conjunto de padrões de entrada
junto com a categoria à qual cada padrão particular pertence. Mais tarde, apresenta-se à rede um
novo padrão que não foi visto antes, mas que pertence à mesma população de padrões utilizada para
treinar a rede. A rede é capaz de identificar a classe daquele padrão particular por causa da informa-
ção que ela extraiu dos dados de treinamento. O reconhecimento de padrões realizado por uma rede
neural é de natureza estatística, com os padrões sendo representados por pontos em um espaço de
Processos DE APRENDIZAGEM 95
Sistema É
=> desconhe- ;
cido
Vetor de entrada Fo ã
+ EE A
—4o f í
Modelo
[> porrede
neural 4
( FIGURA 2.11 Diagrama em blocos
da identificação de sistema
onde a função de valor vetorial f(-) representa a inversa de f(:). Note, entretanto, que f(.)
não é a recíproca de f(-); em vez disso, o uso do índice —1 é meramente para indicar uma
inversão. Em muitas situações encontradas na prática, a função de valor vetorial f(.) é por
demais complexa para que se possa formular diretamente a função inversa f!(-). Dado o con-
junto de exemplos rotulados da Eq. (2.20), podemos construir uma aproximação por rede
neural de f"!(-), utilizando o esquema mostrado na Fig. 2.12. Na situação aqui descrita, os
papéis de x, e d, foram trocados: o vetor d, é utilizado como a entrada e x, é tratado como a
resposta desejada. Suponha que o vetor de sinal de erro e, represente a diferença entre x, e a
saída real y, da rede neural, produzida em resposta a d. Como no problema de identificação de
sistemas, este vetor de sinal de erro é utilizado para ajustar os parâmetros livres da rede neural,
de modo a minimizar a diferença quadrática entre as saídas do sistema inverso desconhecido e
da rede neural em um sentido estatístico, e é calculado sobre o conjunto de treinamento com-
pleto.
Erro
E
pa Saída do
Vetor de entrada —" sistema modelo tr,
e d nº Modlo LE N v dA *
> tm e = É
| inverso 1 SE
1 VZ E iaá) 1 Es na ,
FIGURA 2.12 Diagrama em blocos da modelagem de sistemas inversos
Controle
O controle de uma planta é uma outra tarefa de aprendizagem que pode ser feita por uma rede
neural; aqui, “planta” significa um processo ou uma parte crítica de um sistema que deve ser man-
tido em uma condição controlada. A relevância da aprendizagem para o controle não deveria ser
surpreendente porque, afinal, o cérebro humano é um computador (i.e., um processador de informa-
ção), que, visto como um sistema, produz saídas que são ações. No contexto de controle, o cérebro
96 RepEs NEURAIS
é a prova viva de que é possível construir um controlador genérico que tira total vantagem da
implementação física paralelamente distribuída, que pode controlar muitos milhares de atuadores
(fibras musculares) em paralelo, que pode tratar não-linearidades e ruído e que pode realizar
otimização sobre um horizonte de planejamento muito amplo (Werbos, 1992).
Considere o sistema de controle realimentado da Fig. 2.13. O sistema envolve o uso de reali-
mentação unitária em torno de uma planta a ser controlada; isto é, a saída da planta é realimentada
diretamente para a entrada.” Com isso, a saída da planta y é subtraída de um sinal de referência d
fornecido por uma fonte externa. O sinal de erro e assim produzido é aplicado a um controlador
neural com o propósito de ajustar os seus parâmetros livres. O objetivo principal do controlador é
fornecer entradas apropriadas para a planta, fazendo com que a sua saída y siga o sinal de referência
d. Em outras palavras, o controlador deve inverter o comportamento de entrada-saída da planta.
Notamos que na Fig. 2.13 o sinal de erro e deve-se propagar através do controle neural antes
de alcançar a planta. Conseqiuentemente, para realizar ajustes nos parâmetros livres da planta de
acordo com um algoritmo de aprendizagem por correção de erros, precisamos conhecer a matriz
jacobiana
o);
q.) BA 2.23
= (2.23)
Sinal Entrada
Sinal de Mi de erro da planta
referência Saída da planta
E o ÉS como E Planta E '
t
FIGURA 2.13 Diagrama em blocos de um sistema de controle realimentado
Realimentação unitária
onde y, é um elemento da saída da planta y e u, é um elemento da entrada da planta u. Infelizmente,
as derivadas parciais y,/ u, para vários k e j dependem do ponto de operação da planta e, portanto,
não são conhecidas. Podemos adotar uma de duas abordagens para tratar este problema:
e Aprendizagem indireta. Utilizando medidas de entrada-saída reais da planta, é construído ini-
cialmente um modelo baseado em rede neural para produzir uma cópia da planta. Por sua vez,
este modelo é utilizado para fornecer uma estimativa da matriz jacobiana J. As derivadas
parciais que constituem esta matriz jacobiana são utilizadas subsegiientemente no algoritmo
de aprendizagem por correção de erro para calcular os ajustes dos parâmetros livres do
controlador neural (Nguyen e Widrow, 1989; Suykens et al., 1996; Widrow e Walach, 1996).
e Aprendizagem direta. Os sinais das derivadas parciais dy,/du, são geralmente conhecidos e
normalmente se mantêm constantes ao longo do intervalo dinâmico da planta. Isto sugere que
podemos aproximar estas derivadas parciais pelos seus sinais individuais. Os seus valores
absolutos recebem uma representação distribuída nos parâmetros livres do controlador neural
(Saerens e Soquet, 1991; Schiffman e Geffers, 1993). Com isso, o controlador neural se torna
capacitado a aprender os ajustes de seus parâmetros livres diretamente da planta.
Processos DE APRENDIZAGEM 97
Filtragem
O termo filtro se refere frequentemente a um dispositivo ou algoritmo utilizado para extrair infor-
mação sobre uma determinada grandeza de interesse a partir de um conjunto de dados ruidosos. O
ruído pode surgir de uma variedade de fontes. Os dados podem ter sido medidos por meio de sensores
ruidosos, por exemplo, ou podem representar um sinal portador de informação que foi corrompido
pela transmissão através de um canal de comunicação. Como outro exemplo, pode-se ter uma com-
ponente de sinal útil, corrompida por um sinal de interferência captado do meio ambiente. Podemos
utilizar um filtro para realizar três tarefas básicas de processamento de informação:
1. Filtragem. Esta tarefa se refere à extração de informação sobre uma quantidade de interesse no
tempo discreto n, utilizando dados medidos até o tempo n, inclusive.
2. Suavização. Esta segunda tarefa difere da filtragem pelo fato de que não é necessário que a
informação sobre a grandeza de interesse esteja disponível no tempo x e de que os dados medi-
dos após o tempo n podem ser usados para obter esta informação. Isto significa que, na suavização,
há um atraso na produção do resultado de interesse. Já que no processo de suavização podemos
usar dados obtidos não apenas até o tempo n mas também após o tempo n, podemos esperar que
a suavização seja mais precisa que a filtragem em um sentido estatístico.
3. Previsão. Esta tarefa corresponde ao lado preditivo do processamento de informação. O objetivo
aqui é derivar informação sobre como será a grandeza de interesse em um determinado tempo n
+n, no futuro, para algum n, > 0, utilizando os dados medidos até o tempo n inclusive.
Um problema de filtragem com o qual os seres humanos estão familiarizados é o problema da festa
de coquetelº Temos uma habilidade notável para nos concentrarmos em um locutor dentro de um
ambiente ruidoso de uma festa de coquetel, apesar de o sinal de voz originário daquele locutor estar
envolvido por um fundo extremamente ruidoso devido à interferência de outras conversas na sala.
Presume-se que alguma forma de análise pré-atentiva, pré-consciente deve estar envolvida na reso-
lução do problema da festa de coquetel (Velmans, 1995). No contexto das redes neurais (artificiais),
um problema similar de filtragem ocorre na chamada separação cega de sinal (Comon, 1994; Bell
e Sejnowski, 1995; Amari e al, 1996). Para formular o problema da separação cega de sinal, consi-
dere um conjunto de sinais de fonte desconhecidos (DE. que são mutuamente independentes
entre si. Estes sinais são misturados linearmente por um sensor desconhecido para produzir o vetor
de observação m-por-l (veja a Fig. 2.14)
x(n) = A u(n) (2.24)
onde
u(n) = [u (mn), u,(0),..., 4, (n)]" (2.25)
x(n) = [x (n), x (n),..., x, (mn) (2.26)
Des us tea DR nom esdna
aequo > 2 Pl. ] o aa dm:
1.68]
FIGURA 2.14 Diagrama em blocos O Ambient
da separação cega de fonte desconhecido