(Parte 1 de 2)

Processamento de Imagens: Métodos e Análises

Márcio Portes de Albuquerque e Marcelo Portes de Albuquerque mpa@cbpf.br e marcelo@cbpf.br

Centro Brasileiro de Pesquisas Físicas – CBPF/MCT

Coordenação de Atividades Técnicas - CAT Rua Dr. Xavier Sigaud n.150 – 22290-180 – Rio de Janeiro - Brasil

Resumo

Neste artigo procuramos dar uma visão da área de processamento digital de imagens e suas aplicações. Abordamos conceitos importantes sobre a representação espacial de um pixel, a medida de distâncias, a segmentação de uma imagem e o reconhecimento de formas. Utilizamos situações reais para exemplificarmos as técnicas apresentadas. É nosso objetivo abordar de forma introdutória e simplificada o tema. Ao final discutimos sobre os diversos pacotes existentes para processamento digital de imagens e apresentamos uma bibliografia útil para se aprofundar em processamento de imagens e visão por computador.

I. Introdução

O Processamento de imagens é certamente uma área em crescimento. Diversos temas científicos são abordados e em alguns casos de caráter interdisciplinar. Entre eles podemos citar: a compreensão de imagens, a análise em multi-resolução e em multi-frequência, a análise estatística, a codificação e a transmissão de imagens, etc. Mas o que faz do processamento de imagens uma disciplina tão particular e complexa ? O que faz com que não tenhamos ainda sistemas de alta performance de reconhecimento de caracteres ou de formas mais complexas ? A resposta a estas questões serão discutidas ao longo deste artigo onde apresentaremos problemas e aplicações que demandam técnicas especializadas de processamento de imagens com o intuito de compreender e responder a estas questões.

A disciplina “Processamento de Imagens” vem na realidade do Processamento de Sinais. Os sinais, como as imagens, são na realidades um suporte físico que carrega no seu interior uma determinada INFORMAÇÃO. Esta INFORMAÇÃO pode estar associada a uma medida (neste caso falamos de um sinal em associação a um fenômeno físico), ou pode estar associada à um nível cognitivo (neste caso falamos de conhecimento). Processar uma imagem consiste em transformá-la sucessivamente com o objetivo de extrair mais facilmente a INFORMAÇÃO nela presente. Cabe neste momento fazer uma comparação entre o Processamento de Imagem e área de Computação Gráfica, técnica que encontramos freqüentemente aplicadas através de seqüências animadas na televisão ou em filmes de cinema. A Computação Gráfica parte de uma INFORMAÇÃO precisa para obter uma imagem ou um filme. O Processamento de Imagens parte da imagem (de uma informação inicial que é geralmente captada por uma camera) ou de uma seqüência de imagens para obtermos a “INFORMAÇÃO”. Deste ponto de vista o Processamento de Imagens e a Computação Gráfica são exatamente métodos opostos, mas isto não quer dizer que as técnicas envolvidas em cada caso não possam ser as mesmas ou pelo menos complementares [1, 2 e 3]. É evidente que neste sentido processar uma imagem, como é feito pelo sistema visual humano (SVH), é extremamente complexo [4, 5, 6 e 7]. Realizar as mesmas tarefas que o SVH, com a ajuda de máquinas, exige por antecedência uma compreensão “filosófica” do mundo ou dos conhecimentos humanos. Esta característica faz com que o processamento de imagens seja, atualmente, uma disciplina com extrema dependência do sistema no qual ele está associado, não existindo no entanto uma solução única e abrangente para todos os problemas. Daí a NÃO existência, até o momento, de sistemas de análise de imagens complexos e que funcionem para todos os casos.

A analise quantitativa e a interpretação de imagens representa atualmente um ponto de apoio importante em diversas disciplinas científicas. Tal é o caso por exemplo na ciência dos materiais, na biofísica, na medicina, na física da matéria condensada, etc. Na realidade a diversidade de aplicações do processamento de imagens, está associada diretamente a análise da INFORMAÇÃO que falamos acima. Pois em todas estas disciplinas estamos na realidade em busca de informações quantitativas que representem um fenômeno estudado. Quando observamos do ponto de vista da ótica, uma imagem é um conjunto de pontos que convergem para formar um todo, mas podemos dizer de uma maneira mais ampla que uma imagem é o suporte para efetuarmos troca de INFORMAÇÕES. O termo imagem estava inicialmente associado ao domínio da luz visível, porém atualmente é muito freqüente ouvirmos falar de imagens quando uma grande quantidade de dados estão representados sob a forma bidimensional (por exemplo: as imagens acústicas, sísmicas, de satélites, infravermelhas, magnéticas etc). Os métodos recentes de exploração automática desta informação permitiu o desenvolvimento de técnicas complexas, que podem ser globalmente classificadas em duas grandes linhas. A primeira está associada a uma ANÁLISE da informação e a segunda representa as técnicas que permitam obter uma MELHORIA (do termo em inglês “ENHANCEMENT”) significativa da imagem. Nos parágrafos posteriores vamos discutir cada uma destas linhas.

I.1 - Análise

O termo análise está relacionada a parte do tratamento onde existe uma descrição da

INFORMAÇÃO presente na imagem. Esta parte é chamada de parametrização e é nela que várias medidas quantitativas (parâmetros) são utilizadas para descrever diferentes informações dentro de uma imagem. Algumas aplicações típicas são: a determinação do número de células presentes em um tecido biológico, o cálculo das formas dos contornos de uma célula ou ainda a determinação da distribuição de uma população específica de um conjunto de células. As técnicas dedicadas a análise de imagens podem variar significativamente segundo a sua complexidade e a necessidade em tempo de processamento. E nesta área que vamos encontrar um nível elevado de complexidade no tratamento da informação. Um exemplo prático e quando da classificação automática de células doentes dentro de um conjunto de células observadas em microscopia. Esta análise específica demanda soluções dadas pelas técnicas de “CLASSIFICAÇÃO E RENCONHECIMENTO DE FORMAS”, que discutiremos brevemente posteriormente neste artigo. Neste caso devemos rapidamente medir vários parâmetros, pertinentes ao problema, na imagem, como por exemplo: a superfície, a forma de cada célula, sua quantidade, o número de células vizinhas a uma dada célula e a densidade de células em uma dada região. Em seguida comparamos estas medidas com várias classes de células organizadas em uma base de dados, catalogadas anteriormente. Obteremos então uma classificação das células com uma dada probabilidade de serem células doentes ou normais.

I.2 - “Image Enhancement”

O termo “enhancement” esta associado a melhoria da qualidade de uma imagem, com o objetivo posterior de ser julgado por um observador humano. De uma forma geral nós vamos trabalhar nos níveis de cinza da imagem, transformando-os para aumentar o contraste ou para colocar em evidência alguma região de interesse particular. Alguns exemplos deste tipo de técnica é a subtração da imagem por uma imagem referência, a utilização de cores-falsas, a utilização de filtros espaciais, a correção de deformações espaciais devido a ótica ou devido a uma variação de inomogeneidade da iluminação de fundo. Os sistemas dedicados a melhorar a qualidade da imagem trabalham geralmente muito rápido, pois são construídos em “hardware” ou “firmeware”, permitindo rapidamente ao usuário um julgamento sobre várias imagens processadas, segundo o tipo de tratamento. Esta técnica é encontrada na maioria dos programas de tratamento de imagens ou fotografias que estão atualmente no mercado, mas com algoritmos implementados em software, para computadores do tipo PC.

I.3 - Sistema Geral de Visão

Um sistema geral de visão, isto é, um sistema que deve responder a todas as situações, como é o caso do Sistema Visual Humano, é extremamente desenvolvido e complexo. O interesse em se compreender um tal sistema é fundamentalmente de orientar a pesquisa de uma máquina de reconhecimento genérica com as mesmas características do SVH. Atualmente algumas correntes científicas consideram o cérebro humano uma máquina com grande capacidade de explorar as informações sensoriais. Filosoficamente não se pretende, com estas linhas de pesquisas, retirar as qualidades humanas associadas ao cérebro ou aos homens. Mas devemos atentar para alguns pontos fundamentais: os computadores atuais são extremamente eficientes para trabalharem com base de dados, cálculos numéricos e formais, mas eles não conseguem realizar eficientemente algumas tarefas “simples” realizadas por animais e seres-humanos. Fica então uma questão, que é parte integrante das linhas de pesquisas modernas em processamento de imagens: Seria realmente o computador a maquina mais adaptada para resolver estes problemas ? Um exemplo prático é o processo de reconhecimento de uma pessoa pelo SVH. O trabalho realizado pelo cérebro nos parece muito simples e bastante elementar; porém uma análise detalhada mostra que o cérebro humano é capaz, a partir de uma grande quantidade de informações de luminância e crominância (captada pelos olhos) de realizar esta tarefa de reconhecimento em apenas 150ms. Os computadores atuais são na pratica sistemas experimentais que nos ajudam a melhor compreender estas tarefas e consequentemente modelizá-las e reproduzí-las.

I.4 - Sistemas Experimentais

Quando o sistema se restringe a sistemas experimentais, isto é, ele é orientado para a solução de um problema específico, a tarefa prática é de uma certa forma simplificada, pois poderemos controlar alguns parâmetros que um sistema geral de visão não tem acesso. A dificuldade está no fato de que devemos dar uma descrição objetiva ao problema e para aquelas análises que são científicas é ainda importante que esta descrição seja quantitativa. O objetivo neste caso é desenvolver um sistema de tratamento da informação onde cada fase vai exigir métodos para retirar da imagem os parâmetros que exprimam esta informação. Fica assim evidente que o processamento de imagens, quando associado a sistemas experimentais, é bastante dependente do problema a ser resolvido. Neste instante as fases de pré-tratamento (seja na imagem ou fora dela, como por exemplo o controle da iluminação externa) podem ter um peso importante quando queremos aumentar a performance computacional do sistema. Um sistema de processamento de imagens pode ser de uma maneira geral dividido nas seguintes etapas:

1. Tratamento fora da imagem Correção de iluminação, uso de colorantes químicos, etc.

2. Aquisição da imagem Amostragem, armazenamento e compactação. 3. Melhoramento (“image enhancement”) * Pré-tratamento digital da imagem. 4. Segmentação da informação * Extração dos “objetos” do “fundo” da imagem

5. Parametrização * Determinação de grandezas sobre cada “objeto”: área, perímetro, forma, descrição estrutural, topologia, etc

6. Reconhecimento * Classificação dos “objetos”

Análise Quantitativa: * Aplicação da ferramenta a outras áreas científicas.

Associação das grandezas ao problema: determinação de funções de correlação espacial ou temporal, análise de seqüência de imagens, etc.

Discutimos até aqui questões importantes e essenciais para a compreensão de um sistema de processamento de imagens quando utilizado como ferramenta para a solução de um determinado problema. Nos pontos seguintes vamos entrar mais em detalhes nas técnicas de processamento e em especial discutiremos os elementos principais de um sistema digital de processamento de imagens. Discutiremos também as técnicas e os problemas que podemos encontrar na implementação de sistemas de processamento de imagens: como a discretização, a medida de distâncias em imagens digitais, a conectividade entre pixels etc. Veremos ao final técnicas de filtragem espacial, segmentação de imagem e reconhecimento de formas.

I - Sistema de Processamento de Imagens

Um sistema de processamento de imagens pode ser dividido em diversos componentes independentes, como mostrados na figura 1.

Figura 1 - Diagrama em blocos de um sistema genérico de processamento de imagens. O retângulo pontilhada indica as partes encontradas atualmente nos sistemas de processamento de imagens comercializados. O poder do processamento esta associado a potencialidade do processador gráfico e a capacidade de estocagem de imagens na memória principal. A organização desta memória pode variar segundo a resolução ou a necessidade de estocagem de grande quantidades de imagens. Veja o texto para maiores detalhes.

O módulo de entrada é constituído por uma camera que capta a imagem real de uma cena.

Esta camera envia a informação sob a forma de sinal analógico de vídeo, à um conversor analógico digital. A imagem é então representada na forma digital. Uma imagem digital é discretizada espacialmente (ou seja em x e y) e em luminância (níveis de cinza). A título de exemplo, uma imagem típica de 640x480 por 256 níveis-de-cinza tem 307.200 bytes. Alguns exemplos de módulos de aquisição são: as cameras à tubo (Vidicom) ou CCD, os scanners ou ainda alguns sensores dedicados (como sistemas de infravermelho, mapeamento magnético de uma superfície, sensoriamento de radares, etc). A camera de vídeo é o sensor de aquisição de imagem mais freqüentemente utilizado. Uma camera de vídeo apresenta características de sensibilidade, resolução e função de transferência (entre a imagem captada da cena e a intensidade do sinal de vídeo fornecido). Algumas cameras mais sofisticadas permitem ainda controlar o “offset” ou ganho do sinal de vídeo, possibilitando uma correção do contraste da imagem em tempo real. Em alguns casos podemos encontrar módulos que permitem o ajuste da iluminação de fundo ou ainda realçar os contornos dos objetos através da execução de funções específicas [2].

O sinal de vídeo gerado pelo dispositivo de aquisição é convertido em sinal discreto pelo conversor A/D. Este conversor é um dispositivo de conversão especial para sinais de vídeo, onde a aquisição é realizada segundo a padronização do sinal de vídeo (linha a linha). Após a conversão da imagem pelo módulo de conversão analógica digital, cada intensidade indexa uma tabela de conversão. Esta tabela é conhecida como "Look-up table" ou simplesmente LUT. As LUTs são na realidade memórias que possibilitam a modificação das intensidades adquiridas por valores pré-programados. Podemos por exemplo configurar uma LUT com uma função específica e corrigir, em tempo real, o contraste de uma imagem que esta sendo adquirida pelo ADC. A imagem digital é em seguida armazenada em uma memória principal de acesso exclusivo de um processador gráfico. Este processador é bastante dependente do sistema de processamento de imagens utilizado. Em alguns casos, por questões de custos, ele pode mesmo não existir, deixando todo o processamento para o processador principal no computador de controle.

Neste texto considerarmos somente imagens em níveis de cinza, pois grande parte dos algoritmos de análise de imagens coloridas são feitas recombinando as componentes de cores e trabalhando com a informação de luminância somente. No caso de imagens coloridas cada componente da imagem ("Red", "Green" e "Blue") é armazenada separadamente na memória principal.

A imagem de saída é geralmente reconstruída através de conversores digitais /Analógicos

(DAC), onde são somados pulsos de sincronização para geração do sinal de vídeo. Este formato de sinal é bastante utilizado por ser padrão adotado por todos os fabricantes de equipamentos de vídeo. Antes de ser reconvertido o sinal pode passar por outra LUT, desta vez a LUT de saída, que é uma tabela de indexação dos níveis de cinza na imagem para os níveis de saído enviado ao display gráfico. Podemos por exemplo configurar esta tabela com falsas cores e observarmos "on-line" diferentes regiões com cores diferentes. A figura 2 apresenta um exemplo da técnica de "falsas cores" usada em uma imagem de aglomerações de líquidos magnéticos. As células observadas na figura correspondem a uma maior densidade do líquido magnético, observada através de uma técnica conhecida como Densimetria. A fonte luminosa envia um feixe de luz através do líquido. Cada pixel na imagem digital representa na realidade uma medida da absorção da luz pelo líquido. Nas regiões mais escuras a absorção da luz é maior, nas mais claras esta é menor. As falsas cores permitem rapidamente relacionar as regiões equivalentes (em intensidade luminosa) em diferentes partes da imagem.

Figura 2 - Uso de falsas cores : A imagem da esquerda corresponde a uma estrutura hexagonal de um liquido magnético semi-transparente observada em detalhes. Cada célula apresenta aproximadamente 0.5cm de diâmetro. Cada ponto da imagem corresponde a uma medida de absorção da luz. A absorção é maior no centro das células que nas suas bordas. Numa imagem em níveis de cinza é praticamente impossível identificar as mesmas intensidades (absorção) em diferentes objetos. A imagem da direita corresponde a mesma da esquerda, mas com uma LUT de cores. Cada nível, ou regiões contíguas são associadas a diferentes cores, indo do preto ao amarelo, passando pelo vermelho.

I - Pixel e Conectividade.

Um pixel ("picture element" ou "pel") é o elemento básico em uma imagem. A forma mais comum para o pixel é a forma retangular ou quadrada. O pixel é também um elemento de dimensões FINITAS na representação de uma imagem digital. Freqüentemente, a organização de uma imagem sob a forma de uma matriz de pixels é feita em uma simetria quadrada, i.e., na forma de um tabuleiro de xadrez. Isto se deve a facilidade de implementação eletrônica, seja dos sistemas de aquisição seja dos sistemas de visualização de imagens. É importante lembrar que este tipo de organização provoca o aparecimento de dois problemas importantes nas técnicas de processamento. Em primeiro lugar um pixel não apresenta as mesmas propriedades em todas as direções, i.e., ele é anisotrópico. Esta propriedade faz com que um pixel tenha 4 vizinhos de borda e 4 vizinhos de diagonal. Esta propriedade nos força a definir o tipo de conectividade que vamos trabalhar, ou D4 (onde levamos em consideração apenas os vizinhos de borda) ou em D8 (onde levamos em consideração os vizinhos de borda e os de diagonal). O segundo problema é conseqüência direta do primeiro, ou seja as distâncias entre um ponto e seus vizinhos não é a mesma segundo o tipo de vizinho (ela é igual a 1 para vizinhos de borda e 2para aqueles na diagonal). Alguns tipos de algoritmos que são sensíveis a este problema são : as operações morfológicas que usam uma matriz de análise do tipo 3x3, as operações de esqueletização em análise de formas e principalmente as transformações de Distâncias (na transformação de distância cada ponto da imagem ao invés de representar uma intensidade luminosa, representa uma distância de um dado ponto referência ao ponto calculado). A solução para este tipo de representação discreta da imagem, é a correção dos valores calculados através de máscaras (pequenas matrizes) que ajustam ou ponderam estas distâncias em função da direção. O leitor deve atentar para as possíveis complicações em medidas de distâncias quando trabalhamos com um pixel que não seja de forma quadrada.

Região de Interesse

Um conceito importante em processamento de imagens é a Região de Interesse. Entende-se como Região de Interesse (ROI - "Region Of Interest" ou AOI - "Area Of Interest") a região definida automaticamente a partir de parâmetros obtidos na própria imagem (ou por um usuário) onde o processamento estará totalmente concentrado. Podemos, por exemplo, definir uma região de interesse onde sabemos por antecedência que a iluminação de fundo é constante ou foi corrigida. Normalmente, nas técnicas de processamento de imagens iremos sempre encontrar problemas no tratamento das bordas da imagem. A criação de regiões de interesse faz com que apareçam também problemas nas bordas das regiões de interesse. A solução deste problema é completamente dependente do problema ao qual o processamento de imagens esta associado, i.e., ao que conhecemos e podemos levar em consideração anteriormente ao processamento.

IV - Distâncias

Quando trabalhamos com imagens é muito freqüente medirmos distâncias. Em muitos casos usamos a definição clássica de distância euclidiana entre dois pontos. Porem devido aos problemas apresentados no parágrafo anterior se torna evidente que a simetria quadrada interfere na execução de alguns algoritmos. Existem diferentes medidas de distância em função da conectividade utilizada. Por exemplo se considerarmos dois pontos p(x,y), q(s,t), da figura 3, teremos as seguintes definições de distância.

Figura 3 - Conexão entre dois pontos p(x,y) e q(s,t). A distância entre estes dois pontos pode ser determinada de diversas maneiras. Os números 1 e 2 representam os pixels que seriam percorridos somente uma vez nas duas representações possíveis quando saímos de p para q. O número 3 indica os pixels percorridos pelos dois caminhos.

D4 só podemos nos movimentar para a horizontal e para vertical. Os caminhos mostrados pela figura 3 não servem para D4.

Por exemplo, considere a medida do perímetro de uma determinada forma, como aquela mostrada na figura 4. Em uma imagem digital o perímetro de uma determinada forma corresponde a contagem dos pixels pertencente a borda do objeto. É importante lembrar que em alguns casos, antes de realizarmos a medida de distâncias devemos antes isolar a forma do resto da image (discutiremos este tópico no capitulo dedicado a Segmentação). Devemos conectar todos os pixels que pertençam ao seu contorno para em seguida podermos medir o seu perímetro. Na forma representada na figura 4 estamos supondo já conhecermos todos os pontos que pertençam a sua borda, para em seguida calcularmos o seu perímetro.

Figura 4 - Determinação do perímetro de uma forma usando conectividade D8. Após isolar o objeto do fundo da imagem, devemos identificar os pontos que pertençam ao seu contorno. Escolhemos um ponto inicial ao acaso e em seguida estes pontos devem ser conectados para efetuarmos o cálculo do seu comprimento. O leitor deve atentar para o fato de que segundo o tipo de conectividade adotada (D4 ou D8) teremos valores diferentes para o perímetro.

V - Filtragem

Em processamento de imagens, os filtros lineares são geralmente descritos através de matrizes de "convolução". Não iremos aqui entrar em detalhes de filtros lineares, pois este assunto foge ao escopo deste artigo, mas apenas descrever basicamente alguns pontos importantes em filtragens. Maiores detalhes sobre este assunto pode ser encontrado em [1, 8 e 9]. Um filtro numérico vai influenciar a variação da freqüência espacial em uma imagem. Na freqüência temporal a escala usada é geralmente o Hertz (s-1), em uma imagem usamos o 1/metro (m-1) ou 1/pels (pix-1). O termo freqüência espacial é análogo ao termo freqüência temporal e ela descreve a velocidade de modificação de uma luminosidade em uma direção em uma imagem.

Na prática, para realizarmos uma operação de filtragem espacial, devemos escolher uma matriz de dimensão n x n com valores que dependem do filtro que queremos usar, seja ele passa baixa (filtrando as altas freqüências), passa faixa (filtrando uma região específica de freqüências espaciais) ou passa alta (filtrando as baixas freqüências). Em uma imagem, as altas freqüências correspondem as modificações abruptas dos níveis de cinza, i.e., as bordas dos objetos. As baixas freqüências correspondem as variações suaves dos níveis de cinza. Logo quando queremos evidenciar os contornos de um determinado objeto podemos usar filtros do tipo passa-alta. Em outros casos podemos estar interessado na forma da iluminação de fundo, onde devemos usar filtros passa-baixa para eliminarmos todas as altas freqüências correspondendo a borda dos objetos, e chegar a iluminação de fundo.

Resumidamente na figura 5 apresentamos 3 filtros clássicos representados em uma pequena matriz 3x3 e seu efeito numa imagem exemplo (Fig. 5a). Toda as operações realizadas consistem em gerar uma nova imagem onde cada ponto desta imagem corresponde a uma soma dos produtos termo a termo da matriz 3x3 com imagem original. Por exemplo a aplicação do filtro Médio (todos os elementos iguais a 1 - Fig. 5b) em uma imagem, eqüivale a um imagem final onde cada pixel corresponde a media local, na imagem original, dele com os 8 pixels vizinhos. Veja o seu efeito na figura 5b. Considere agora o efeito do filtro passa-alta da figura 5c. Todas as variações fortes horizontais, que correspondem as bordas horizontais do objeto, ficaram na imagem final filtrada. Não detalhamos aqui os problemas de representação em números inteiro dos níveis de cinza e de operações em "ponto flutuante", como média ou médias ponderadas. Neste caso os valores da nova imagem devem ser truncados ou renormalizados em função dos valores máximos e mínimos trabalhados.

(Parte 1 de 2)

Comentários