Estou tentando entender como e por que a transformação de Fourier é usada no processamento de imagens / visão computacional. Abaixo está o que eu reuni até agora. Minha compreensão disso seria correta? Se não, alguém poderia me explicar em inglês simples e claro? Ou alguém tem algo a acrescentar? Por último, mas não menos importante, alguém poderia explicar a "transformada discreta de Fourier"?
A transformação de Fourier decompõe uma imagem em seus componentes seno e cosseno. Simplificando, seno e cosseno são ondas que começam no mínimo e no máximo, respectivamente. No mundo real, não podemos dizer se uma onda que observamos começou em um ponto máximo ou mínimo e, portanto, não podemos realmente distinguir entre as duas. Portanto, seno e cosseno são simplesmente referidos como sinusóides.
Ao aplicar o TF a uma imagem, nós o transformamos de seu domínio espacial em um "domínio de frequência", que em essência é a imagem representada em termos de sua variação de cor e brilho ao longo do tempo (bem, não tempo, mas espaço. é, com vários pixels).
EDIT: Por que eu usaria a transformada de Fourier? E quais são seus benefícios sobre outros métodos? Por exemplo, uma aplicação na literatura é no reconhecimento de forma ou eliminação de ruído. Em termos básicos, como alguém poderia reconhecer o formato usando o FT?
Respostas:
Em um nível conceitual, a Transformação de Fourier informa o que está acontecendo na imagem em termos das frequências desses sinusoides. Por exemplo, se você tem uma imagem de uma parede simples, os valores dos pixels mudam muito pouco à medida que você vai da esquerda para a direita ou de cima para baixo. No domínio da frequência, isso significa que sua imagem contém baixas frequências, mas não altas.
Por outro lado, se você tiver uma foto de uma cerca, os valores dos pixels mudam o tempo todo à medida que você passa da esquerda para a direita. Portanto, no domínio de Fourier, você tem altas frequências na direção X, mas não na direção Y.
Por fim, se você tiver uma imagem de um tabuleiro de xadrez, os valores de pixel mudam muito nas duas direções. Assim, a transformada de Fourier da imagem terá altas frequências em X e Y.
Como a transformação de Fourier informa o que está acontecendo na sua imagem, geralmente é conveniente descrever as operações de processamento de imagens em termos do que elas fazem com as frequências contidas na imagem. Por exemplo, a eliminação de altas frequências desfoca a imagem. A eliminação de baixas frequências fornece arestas. E melhorar as altas frequências, mantendo as baixas frequências, afia a imagem.
A FFT é amplamente utilizada no processamento de imagens e visão computacional. Por exemplo, a convolução, uma operação fundamental de processamento de imagem, pode ser feita muito mais rapidamente usando a FFT. O filtro Wiener, usado para desfocagem de imagem, é definido em termos da transformação de Fourier. Mais importante, porém, mesmo quando a transformação de Fourier não é usada diretamente, ela fornece uma estrutura muito útil para raciocinar sobre as operações de processamento de imagem.
Steve Eddins, um dos autores de "Digital Image Processing with MATLAB", tem uma série de posts sobre a transformação de Fourier e como ela é usada no processamento de imagens.
fonte