A Compreensão da Teoria do Espaço em Escalas

10

Na teoria do espaço de escala, a representação no espaço de escala do sinal , (no caso da imagem ) é dada como: onde é um núcleo gaussiano com o parâmetro e é uma convolução. Ao alterar o parâmetro , recebemos uma imagem mais ou menos suavizada. Como resultado, a representação mais grosseira (parâmetro ) não conterá objetos pequenos ou ruído.d = 2, G ( x , y ; t ) = g ( x , y ; t ) * F ( x , y ) g ( x , y ; t ) t t tf(x),x=(x1,...,xd)d=2L(x,y;t)=g(x,y;t)f(x,y)g(x,y;t)ttt

O ponto principal é encontrar uma maneira de detecção de recurso invariável em escala, certo? Assim, para algumas imagens com tamanho reduzido, os recursos como pontos-chave serão detectados corretamente, mesmo se o tamanho for diferente, sem encontrar outros pontos-chave de ruído.

  1. No artigo, eles estão usando os derivados normalizados. . Qual é o significado do uso da derivada normalizada, como isso ajuda na invariância da escala?δ ξ , γ - n o r m = t γ / 2 δ x γγδξ,γnorm=tγ/2δxγ

  2. A partir desta imagem, podemos ver que nas mesmas posições os diferentes pontos-chave foram encontrados (diferentes em tamanho). Como isso é possível?

Recursos detectados

Se você puder explicar o algoritmo passo a passo da detecção de recursos invariáveis ​​em escala, isso seria ótimo. O que é realmente feito? As derivadas podem ser tomadas por ou . O blob pode ser detectado tomando a derivada de por variáveis. Como a derivada de está ajudando aqui?t L ( x , y ) tx,ytL(x,y)t

O artigo que eu estava lendo é: Detecção de recursos com seleção automática de escala

maximus
fonte

Respostas:

3
  1. Ele realmente tem sido um longo tempo desde que eu li papéis de Lindeberg, então a notação parece um pouco estranho. Como resultado, minha resposta inicial estava errada. não é um nível de escala. Parece ser um parâmetro de algum tipo que pode ser ajustado. É verdade que você precisa multiplicar a derivada pela potência apropriada de . em si corresponde a um nível de escala, e a potência depende da ordem do derivado.t tγtt

  2. Você pode encontrar pontos-chave em várias escalas no mesmo local. Isso ocorre porque você procura os máximos locais sobre as escalas. Aqui está a intuição: pense na imagem de um rosto. Em uma escala fina, você obtém um blob correspondente ao nariz. Em uma escala de curso, você obtém um blob correspondente à face inteira. Os dois blobs estão centralizados no mesmo ponto, mas têm escalas diferentes.

  3. Aqui está o algoritmo inteiro:

    • Decida em quais recursos da imagem você está interessado (por exemplo, bolhas, cantos, bordas)
    • Defina uma "função detector" correspondente em termos de derivadas, por exemplo, um Laplaciano para blobs.
    • Calcule derivativos necessários para a função do detector em várias escalas.
    • Multiplique as respostas da derivada por , em que é a ordem da derivada, para compensar a diminuição da magnitude. mtmγ/2m
    • Calcule a função do detector em todo o espaço da escala.
    • Encontre máximos locais da função de detector em .x,y,t
    • Estes são os seus pontos de interesse ou pontos-chave.

Editar:

  1. Lindeberg prova no artigo que é o fator apropriado para a normalização de derivadas. Eu não acho que posso reproduzir a prova aqui.tγ/2
  2. Você não usa derivativos em relação a . Você apenas derivados de computação com respeito à e , mas você calcular-los em uma variedade de escalas. Uma maneira de pensar sobre isso é gerar primeiro um espaço na escala gaussiana, borrando repetidamente a imagem com um filtro gaussiano de alguma variação . Em seguida, calcule derivadas com relação a e em cada nível de escala.x y t x ytxytxy
  3. Você deseja encontrar o máximo local sobre as escalas, pois pode ter recursos de imagem de tamanho diferente no mesmo local. Pense em uma imagem de círculos concêntricos, como um olho de boi. Isso lhe dará altas respostas de um Laplaciano em várias escalas. Ou pense na imagem de um olho humano real filtrado por um Laplaciano em várias escalas. Você obterá uma resposta alta em escala fina para o aluno, uma resposta alta em escala média para a íris e uma resposta alta em escala grossa para todo o olho.

O ponto principal é que você não sabe em que escala os recursos de interesse podem estar adiantados. Então você olha para todas as escalas.

Dima
fonte
1. Como fornecemos que seja multiplicador suficiente para tornar a resposta derivada realmente normalizada? 2. Eu pensei que a derivada de é usada para encontrar o parâmetro onde o máximo é atingido. Para encontrar a melhor escala. Então, como você está escrevendo, parece que eu tenho que calcular derivadas por em todo um intervalo selecionado. E, como resultado, encontrarei (tomando derivadas por ) os recursos em diferentes escalas. Direita? t t t x , ytγ/2tttx,y
precisa
E como você escreveu em 3: Encontre o máximo local da função do detector em Por que precisamos encontrar o máximo local por t? Você pode descrever essa etapa em detalhes? Na verdade, como a derivada de é usada aqui? tx,y,tt
Maximus
@ maximus Por favor, veja a edição da resposta.
Dima
@ Maximus, eu entendi errado antes. gama não é o nível da escala. Eu corrigi a resposta.
Dima