Eu quero comparar duas imagens de rostos. Eu calculei seus histogramas LBP. Então agora eu preciso comparar esses dois histogramas e obter algo que diga o quanto esses histogramas são iguais (0 - 100%).
Existem várias maneiras de resolver essa tarefa, mas os autores do método LBP enfatizam (Descrição da face com padrões binários locais: aplicação no reconhecimento de faces. 2004) que a distância do qui-quadrado é melhor que a interseção do histograma e a estatística de probabilidade de log.
Os autores também mostram uma fórmula da distância do qui-quadrado:
Onde é um número de posições, é o valor da primeira posição, é o valor da segunda posição.x i y i
Em algumas pesquisas (por exemplo, a família de distância do histograma quadrático-qui), vi que a fórmula da distância do qui-quadrado é:
E lá http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm vejo que a fórmula da distância do qui-quadrado é:
Eu fiquei com isso. Eu tenho várias perguntas:
- Que expressão devo usar?
- Como devo interpretar um resultado da diferença? Eu sei que a diferença que é igual a 0 significa que ambos os histogramas são iguais, mas como posso saber quando ambos os histogramas são totalmente diferentes? Preciso usar uma mesa Chi-Square para isso? Ou preciso usar um limite? Basicamente, quero mapear a diferença para porcentagens.
- Por que essas três expressões são diferentes?
fonte
Respostas:
A @Silverfish pediu uma expansão da resposta da PolatAlemdar, que não foi fornecida, então tentarei expandir aqui.
Por que o nome chisquare distância? O teste do qui-quadrado para tabelas de contingência é baseado em portanto a idéia é manter esse formulário e usá-lo como um medida de distância. Isso fornece a terceira fórmula do OP, com interpretado como observação e como expectativa, o que explica o comentário de PolatAlemdar "É usado em distribuições discretas de probabilidade", como por exemplo no teste de ajuste de qualidade. Essa terceira forma não é uma função de distância, pois é assimétrica nas variáveis e . Para comparação de histogramas, queremos uma função de distância simétrica em e xiyixyxy1
A distância do quadrado é usada também na análise de correspondência. Para ver o relacionamento com o formulário usado lá, seja as células de uma tabela de contingência com linhas e colunasIndique os totais da linha como e a coluna totalize com . A distância entre os quadrados é dada por No caso de apenas duas linhas (os dois histogramas), ele recupera a primeira fórmula do OP (módulo do sinal raiz).xeu j R C x+ j= ∑Euxeu j xi += ∑jxeu j l , k
Respondendo à pergunta nos comentários abaixo: Um livro com longas discussões sobre a distância do quadrado é "ANÁLISE DA CORRESPONDÊNCIA EM PRÁTICA (Segunda Edição)", de Michael Greenacre (Chapman & Hall). É um nome bem estabelecido, proveniente de sua semelhança com o chisquare, usado nas tabelas de contingência. Que distribuição tem? Eu nunca estudei isso, mas provavelmente (sob algumas condições ...) ela teria alguma distribuição no quadrilátero, aproximadamente. As provas devem ser semelhantes ao que é feito com as tabelas de contingência; a maioria da literatura sobre análise de correspondência não entra na teoria da distribuição. Um artigo que tem alguma teoria talvez relevante é a http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Veja também/stats//search?q=%22chisquare+distance%22 para outras postagens relevantes neste site.
fonte
Eu achei este link bastante útil: http://docs.opencv.org/2.4/doc/tutorials/imgproc/histograms/histogram_comparison/histogram_comparison.html
Não sei bem por que, mas o OpenCV usa a 3ª fórmula listada para comparação do histograma do qui-quadrado.
Em termos de significado, não tenho certeza se algum algoritmo de medição fornecerá um intervalo limitado, como 0% a 100%. Em outras palavras, você pode ter certeza de que duas imagens são iguais: um valor de correlação de 1,0 ou um valor do qui-quadrado de 0,0; mas é difícil estabelecer um limite para a diferença entre duas imagens: imagine comparar uma imagem completamente branca versus uma imagem completamente preta; o valor numérico seria Infinito ou talvez Não-um-Número.
fonte
Na verdade, você pode usar o que achar correto para o seu caso. O último é diferente. Ele é usado em distribuições de probabilidade discretas, como o último será simétrica se você trocar e .x y
Os outros dois são usados no cálculo de semelhanças de histograma.
fonte
$x$
produz por exemplo.Conforme solicitado pelo OP, o valor em porcentagem (para a equação 1):
Onde: é a porcentagem de diferença (0..100). é o resultado da equação 1. é o número de posições no histograma. é o valor máximo possível no compartimento.p χ N S
Complementado conforme solicitado:
Ao calcular esta equação, pode-se ter a porcentagem de diferença de um histograma completo. Calculando isso para ambos os histogramas e subtraindo um do outro, pode-se ter a diferença em porcentagem.
fonte