Fiz uma validação cruzada de 10 vezes em diferentes algoritmos de classificação binária, com o mesmo conjunto de dados e recebi os resultados médios de Micro e Macro. Deve-se mencionar que esse era um problema de classificação de vários rótulos.
No meu caso, verdadeiros negativos e verdadeiros positivos são igualmente ponderados. Isso significa que prever corretamente os verdadeiros negativos é igualmente importante como prever corretamente os verdadeiros positivos.
As medidas micro-médias são inferiores às macro médias. Aqui estão os resultados de uma rede neural e máquina de vetores de suporte:
Também executei um teste de porcentagem dividida no mesmo conjunto de dados com outro algoritmo. Os resultados foram:
Eu preferiria comparar o teste de porcentagem com os resultados macro-médios, mas isso é justo? Não acredito que os resultados macro-médios sejam tendenciosos porque os verdadeiros positivos e os negativos são igualmente ponderados, mas, novamente, eu me pergunto se isso é o mesmo que comparar maçãs com laranjas.
ATUALIZAR
Com base nos comentários, mostrarei como as médias micro e macro são calculadas.
Tenho 144 rótulos (os mesmos que recursos ou atributos) que desejo prever. A precisão, a rechamada e a medida F são calculadas para cada etiqueta.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
Considerando uma medida de avaliação binária B (tp, tn, fp, fn) que é calculada com base nos verdadeiros positivos (tp), verdadeiros negativos (tn), falsos positivos (fp) e falsos negativos (fn). As macro e micro médias de uma medida específica podem ser calculadas da seguinte maneira:
Usando essas fórmulas, podemos calcular as médias micro e macro da seguinte maneira:
Assim, as medidas micro-médias adicionam todos os tp, fp e fn (para cada etiqueta), após o que uma nova avaliação binária é feita. As medidas com média macro adicionam todas as medidas (Precisão, Rechamada ou Medida F) e dividem com o número de etiquetas, mais semelhante à média.
Agora, a pergunta é qual usar?
Respostas:
Se você acha que todos os rótulos têm o mesmo tamanho (aproximadamente o mesmo número de instâncias), use qualquer um.
Se você acha que existem marcadores com mais instâncias que outros e se deseja inclinar sua métrica para as mais preenchidas, use o micromedia .
Se você acha que há rótulos com mais instâncias que outros e se deseja influenciar sua métrica para as menos populosas (ou pelo menos não deseja influenciar para as mais populosas), use a macromedia .
Se o resultado do micromedia for significativamente menor que o resultado da macromedia, significa que você possui algumas classificações grosseiras nos rótulos mais populosos, enquanto os rótulos menores provavelmente estão classificados corretamente. Se o resultado da macromedia for significativamente menor que o resultado da micromedia, significa que os rótulos menores são mal classificados, enquanto os maiores são provavelmente classificados corretamente.
Se você não tiver certeza do que fazer, continue com as comparações nas médias micro e macro :)
Este é um bom artigo sobre o assunto.
fonte