O que é a verdade do solo

29

No contexto do Machine Learning , vi o termo Ground Truth usado muito. Pesquisei bastante e encontrei a seguinte definição na Wikipedia :

No aprendizado de máquina, o termo "verdade fundamental" refere-se à precisão da classificação do conjunto de treinamento para técnicas de aprendizado supervisionado. Isso é usado em modelos estatísticos para provar ou refutar hipóteses de pesquisa. O termo "truthing em terra" refere-se ao processo de coleta dos dados objetivos (prováveis) adequados para este teste. Compare com o padrão ouro.

A filtragem bayesiana de spam é um exemplo comum de aprendizado supervisionado. Nesse sistema, o algoritmo é ensinado manualmente as diferenças entre spam e não spam. Isso depende da verdade básica das mensagens usadas para treinar o algoritmo - imprecisões na verdade básica se correlacionam com imprecisões nos veredictos de spam / não spam resultantes.

O ponto é que eu realmente não consigo entender o que isso significa. Esse rótulo é usado para cada objeto de dados ou a função de destino que fornece um rótulo para cada objeto de dados ou talvez algo mais?

meios de comunicação
fonte

Respostas:

25

A verdade básica é o que você mediu para sua variável-alvo nos exemplos de treinamento e teste.

Quase o tempo todo, você pode tratá-lo com segurança da mesma forma que o rótulo.

Em alguns casos, não é exatamente o mesmo que o rótulo. Por exemplo, se você aumenta seu conjunto de dados, há uma diferença sutil entre a verdade básica (suas medidas reais) e como os exemplos aumentados se relacionam aos rótulos que você atribuiu. No entanto, essa distinção geralmente não é um problema.

A verdade básica pode estar errada. É uma medida e pode haver erros nela. Em alguns cenários de BC, também pode ser uma medida subjetiva, onde é difícil definir uma verdade objetiva subjacente - por exemplo, opinião ou análise de especialistas, que você espera automatizar. Qualquer modelo de ML que você treinar será limitado pela qualidade da verdade básica usada para treiná-lo e testá-lo, e isso faz parte da explicação na citação da Wikipedia. É também por isso que os artigos publicados sobre BC devem incluir descrições completas de como os dados foram coletados.

Neil Slater
fonte
Durante o treinamento, o GT (por exemplo, problemas de segmentação) pode ser modificado ou criado, devido às informações obtidas (por exemplo, nos mapas de pontuação) dos recursos?
Alex
@ Alex: Normalmente não. Pode haver algumas circunstâncias em que uma saída revisada ou um processo semi-automatizado produz a verdade fundamental para o próximo algoritmo em um pipeline. No entanto, se você estiver se referindo a um algoritmo que revisa seus próprios destinos por meio de alguma regra, isso geralmente não é considerado uma nova verdade básica - em vez disso, a verdade básica seria as segmentações originais fornecidas para o treinamento. Qualquer refinamento automatizado inteligente seria parte do modelo.
Neil Slater
Um refinamento com interação humana, ou os referidos dados originais sem imagem (por exemplo, algumas imagens de origem são geradas usando o modelo 3D, para criar uma segmentação "verdadeira" muito melhor), pode ser uma nova verdade. Embora você talvez deseje separar a idéia de verdade básica da geração 1 usada para construir o primeiro modelo da verdade básica da geração 2 que passou por uma iteração e usada para construir um segundo modelo, mesmo que o segundo modelo tenha a mesma arquitetura treinado em feedback.
Neil Slater
'treinado em feedback' - próximo, mas não exatamente. Se você viu o modelo FCN, a última camada é o mapa de pontuação, que é conectado à função de perda de softmax do log junto com o mapa gt. O que faço é pegar o mapa de pontuação, extrair alguns dados dele (por exemplo, número de blobs binários argmax) e (de alguma forma) modificar a máscara gt antes de conectá-lo na função de perda. Quão legítimo é isso?
21418 Alex
@ Alex: Isso faz parte do seu modelo, e não uma nova verdade. A menos que você decida, arbitrariamente, que o objetivo de um novo modelo é aprender sua função combinada. Nesse caso, é a verdade básica do novo modelo - no entanto, você definitivamente deve observar a fonte complexa desses dados, pois eles foram modificados a partir da medição original de maneira automatizada.
Neil Slater
2

Verdade básica: essa é a realidade que você deseja que seu modelo preveja.

Pode haver algum ruído, mas você deseja que seu modelo aprenda o padrão subjacente nos dados que estão causando essa verdade básica. Praticamente, seu modelo nunca será capaz de prever a verdade do solo, pois a verdade do solo também terá algum ruído e nenhum modelo fornece cem por cento de precisão, mas você deseja que o seu modelo esteja o mais próximo possível.

Vivek Khetan
fonte