Eu tenho uma máquina protótipo produzindo peças.
Em um primeiro teste, a máquina produz peças e um classificador binário diz que as peças estão com defeito ( , geralmente e ) e peças são boas.d 1 d 1 < N 1 dN 1 ≈ 10 4 N 1 - d 1
Em seguida, um técnico faz algumas alterações na máquina para diminuir o número de peças com defeito.
Em um segundo e posterior teste, a máquina modificada produz partes e o mesmo classificador binário (intocado) me diz que partes estão com defeito, de qualquer forma é bastante semelhante a .d 2 d 2 / N 2 d 1 / N 1
O técnico gostaria de saber se suas alterações são eficazes.
Supondo que os classificadores sejam perfeitos (sua sensibilidade é 100% e sua especificidade é 100%), posso realizar um teste de proporções (com R, apenas digito prop.test(c(d1,d2),c(N1,N2))
).
Mas o classificador não é perfeito, então como posso levar em consideração a sensibilidade e a especificidade, ambas desconhecidas, do classificador para responder adequadamente ao técnico?
fonte
Respostas:
Portanto, estou derivando isso dos primeiros princípios e, portanto, não tenho certeza de que esteja correto. Aqui estão os meus pensamentos:
EDIT: Isso não estava certo antes. Eu atualizei.
Vamos deixar denotar a diferença esperada entre o número real de verdadeiros positivos d 1 e o número produzido pelo classificador binário que chamaremos ^ d 1 . Você pode medir isso executando seu classificador em um conjunto com rótulos conhecidos. Subtraia o número de positivos reais do número de positivos produzidos pelo classificador e divida por N para obter α .α d1 1 d1 1^ N α
Portanto, uma estimativa pontual para a proporção real de peças defeituosas é dada por: . Ou seja, o número observado de peças defeituosas, menos o número esperado de falsos positivos, mais o número esperado de falsos negativos.d1 1N1 1^= d1 1+ α ∗ N1 1N1 1
Da mesma forma,d2N2^= d2+ α ∗ N2N2
Então, agora vamos fazer um teste de suporte. No teste de suporte padrão, primeiro calculamos a razão combinada usada como valor nulo: . Então, aqui, colocamos em nossas estimativas pontuais de ^ d 1p = p1 1∗ N1 1+ p2∗ N2N1 1+ N2 e^d2d1 1N1 1^ para obter:p=d1+d2+α∗(N1+N2)d2N2^ p = d1 1+ d2+ α ∗ ( N1 1+ N2)N1 1+ N2
E o erro padrão é apenas o habitual:p ∗ ( 1 - p ) ∗ ( 1N1 1+ 1N2)------------------√
E a estatística do teste é a mesma:z=d1N1−d2N2se
Algumas reflexões sobre interpretação:
Outra maneira de pensar sobre isso é que, se o número de partes defeituosas estiver dentro da margem de erro do classificador, é claro que não saberemos se há uma diferença: nem mesmo saberemos se há alguma peça defeituosa!
fonte
prop.test(7,100)