Eu realmente nunca encontrei um bom texto ou exemplos sobre como lidar com dados 'inexistentes' para entradas para qualquer tipo de classificador. Eu li muito sobre dados ausentes, mas o que pode ser feito sobre dados que não podem ou não existem em relação às entradas multivariadas. Entendo que esta é uma pergunta muito complexa e variará dependendo dos métodos de treinamento usados ...
Por exemplo, se estiver tentando prever o tempo de volta para vários corredores com bons dados precisos. Entre muitas entradas, possíveis variáveis entre muitas são:
- Variável de entrada - corredor da primeira vez (S / N)
- Variável de entrada - Tempo decorrido anterior (0 - 500 segundos)
- Variável de entrada - Idade
- Variável de entrada - Altura. . . muito mais variáveis de entrada etc
De saída e previsão - Tempo previsto de volta (0 - 500 segundos)
Uma 'variável ausente' para '2.Tempo de volta anterior' pode ser calculada de várias maneiras, mas '1. O corredor da primeira vez 'sempre seria igual a N. Mas para 'DADOS NÃO EXISTENTES' para um corredor iniciante (onde '1. Corredor iniciante' = Y) que valor / tratamento devo dar para '2. Laptime anterior '?
Por exemplo, atribuindo '2. O tempo de volta anterior 'como -99 ou 0 pode distorcer a distribuição drasticamente e parecer que um novo corredor teve um bom desempenho.
Meus métodos de treinamento atuais têm usado regressão logística, SVM, NN e árvores de decisão
fonte
Respostas:
Em vez de atribuir um valor especial ao tempo inexistente da volta anterior do corredor da primeira vez, basta usar o termo de interação para o tempo anterior da volta com o inverso do manequim do corredor da primeira vez:
aqui
Então o modelo para os corredores iniciantes será:
e para não corredores pela primeira vez:
fonte
Para uma regressão logística ajustada pela probabilidade máxima, desde que você tenha ambos (1) e (2) no modelo, não importa qual o valor "padrão" que você atribui aos novos corredores (2), a estimativa para (1) irá ajustar em conformidade.
enquanto que para um corredor existente, será:
Obviamente, se você não estiver usando a máxima probabilidade (ou seja, você estiver usando algum tipo de penalização ou antes nos parâmetros), obterá valores diferentes, a menos que ajuste a penalização / anterior de acordo. E se o modelo for não linear (por exemplo, SVM, NN e árvores de decisão), esse argumento não funcionará.
fonte