Existem problemas que dependem de recursos específicos dos seus dados e da abordagem analítica, mas, em geral, os dados distorcidos (em qualquer direção) degradam parte da capacidade do seu modelo de descrever casos mais "típicos" para lidar com casos muito mais raros. levar valores extremos.
Como os casos "típicos" são mais comuns do que os extremos em um conjunto de dados distorcido, você está perdendo alguma precisão nos casos que verá com mais frequência para acomodar casos que verá raramente. Determinar um coeficiente para mil observações que estão entre [0,10] provavelmente será mais preciso do que para 990 observações entre [0,10] e 10 observações entre [1.000, 1.000.000]. Isso pode fazer com que seu modelo seja menos útil no geral.
A "correção" da distorção pode fornecer uma variedade de benefícios, incluindo a análise que depende dos dados serem distribuídos aproximadamente como possível / mais informativo. Também pode produzir resultados relatados em uma escala sensata (isso depende muito da situação) e impedir que valores extremos (em relação a outros preditores) super ou subestimam a influência do preditor distorcido na classificação prevista.
Você pode testar isso um pouco (de maneira não definitiva, com certeza) treinando modelos com vários subconjuntos de dados: tudo o que você tem, exatamente como são, seus dados sem essa variável distorcida, seus dados com essa variável mas excluindo valores fora do intervalo "típico" (embora você precise ter cuidado ao definir isso), seus dados com a distribuição variável distorcida serão transformados ou redimensionados, etc.
Quanto à correção, transformações e redimensionamentos geralmente fazem sentido. Mas não posso enfatizar o suficiente:
Brincar com variáveis e suas distribuições deve seguir as propriedades dessas variáveis, não a sua conveniência na modelagem.
As variáveis assimétricas transformadoras de log são um excelente exemplo disso:
- Se você realmente acha que uma variável opera em uma escala geométrica e deseja que seu modelo opere em uma escala aritmética, a transformação de log pode fazer muito sentido.
- Se você acha que essa variável opera em uma escala aritmética, mas considera sua distribuição inconveniente e pensa que uma transformação de log produziria uma distribuição mais conveniente, pode fazer sentido transformar. Isso mudará a maneira como o modelo é usado e interpretado, geralmente tornando-o mais denso e difícil de interpretar claramente, mas isso pode ou não valer a pena. Por exemplo, se você tomar o log de um resultado numérico e o log de um preditor numérico, o resultado deverá ser interpretado como uma elasticidade entre eles, o que pode ser complicado de se trabalhar e geralmente não é o desejado.
- Se você acha que uma transformação de log seria desejável para uma variável, mas tem muitas observações com o valor 0, a transformação de log não é realmente uma opção para você, se seria conveniente ou não. (Adicionar um "valor pequeno" às observações 0 causa muitos problemas - faça os registros de 1 a 10 e, em seguida, de 0,0 a 1,0).
Concordo com os principais pontos do @Upper_Case, bem como responder. Eu gosto de apresentar uma perspectiva que enfatiza o lado do "aprendizado de máquina" da questão.
Para uma tarefa de classificação usando kNN, regressão logística, SVM do kernel ou redes neurais não lineares, a principal desvantagem com a qual estamos preocupados é a diminuição no desempenho do modelo , por exemplo, diminuição na pontuação da AUC em um conjunto de validação.
Outras desvantagens da assimetria são frequentemente investigadas quando é difícil avaliar o dano da assimetria na qualidade do resultado . No entanto, em um problema de classificação, podemos treinar e validar o modelo uma vez com o original (inclinado) e outra com o recurso transformado , e depois
Em outras palavras, o dano à assimetria pode ser avaliado de maneira fácil e objetiva, portanto, essas justificativas não afetam nossa decisão , apenas o desempenho.
Se examinarmos de perto as justificativas para o uso, digamos, da transformação de log, elas se mantêm verdadeiras quando são feitas algumas suposições sobre os recursos finais com os quais um modelo ou teste trabalha diretamente. Um recurso final é uma função do recurso bruto; essa função pode ser identidade. Por exemplo, um modelo (ou teste) pode assumir que uma característica final deve ser normal, ou pelo menos simétrica em torno da média, ou deve ser linearmente aditiva, etc. Então, nós, com o conhecimento (ou uma especulação) de que uma matéria-prima o recurso é inclinado para a esquerda, pode executar a transformação do log para alinhar o recurso final com a suposição imposta.
Uma complexidade importante aqui é que não alteramos e não podemos alterar a distribuição de nenhum recurso bruto; estamos apenas criando um recurso final (em função do recurso bruto) que possui uma distribuição diferente, mais alinhada às suposições impostas.
Para uma tarefa de classificação usando redes kNN, regressão logística, SVM do kernel ou redes neurais não lineares, não há normalidade ou suposição simétrica para a distribuição dos recursos finais; portanto, não há força nesses modelos nesse sentido. Embora possamos traçar uma sombra da suposição "adição linear" no modelo de regressão logística, ou seja, e em redes neurais para soma ponderada de recursos na primeira camada, ou seja,P( y= 1 | x ) =1 11 +e- (W1 1x1 1+ . . +Wdxd) yEu= f(Wi , .x + b ) =f(Wi , 1x1 1+Wi , 2x2+ . . . + b ) Digo "uma sombra" porque a variável de destino não é diretamente a adição linear dos recursos finais, a adição passa por uma ou mais transformações não lineares que poderiam tornar esses modelos mais robustos à violação dessa suposição. Por outro lado, a suposição de adição linear não existe no kNN ou no kernelSVM, pois eles trabalham com distâncias amostra-amostra em vez de interações de recursos.
Mas, novamente, essas justificativas vêm em segundo lugar em comparação com o resultado da avaliação do modelo, se o desempenho sofre, não transformamos.
fonte