Estou com um problema de classificação e li o código e os tutoriais de muitas pessoas. Uma coisa que eu notei é que muitas pessoas tomam np.log
ou log
de variável contínua como loan_amount
ou applicant_income
etc.
Eu só quero entender a razão por trás disso. Isso ajuda a melhorar a precisão da previsão do modelo. Isso é obrigatório? ou Existe alguma lógica por trás disso?
Forneça algumas explicações, se possível. Obrigado.
fonte
Principalmente por causa da distribuição distorcida. O logaritmo naturalmente reduz a faixa dinâmica de uma variável, de modo que as diferenças são preservadas enquanto a escala não é tão distorcida. Imagine que algumas pessoas tenham 100.000.000 de empréstimo e outras tenham 10000 e cerca de 0. Qualquer escala de recurso provavelmente colocará 0 e 10000 tão próximos um do outro, já que o maior número ultrapassa os limites. O logaritmo resolve o problema.
fonte
fonte
Ainda outra razão pela qual as transformações logarítmicas são úteis entra em jogo para os dados de razão, devido ao fato de que
log(A/B) = -log(B/A)
. Se você traçar uma distribuição de proporções na escala bruta, seus pontos cairão no intervalo(0, Inf)
. Quaisquer proporções menores que 1 serão compactadas em uma pequena área da plotagem e, além disso, a plotagem parecerá completamente diferente se você alternar a proporção para em(B/A)
vez de(A/B)
. Se você fizer isso em uma escala logarítmica, o intervalo será agora(-Inf, +Inf)
, o que significa proporções menores que 1 e maiores que 1 são distribuídas de forma mais igual. Se você decidir mudar a proporção, basta girar o gráfico em torno de 0, caso contrário, ele será exatamente o mesmo. Em uma escala de log, não importa realmente se você mostra uma proporção como1/10 or 10/1
, o que é útil quando não há uma escolha óbvia sobre qual deveria ser.fonte
Você deve olhar para a distribuição lognormal .
As pessoas podem usar logs porque acham que isso comprime a escala ou algo assim, mas o uso de princípios por logs é que você está trabalhando com dados que têm uma distribuição normal de log. Isso tenderá a ser coisas como salários, preços de moradias, etc., onde todos os valores são positivos e a maioria é relativamente modesta, mas alguns são muito grandes.
Se você puder fazer o log dos dados e eles se tornarem normais, poderá tirar proveito de muitos recursos de uma distribuição normal, como média bem definida, desvio padrão (e, portanto, z-scores), simetria, etc.
Da mesma forma, a adição de logs é igual à multiplicação dos valores não registrados. O que significa que você transformou uma distribuição em que os erros são aditivos em um em que são multiplicativos (ou seja, baseados em porcentagem). Como técnicas como a regressão OLS exigem uma distribuição normal de erros, trabalhar com logs estende sua aplicabilidade dos processos aditivo aos multiplicativo.
fonte
Eu diria que o principal motivo não é distributivo, mas por causa da relação não linear. Os logs geralmente capturam relacionamentos saturantes ...
fonte