Estou pensando em um problema que é prever o log (gasto) de um cliente usando regressão linear.
Estou pensando em quais recursos usar como entrada e me perguntando se seria bom usar o percentil de uma variável como entradas.
Por exemplo, eu poderia usar a receita das empresas como insumo. O que eu quero saber é se eu poderia usar o percentil de receita da empresa.
Outro exemplo seria um classificador de indústria categórico (NAICS) - se eu visse o gasto médio por código NAICS e depois atribuísse cada código NAICS a um 'Percentil NAICS', seria uma variável explicativa válida que eu poderia usar?
Gostaria de saber se há algum problema a ser observado ao usar percentis? De certa forma, é equivalente a um tipo de dimensionamento de recurso?
regression
linear-model
quantiles
predictor
andrewm4894
fonte
fonte
Respostas:
Se o seu modelo envolver algum tipo de competição nas receitas firmes, você poderá usar o percentil. O percentil de log parece mais significativo, os quantis não terão valor linear, ou pelo menos eu imagino.
Nesta história, você inclui ln (%) de empresas com receita na empresa de observação. A história é que, com receitas altas, a reputação é melhor do que empresas com receitas baixas, e essa relação de "ter mais do que a concorrência" é relevante, não o nível da receita em si. Eu pude ver isso como uma parte importante do reconhecimento e da marca da empresa.
fonte