Usando percentis como preditores - boa ideia?

9

Estou pensando em um problema que é prever o log (gasto) de um cliente usando regressão linear.

Estou pensando em quais recursos usar como entrada e me perguntando se seria bom usar o percentil de uma variável como entradas.

Por exemplo, eu poderia usar a receita das empresas como insumo. O que eu quero saber é se eu poderia usar o percentil de receita da empresa.

Outro exemplo seria um classificador de indústria categórico (NAICS) - se eu visse o gasto médio por código NAICS e depois atribuísse cada código NAICS a um 'Percentil NAICS', seria uma variável explicativa válida que eu poderia usar?

Gostaria de saber se há algum problema a ser observado ao usar percentis? De certa forma, é equivalente a um tipo de dimensionamento de recurso?

andrewm4894
fonte
2
Se você possui os dados originais, por que você gostaria de usar percentis? Talvez não seja uma boa ideia, porque os percentis são apenas medidas ordinais, não métricas. Mas não tenho certeza sobre viés / eficiência.
Hplieninger
9
A porcentagem de s é inconsistente com a maneira como os s têm seu efeito. Um erro comum é o percentil de peso ou IMC ao prever um resultado de saúde. A física do peso determina que são as dimensões físicas de uma pessoa que se relacionam com suas funções corporais, e não quantas pessoas na amostra estão abaixo do peso ou do IMC de um indivíduo. XX
25813 Frank Harrell
1
se você puder agrupar razoavelmente sua variável do setor em grupos, por exemplo, 4, use codificação fictícia (ou qualquer outro esquema de codificação apropriado) e pronto. É assim que eu faria.
Hplieninger
3
Não consigo pensar em uma razão para o percentil estar linearmente relacionado à variável dependente. Se você pode pensar de um, então pode ser OK (e atualize a sua pergunta com sua razão)
Peter Flom - Reintegrar Monica
1
Se você deseja usar o código NAICS como um proxy para os gastos de uma empresa, pode fazê-lo usando o gasto médio em seu código NAICS - sem necessidade de usar percentis.
Scortchi - Restabelece Monica

Respostas:

1

Se o seu modelo envolver algum tipo de competição nas receitas firmes, você poderá usar o percentil. O percentil de log parece mais significativo, os quantis não terão valor linear, ou pelo menos eu imagino.

Nesta história, você inclui ln (%) de empresas com receita na empresa de observação. A história é que, com receitas altas, a reputação é melhor do que empresas com receitas baixas, e essa relação de "ter mais do que a concorrência" é relevante, não o nível da receita em si. Eu pude ver isso como uma parte importante do reconhecimento e da marca da empresa.

RegressForward
fonte