Minha variável dependente mostrada abaixo não se encaixa em nenhuma distribuição de estoque que eu conheça. A regressão linear produz resíduos não-normais, inclinados à direita, que se relacionam com o Y previsto de uma maneira estranha (2º gráfico). Alguma sugestão para transformações ou outras maneiras de obter resultados mais válidos e melhor precisão preditiva? Se possível, eu gostaria de evitar a categorização desajeitada em, digamos, 5 valores (por exemplo, 0, lo%, med%, oi%, 1).
25
Respostas:
Métodos de regressão censurada podem manipular dados como este. Eles assumem que os resíduos se comportam como na regressão linear comum, mas foram modificados para que
(Censura à esquerda): todos os valores menores que um limite baixo, independente dos dados, mas que podem variar de um caso para outro, não foram quantificados; e / ou
(Censura à direita): todos os valores maiores que um limite alto, independente dos dados (mas podem variar de um caso para outro), não foram quantificados.
"Não quantificado" significa que sabemos se um valor cai ou não abaixo ou acima de seu limite, mas é tudo.
Na minha experiência, esses métodos podem funcionar bem quando menos da metade dos dados são censurados; caso contrário, os resultados podem ser instáveis.
Aqui está um
R
exemplo simples de como usar ocensReg
pacote para ilustrar como OLS e resultados censurados podem diferir (muito), mesmo com muitos dados. Reproduz qualitativamente os dados na pergunta.Vamos usar os dois
lm
ecensReg
para ajustar uma linha:Os resultados dessa regressão censurada, dados por
print(fit)
, sãoO ajuste OLS, dado por
print(fit.OLS)
, ésummary
Para comparação, vamos limitar a regressão aos dados quantificados:
Pior ainda!
Algumas fotos resumem a situação.
fonte
Os valores estão sempre entre 0 e 1?
Nesse caso, você pode considerar uma distribuição beta e uma regressão beta.
Mas não deixe de pensar no processo que leva aos seus dados. Você também pode fazer um modelo inflado em 0 e 1 (0 modelo inflado é comum, você provavelmente precisará estender para 1 inflado por si mesmo). A grande diferença é que esses picos representam um grande número exato de zeros e zeros ou apenas valores próximos de zeros e zeros.
Pode ser melhor consultar um estatístico local (com um contrato de não divulgação para que você possa discutir os detalhes de onde os dados vêm) para descobrir a melhor abordagem.
fonte
Em concordância com o conselho de Greg Snow, ouvi que os modelos beta também são úteis nessas situações (ver Smithson & verkuilen, 2006, A Better Lemon Squeezer ), bem como na regressão quantílica ( Bottai et al., 2010 ), mas esses parecem efeitos de piso e teto tão pronunciados que podem ser inapropriados (especialmente a regressão beta).
Outra alternativa seria considerar tipos de modelos de regressão censurados, em particular o Modelo Tobit , onde consideramos que os resultados observados são gerados por alguma variável latente subjacente que é contínua (e presumivelmente normal). Não vou dizer que esse modelo contínuo subjacente é razoável, considerando seu histograma, mas você pode encontrar algum suporte para ele, pois a distribuição (ignorando o piso) tem uma densidade mais alta em valores mais baixos do instrumento e diminui lentamente para valores mais altos. valores.
Boa sorte, porém, que a censura é tão dramática que é difícil imaginar recuperar muitas informações úteis dentro dos baldes extremos. Parece-me que quase metade da sua amostra está dentro das caixas do piso e do teto.
fonte