Práticas recomendadas ao tratar os dados do intervalo como contínuos

Solução categórica

Tratar os valores como categóricos perde as informações cruciais sobre tamanhos relativos . Um método padrão para superar isso é a regressão logística ordenada . Com efeito, este método "sabe" que e, utilizando relações observadas com regressores (tal como o tamanho) ataques (um tanto arbitrárias) os valores para cada uma das categorias que respeitar a ordenação. $A\lt B\lt \cdots \lt J\lt \ldots$

Como ilustração, considere 30 pares (tamanho, categoria de abundância) gerados como

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

com abundância categorizada em intervalos [0,10], [11,25], ..., [10001,25000].

Gráfico de dispersão da categoria de abundância versus tamanho

A regressão logística ordenada produz uma distribuição de probabilidade para cada categoria; a distribuição depende do tamanho. A partir dessas informações detalhadas, você pode produzir valores e intervalos estimados em torno deles. Aqui está um gráfico dos 10 PDFs estimados a partir desses dados (uma estimativa para a categoria 10 não foi possível devido à falta de dados):

Densidades de probabilidade por categoria

Solução contínua

Por que não selecionar um valor numérico para representar cada categoria e visualizar a incerteza sobre a verdadeira abundância dentro da categoria como parte do termo do erro?

Podemos analisar isso como uma aproximação discreta de uma re-expressão idealizada que converte os valores de abundância em outros valores para os quais os erros observacionais são, para uma boa aproximação, distribuídos simetricamente e com aproximadamente o mesmo tamanho esperado, independentemente de (uma transformação estabilizadora de variância). $f$ $a$ $f(a)$ $a$

Para simplificar a análise, suponha que as categorias foram escolhidas (com base na teoria ou na experiência) para alcançar essa transformação. Podemos assumir então que reexpressa os pontos de corte da categoria como seus índices . A proposta equivale a selecionar algum valor "característico" dentro de cada categoria usar como o valor numérico da abundância sempre que a abundância estiver entre e . Isso seria um proxy para o valor re-expresso corretamente . $f$ $\alpha_i$ $i$ $\beta_i$ $i$ $f(\beta_i)$ $\alpha_i$ $\alpha_{i+1}$ $f(a)$

Suponha, então, que a abundância seja observada com o erro , para que o dado hipotético seja realmente vez de . O erro cometido ao codificá-lo como é, por definição, a diferença , que podemos expressar como uma diferença de dois termos $\varepsilon$ $a+\varepsilon$ $a$ $f(\beta_i)$ $f(\beta_i) - f(a)$

error = f (a + ε) - f (a) - (f (a + ε) - f (β_{i})) .

$\text{error} = f(a + \varepsilon) - f(a) - \left(f(a + \varepsilon) - f(\beta_i)\right).$

Esse primeiro termo, , é controlado por (não podemos fazer nada sobre ) e apareceria se não categorizássemos abundância. O segundo termo é aleatório - depende de e evidentemente está correlacionado com . Mas podemos dizer algo sobre isso: ele deve estar entre e . Além disso, se estiver fazendo um bom trabalho, o segundo termo poderá ser aproximadamente uniformemente distribuído. Ambas as considerações sugerem escolher para que $f(a + \varepsilon) - f(a)$ $f$ $\varepsilon$ $\varepsilon$ $\varepsilon$ $i - f(\beta_i) \lt 0$ $i+1 - f(\beta_i) \ge 0$ $f$ $\beta_i$ $f(\beta_i)$ fica a meio caminho entre e ; isto é, . $i$ $i+1$ $\beta_i \approx f^{-1}(i+1/2)$

Essas categorias nesta questão formam uma progressão aproximadamente geométrica, indicando que é uma versão ligeiramente distorcida de um logaritmo. Portanto, devemos considerar o uso das médias geométricas dos pontos finais do intervalo para representar os dados de abundância . $f$

A regressão de mínimos quadrados ordinários (OLS) com este procedimento fornece uma inclinação de 7,70 (erro padrão é 1,00) e interceptação de 0,70 (erro padrão é 0,58), em vez de uma inclinação de 8,19 (se de 0,97) e interceptação de 0,69 (se de 0,56) ao regredir abundâncias de log em relação ao tamanho. Ambos exibem regressão à média, porque a inclinação teórica deve estar próxima de . O método categórico exibe um pouco mais de regressão à média (uma inclinação menor) devido ao erro de discretização adicionado, como esperado. $4 \log(10) \approx 9.21$

Resultados de regressão

Este gráfico mostra as abundâncias não categorizadas, juntamente com um ajuste baseado nas abundâncias categorizadas (usando médias geométricas dos pontos finais da categoria, conforme recomendado) e um ajuste com base nas próprias abundâncias. Os ajustes são notavelmente próximos, indicando que esse método de substituição de categorias por valores numéricos adequadamente escolhidos funciona bem no exemplo .

Geralmente, é necessário algum cuidado na escolha de um "ponto médio" apropriado para as duas categorias extremas, porque geralmente não é delimitado por lá. (Neste exemplo, considerei o ponto de extremidade esquerdo da primeira categoria como vez de e o ponto de extremidade direito da última categoria em ) Uma solução é resolver o problema primeiro usando dados que não estão nas categorias extremas , use o ajuste para estimar valores apropriados para essas categorias extremas e volte e ajuste todos os dados. Os valores de p serão um pouco bons demais, mas no geral o ajuste deve ser mais preciso e menos inclinado. $\beta_i$ $f$ $1$ $0$ $25000$

whuber
fonte

+1 excelente resposta! Eu gosto especialmente de como duas opções diferentes são descritas, juntamente com suas justificativas. Também acho que tomar o registro da abundância, não do tamanho, deve ser a ênfase, que também foi meu pensamento. Uma pergunta, na parte 1, você declara "você pode produzir valores e intervalos estimados em torno deles". Como se faz isso?

gung - Restabelece Monica

Boa pergunta, @gung. Uma maneira grosseira, que pode ser eficaz, é tratar as categorias como dados com valor de intervalo e os resultados do logit ordenados estão fornecendo uma distribuição (discreta) nesses intervalos para qualquer valor determinado do 'tamanho'. O resultado é uma distribuição com valor de intervalo, que terá uma média com valores de intervalo e limites de confiança com valores de intervalos.

whuber

@whuber, vale a pena mencionar as opções de software. Suponho que você tenha usado o Stata (se eu for treinado o suficiente para representar os gráficos do Stata e contá-los a partir dos gráficos R e SAS), onde este modelo está equipado ologit. Em R, você pode fazer isso com polrno MASSpacote.

StasK

Você está correto, @Stask. Obrigado pela referência à solução R. (Os gráficos são todos os gráficos padrão no Stata 11; somente os estilos de legenda e linha no último foram personalizados, porque a distinção vermelho-verde pode não ser aparente para cerca de 3% de todos os leitores.)

whuber

O @StasK rms::lrme o pacote ordinal ( clm) também são boas opções.

chl

Considere usar o logaritmo do tamanho.

Possui QUIT - Anony-Mousse
fonte

Ha - Essa resposta provocou uma palma da face parcial. É verdade que trata da questão da escala - mas ainda está à mão: categorizar ou não e qual número atribuir ao "valor". Se essas perguntas são irrelevantes, posso lidar com isso também.

Trees4theForest

Bem, você colocou vários problemas em um. Os dados que você possui parecem fazer mais sentido em uma escala logarítmica. Se você deseja fazer binning ou não, é uma pergunta separada, e só tenho outra resposta para você: depende dos seus dados e do que você deseja alcançar. Depois, há outra pergunta oculta: como computo a diferença entre intervalos - calcule a diferença de seus meios? ou a distância mínima (então A a B seria 0, B a C seria 0, mas A a C não). etc

Tem QUIT - Anony-Mousse 8/08/11

Bons pontos, atualizei minha pergunta com mais informações para abordar as metas. Quanto à diferença de intervalos, acho que é a minha pergunta - quais seriam as vantagens / desvantagens relativas de calcular o intervalo com base na diferença de médias, distância mínima, distância máxima, distância entre min, distância entre máximos, etc. sobre que tipo de coisas que eu preciso considerar para tomar essa decisão (ou se ela precisa ser considerada) seria ótima.

Trees4theForest

Existem muitas outras opções. Por exemplo, para eliminar todos os efeitos de escala, você pode tentar prever a posição de classificação. Fora isso, é uma questão de medir erros. Ao usar o logaritmo, você também costuma ponderar os erros dessa maneira. Portanto, quando o valor verdadeiro é 10000 e o valor previsto é 10100, isso é muito menor do que quando o valor previsto é 1 e o valor verdadeiro é 101. Ao fazer binning e computar o mindist entre os compartimentos, você ainda pesa um pouco. erros com 0.

Tem QUIT - Anony-Mousse 8/08/11

Práticas recomendadas ao tratar os dados do intervalo como contínuos

Respostas:

Solução categórica

Solução contínua