Determinando uma discretização ideal de dados de uma distribuição contínua

Suponha que você tenha um conjunto de dados de uma distribuição contínua com densidade suportada em que não é conhecido, mas é muito grande, portanto, uma densidade de kernel (por exemplo) a estimativa, , é bastante precisa. Para uma aplicação específica, preciso transformar os dados observados em um número finito de categorias para gerar um novo conjunto de dados com uma função de massa implícita . $Y_{1}, ..., Y_{n}$ $p(y)$ $[0,1]$ $n$ $\hat{p}(y)$ $Z_{1}, ..., Z_{n}$ $g(z)$

Um exemplo simples seria quando e quando . Nesse caso, a função de massa induzida seria $Z_{i} = 0$ $Y_{i} \leq 1/2$ $Z_{i} = 1$ $Y_{i} > 1/2$

\hat{g} (0) = \int_{0}^{1 / 2} \hat{p} (y) d y, \hat{g} (1) = \int_{1 / 2}^{1} \hat{p} (y) d y

$\hat{g}(0) = \int_{0}^{1/2} \hat{p}(y) dy, \ \ \ \hat{g}(1) = \int_{1/2}^{1} \hat{p}(y)dy$

Os dois "parâmetros de ajuste" aqui são o número de grupos, , e o vetor de comprimento dos limites . Denote a função de massa induzida por . $m$ $(m-1)$ $\lambda$ $\hat{g}_{m,\lambda}(y)$

Eu gostaria de um procedimento que responda, por exemplo, "Qual é a melhor escolha de $m, \lambda$ para que aumentar o número de grupos para $m+1$ (e escolher o ideal $\lambda$ lá) traga uma melhoria insignificante?" . Sinto que talvez seja possível criar uma estatística de teste (talvez com a diferença na divergência de KL ou algo semelhante) cuja distribuição possa ser derivada. Alguma idéia ou literatura relevante?

Edit: Eu tenho medições temporais espaçadas uniformemente de uma variável contínua e estou usando uma cadeia de Markov não homogênea para modelar a dependência temporal. Francamente, cadeias de markov de estados discretos são muito mais fáceis de manusear e essa é a minha motivação. Os dados observados são porcentagens. Atualmente, estou usando uma discretização ad hoc que me parece muito boa, mas acho que esse é um problema interessante em que uma solução formal (e geral) é possível.

Edit 2: Minimizar realmente a divergência de KL seria equivalente a não discretizar os dados, de modo que a ideia está totalmente fora de questão. Eu editei o corpo de acordo.

continuous-data discrete-data Macro
fonte

Na maioria dos casos, as necessidades do aplicativo subseqüente determinarão a qualidade de qualquer solução. Talvez, para nos dar alguma orientação, você possa dizer mais sobre isso.

whuber

Primeiro, defina o que você quer dizer com insignificante . Na mão, isso parece relacionado a um problema de distorção da taxa . O texto Cover & Thomas fornece uma boa introdução legível para esses tópicos.

cardeal

Penso na discretização com níveis como um modelo com parâmetros (para os limites). Nesse cenário, quando digo insignificante, quero dizer "não vale a pena adicionar o parâmetro extra" em um sentido estatístico.

k

$k$

k - 1

$k-1$

Macro

Não tenho certeza se discretizar é realmente uma boa jogada. Você não poderá generalizar além das fronteiras que os valores discretos criam no espaço original de suas observações.

bayerj

Respostas:

Compartilharei a solução que encontrei há algum tempo - esse não é um teste estatístico formal, mas pode fornecer uma heurística útil.

Considere o caso geral onde você tem observações contínuas ; sem perda de generalidade, suponha que o espaço amostral de cada observação seja o intervalo . Um esquema de categorização dependerá de várias categorias, , e os limites de localizações que dividem as categorias, . $Y_{1}, Y_{2}, ..., Y_{n}$ $[0,1]$ $m$ $0 < \lambda_{1} < \lambda_{2} < \cdots < \lambda_{m-1} < 1$

Denote a versão categorizada de por , onde . Pensando na discretização dos dados como uma partição dos dados originais em classes, a variação de pode ser pensada como uma combinação de variação dentro e entre grupos, para um valor fixo de : $Y_{i}$ $Z_{i}(m, {\boldsymbol \lambda})$ ${\boldsymbol \lambda} = \{ \lambda_{1}, \lambda_{2}, \cdots, \lambda_{m-1} \}$ $Y_{i}$ $m, {\boldsymbol \lambda}$

v a r (Y_{i}) = v a r (E (Y_{i} | Z_{i} (m, λ))) + E (v a r (Y_{i} | Z_{i} (m, λ))) .

$\begin{equation} {\rm var}(Y_{i}) = {\rm var} \Big( E(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big) + E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big). \end{equation}$

Uma dada categorização é bem-sucedida na produção de grupos homogêneos se houver relativamente pouca variação dentro do grupo, quantificada por . , buscamos um agrupamento parcimonioso que confere a maior parte da variação em ao . Em particular, queremos escolher para que, adicionando níveis adicionais, não acrescentemos significativamente à homogeneidade dentro do grupo.Com isso em mente, definimos o ideal para um valor fixo de ser $E( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}) )$ $Y_{i}$ ${\rm var}( E(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}) )$ $m$ ${\boldsymbol \lambda}$ $m$

λ_{m}^{⋆} = {a r g m i n}_{λ} E (v a r (Y_{i} | Z_{i} (m, λ)))

$\begin{equation} {\boldsymbol \lambda}^{\star}_{m} = {\rm argmin}_{\boldsymbol \lambda} E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big) \end{equation}$

Um diagnóstico aproximado para determinar qual escolha de é adequada é observar a queda em em função de - essa trajetória monotonicamente não aumenta e depois que diminui acentuadamente, você pode ver que está ganhando relativamente menos precisão ao incluir mais categorias. Essa heurística é similar em espírito, como um " Scree Plot " às vezes é usado para ver quantos componentes principais explicam "o suficiente" da variação. $m$ $E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}^{\star}_{m} )) \Big)$ $m$

Macro
fonte