Suponha que você tenha um conjunto de dados de uma distribuição contínua com densidade suportada em que não é conhecido, mas é muito grande, portanto, uma densidade de kernel (por exemplo) a estimativa, , é bastante precisa. Para uma aplicação específica, preciso transformar os dados observados em um número finito de categorias para gerar um novo conjunto de dados com uma função de massa implícita .p ( Y ) Z 1 , . . . , Z n g ( z )
Um exemplo simples seria quando e quando . Nesse caso, a função de massa induzida seria
Os dois "parâmetros de ajuste" aqui são o número de grupos, , e o vetor de comprimento (m-1) dos limites \ lambda . Denote a função de massa induzida por \ hat {g} _ {m, \ lambda} (y) .( m - 1 ) λ g m , λ ( y )
Eu gostaria de um procedimento que responda, por exemplo, "Qual é a melhor escolha de para que aumentar o número de grupos para (e escolher o \ lambda ideal lá) traga uma melhoria insignificante?" . Sinto que talvez seja possível criar uma estatística de teste (talvez com a diferença na divergência de KL ou algo semelhante) cuja distribuição possa ser derivada. Alguma idéia ou literatura relevante?
Edit: Eu tenho medições temporais espaçadas uniformemente de uma variável contínua e estou usando uma cadeia de Markov não homogênea para modelar a dependência temporal. Francamente, cadeias de markov de estados discretos são muito mais fáceis de manusear e essa é a minha motivação. Os dados observados são porcentagens. Atualmente, estou usando uma discretização ad hoc que me parece muito boa, mas acho que esse é um problema interessante em que uma solução formal (e geral) é possível.
Edit 2: Minimizar realmente a divergência de KL seria equivalente a não discretizar os dados, de modo que a ideia está totalmente fora de questão. Eu editei o corpo de acordo.
Respostas:
Compartilharei a solução que encontrei há algum tempo - esse não é um teste estatístico formal, mas pode fornecer uma heurística útil.
Considere o caso geral onde você tem observações contínuas ; sem perda de generalidade, suponha que o espaço amostral de cada observação seja o intervalo . Um esquema de categorização dependerá de várias categorias, , e os limites de localizações que dividem as categorias, .Y1,Y2,...,Yn m 0 < λ 1 < λ 2 < ⋯ < λ m - 1 < 1[0,1] m 0<λ1<λ2<⋯<λm−1<1
Denote a versão categorizada de por , onde . Pensando na discretização dos dados como uma partição dos dados originais em classes, a variação de pode ser pensada como uma combinação de variação dentro e entre grupos, para um valor fixo de : Z i ( m , λ ) λ = { λ 1 , λ 2 , ⋯ , λ m - 1 } Y i m , λYi Zi(m,λ) λ={λ1,λ2,⋯,λm−1} Yi m,λ
Uma dada categorização é bem-sucedida na produção de grupos homogêneos se houver relativamente pouca variação dentro do grupo, quantificada por . , buscamos um agrupamento parcimonioso que confere a maior parte da variação em ao . Em particular, queremos escolher para que, adicionando níveis adicionais, não acrescentemos significativamente à homogeneidade dentro do grupo.Com isso em mente, definimos o ideal para um valor fixo de serY i v a r ( E ( Y i | Z i ( m , λ ) ) m λ mE(var(Yi|Zi(m,λ)) Yi var(E(Yi|Zi(m,λ)) m λ m
Um diagnóstico aproximado para determinar qual escolha de é adequada é observar a queda em em função de - essa trajetória monotonicamente não aumenta e depois que diminui acentuadamente, você pode ver que está ganhando relativamente menos precisão ao incluir mais categorias. Essa heurística é similar em espírito, como um " Scree Plot " às vezes é usado para ver quantos componentes principais explicam "o suficiente" da variação.E ( v a r ( Y i | Z i ( m , λ ⋆ m ) ) ) mm E(var(Yi|Zi(m,λ⋆m))) m
fonte