Medidas de complexidade do modelo

19

Como podemos comparar a complexidade de dois modelos com o mesmo número de parâmetros?

Edit 19/09 : Para esclarecer, a complexidade do modelo é uma medida de quão difícil é aprender com dados limitados. Quando dois modelos ajustam os dados existentes igualmente bem, um modelo com menor complexidade gera menos erros nos dados futuros. Quando aproximações são usadas, tecnicamente isso nem sempre é verdade, mas tudo bem se tende a ser verdade na prática. Várias aproximações dão diferentes medidas de complexidade

Yaroslav Bulatov
fonte
você pode fornecer mais informações sobre quais atributos estão disponíveis sobre os modelos?
precisa saber é o seguinte
Essa é uma pergunta em aberto, então minha pergunta seria: que tipo de atributos eu preciso para medir a complexidade? No nível mais básico, um modelo probabilístico é um conjunto de distribuições de probabilidades, e eu ajustar o modelo aos dados escolhendo o melhor membro do encaixe
Yaroslav Bulatov
3
O que, precisamente, é "complexidade"? (Esta não é uma pergunta irreverente!) Na ausência de uma definição formal, não podemos esperar fazer comparações válidas de algo.
whuber
É isso que eu estou pedindo, essencialmente
Yaroslav Bulatov
2
Mas você não pode pelo menos nos dar uma dica sobre qual aspecto de um modelo você está tentando capturar na palavra "complexidade"? Sem isso, essa pergunta é ambígua demais para admitir uma resposta razoável.
whuber

Respostas:

12

Além das várias medidas de Comprimento Mínimo da Descrição (por exemplo, máxima verossimilhança normalizada, aproximação de Informações de Fisher), existem outros dois métodos que vale a pena mencionar:

  1. Inicialização paramétrica . É muito mais fácil de implementar do que as exigentes medidas MDL. Um bom artigo é de Wagenmaker e colegas:
    Wagenmakers, E.-J., Ratcliff, R., Gomez, P. e Iverson, GJ (2004). Avaliando a imitação de modelo usando a inicialização paramétrica . Jornal de Psicologia Matemática , 48, 28-50.
    O resumo:

    Apresentamos um procedimento geral de amostragem para quantificar a imitação de modelo, definida como a capacidade de um modelo de contabilizar dados gerados por um modelo concorrente. Esse procedimento de amostragem, chamado método de ajuste cruzado de inicialização paramétrica (PBCM; cf. Williams (JR Statist. Soc. B 32 (1970) 350; Biometrics 26 (1970) 23)), gera distribuições de diferenças na qualidade do ajuste esperado em cada um dos modelos concorrentes. Na versão informada por dados do PBCM, os modelos geradores possuem valores de parâmetros específicos obtidos ajustando os dados experimentais em consideração. As distribuições de diferenças informadas pelos dados podem ser comparadas com a diferença observada na qualidade do ajuste para permitir uma quantificação da adequação do modelo. Na versão não informada de dados do PBCM, os modelos geradores têm uma faixa relativamente ampla de valores de parâmetros com base em conhecimentos prévios. A aplicação dos dados informados e dos dados PBCM não informados é ilustrada com vários exemplos.

    Atualização: Avaliação da imitação de modelo em inglês simples. Você pega um dos dois modelos concorrentes e escolhe aleatoriamente um conjunto de parâmetros para esse modelo (dados informados ou não). Em seguida, você produz dados desse modelo com o conjunto de parâmetros escolhido. Em seguida, você deixa os dois modelos ajustarem os dados produzidos e verifica qual dos dois modelos candidatos dá o melhor ajuste. Se os dois modelos forem igualmente flexíveis ou complexos, o modelo a partir do qual você produziu os dados deve se ajustar melhor. No entanto, se o outro modelo for mais complexo, ele poderá dar um melhor ajuste, embora os dados tenham sido produzidos a partir do outro modelo. Você repete isso várias vezes com os dois modelos (ou seja, deixe os dois modelos produzirem dados e ver qual dos dois se encaixa melhor). O modelo que "superajusta" os dados produzidos pelo outro modelo é o mais complexo.

  2. Validação cruzada : também é muito fácil de implementar. Veja as respostas para esta pergunta . No entanto, observe que o problema é que a escolha entre a regra de corte de amostras (deixar de fora, dobrar em K, etc.) é uma regra sem princípios.

Henrik
fonte
Eu realmente não entendo "imitação de modelo", mas a validação cruzada parece adiar a tarefa de avaliar a complexidade. Se você usar dados para escolher seus parâmetros e seu modelo como na validação cruzada, a questão relevante passa a ser como estimar a quantidade de dados necessária para isso "meta" -fitter para um bom desempenho
Yaroslav Bulatov
@Yaroslaw: Eu realmente não entendo seu problema com a validação cruzada, mas para ser sincero, não sou especialista nisso. No entanto, eu realmente gostaria de fazer um ponto para medir a imitação de modelo. Portanto, veja minha resposta atualizada.
Henrik
4

Eu acho que isso dependeria do procedimento de ajuste do modelo real. Para uma medida geralmente aplicável, você pode considerar graus de liberdade generalizados descritos em Ye 1998 - essencialmente a sensibilidade da mudança de estimativas do modelo à perturbação das observações - que funciona muito bem como uma medida da complexidade do modelo.

ars
fonte
Hum ... o trabalho é sobre regressão, gostaria de saber se isso pode ser usado para estimativa de probabilidade discreta. Além disso, eu realmente não entendo a motivação que ele dá para isso - o gdf é um grau de sensibilidade dos parâmetros a pequenas alterações nos dados, mas por que é importante? Eu pudesse escolher uma parametrização diferente onde pequenas alterações nos parâmetros no original correspondem parametrização a grandes mudanças na nova parametrização, por isso vai parecer mais sensíveis aos dados, mas é o mesmo modelo
Yaroslav Bulatov
Yaroslav:> * Eu poderia escolher uma parametrização diferente, na qual pequenas alterações nos parâmetros na parametrização original correspondem a grandes alterações na nova parametrização, portanto, parecerá mais sensível aos dados * você pode dar um exemplo (envolvendo um estimador equivariante afim)? Obrigado,
user603
1
O DOF em regressão linear funciona com o traço da matriz do chapéu ou a soma das sensibilidades - então a motivação / conceito não está tão longe assim. Tibshirani & Knight propuseram o critério de inflação de covariância, que examina covariâncias de estimativas de modelos em vez de sensibilidades. O GDF parece ter sido aplicado em vários procedimentos de modelo, como no limiar de carrinho e wavelet (o artigo de Ye sobre seleção de modelo adaptável tem mais detalhes) e em métodos de conjunto para controlar a complexidade, mas não conheço nenhum caso de estimativa discreta. Pode valer a pena tentar ...
ars
Não saiba sobre "estimadores equivariantes afins", mas suponha que confiamos no estimador de probabilidade máxima. Seja q = f (p) onde f é alguma bijeção. Seja p0, q0 a estimativa do MLE na parametrização correspondente. p0, q0 terão diferentes variações assintóticas, mas em termos de modelagem de dados, elas são equivalentes. Portanto, a questão se resume a: em qual parametrização a sensibilidade dos parâmetros representa o risco esperado?
Yaroslav Bulatov
4

Vale a pena conferir o Comprimento Mínimo da Descrição (MDL) e o Comprimento Mínimo da Mensagem (MML).

No que diz respeito à MDL, um artigo simples que ilustra o procedimento de Máxima Verossimilhança Normalizada (NML), bem como a aproximação assintótica, é:

S. de Rooij e P. Grünwald. Um estudo empírico da seleção mínima de modelos de comprimento de descrição com infinita complexidade paramétrica. Jornal de Psicologia Matemática, 2006, 50, 180-192

Aqui, eles examinam a complexidade do modelo de uma distribuição Geométrica vs. Poisson. Um excelente tutorial (gratuito) sobre MDL pode ser encontrado aqui .

Alternativamente, um artigo sobre a complexidade da distribuição exponencial examinada com MML e MDL pode ser encontrado aqui . Infelizmente, não há um tutorial atualizado sobre MML, mas o livro é uma excelente referência e altamente recomendado.

emakalic
fonte
1
Eu li esse artigo e parece que a Complexidade estocástica corrige o problema de não ser capaz de distinguir entre modelos de mesmas dimensões, mas introduz um problema de, às vezes, não ser capaz de distinguir entre modelos de diferentes dimensões. A distribuição geométrica é atribuída complexidade infinita, certamente não é o que esperaríamos de um modelo tão simples!
Yaroslav Bulatov
Muito bom ponto sobre a complexidade estocástica infinita (SC). Existem soluções para o problema do SC infinito, mas não são muito elegantes; A renormalização de Rissanen funciona bem em modelos lineares, mas não é fácil de resolver no problema de Poisson / Geométrico. A codificação MML (ou SMML) dos dados de Poisson / Geometric é boa.
emakalic
3

Descrição mínima O comprimento pode ser uma avenida que vale a pena seguir.

S. Kolassa - Restabelecer Monica
fonte
2
Apenas uma observação rápida: o tamanho mínimo da descrição é muito poderoso e útil, mas pode levar anos para obter resultados, especialmente ao usar a probabilidade máxima normalizada com conjuntos de dados ligeiramente maiores. Certa vez, levou 10 dias a execução de código FORTRAN para obtê-lo para apenas um modelo
Dave Kellen
2

Por "complexidade do modelo", geralmente se entende a riqueza do espaço do modelo. Observe que esta definição não depende de dados. Para modelos lineares, a riqueza do espaço do modelo é medida trivialmente com a diminuição do espaço. É o que alguns autores chamam de "graus de liberdade" (embora historicamente, os graus de liberdade tenham sido reservados para a diferença entre o espaço do modelo e o espaço da amostra). Para modelos não lineares, quantificar a riqueza do espaço é menos trivial. Os graus de liberdade generalizados (ver resposta da ars) são uma medida. É realmente muito geral e pode ser usado para qualquer espaço de modelo "estranho", como árvores, KNN e similares. A dimensão VC é outra medida.

Como mencionado acima, essa definição de "complexidade" é independente de dados. Portanto, dois modelos com o mesmo número de parâmetros normalmente terão a mesma "complexidade".

JohnRos
fonte
1

Dos comentários de Yaroslav à resposta de Henrik:

mas a validação cruzada parece adiar a tarefa de avaliar a complexidade. Se você usar os dados para escolher seus parâmetros e seu modelo como na validação cruzada, a questão relevante será como estimar a quantidade de dados necessários para que esse ajustador "meta" tenha um bom desempenho

kkkCV(k)kk

Você pode até dar um sabor "significativo" a isso, pois o resultado do procedimento está diretamente em termos (unidades) de diferença no erro de previsão fora da amostra.

user603
fonte
1
Concordo que a Validação Cruzada resolve o problema de medir a complexidade do modelo. Talvez eu esteja fazendo a pergunta errada, porque uma pergunta prática é a complexidade da amostra do procedimento de ajuste. O aluno com validação cruzada tentaria modelos diferentes e escolheria aquele com o menor erro de validação cruzada. Agora, a pergunta é: é mais provável que esse aluno se ajuste demais do que aquele que se encaixa em um único modelo pela máxima probabilidade?
Yaroslav Bulatov
Yaroslav Bulatov:> sim, mas você pode usar o ML apenas para comparar modelos aninhados. Na medida em que você especificou (na sua pergunta) modelos mencionados com o mesmo número de parâmetros, eles não podem ser aninhados.
user603
Outra questão é que a validação cruzada não contribui para o nosso entendimento da complexidade do modelo. Medidas como AIC / BIC deixam claro que muitos parâmetros incentivam o super ajuste. Agora, a pergunta se torna: quais aspectos do modelo além da dimensão aumentam a capacidade de superajuste?
Yaroslav Bulatov
Yaroslav:> Novamente, argumento muito bom.
user603
Se o ajuste excessivo é a tendência de um procedimento de ajuste de modelo para ajustar o ruído além do sinal, podemos observar um determinado procedimento para ver onde essas tendências podem surgir. Talvez devido à falta de imaginação ou conhecimento, considerando alguns procedimentos diferentes, não pude resumir isso a algo que não pode ser reapresentado como "número de parâmetros" (ou "número efetivo de parâmetros"). Poderíamos virar isso de cabeça para baixo e perguntar: tudo o resto é igual, o que acontece quando introduzimos ruído em nossos dados? Então chegamos a medidas como a GDF de Ye.
Ars
0

E o critério de informação para comparação de modelos? Veja, por exemplo, http://en.wikipedia.org/wiki/Akaike_information_criterion

A complexidade do modelo é aqui o número de parâmetros do modelo.

Brause42
fonte
AIC não é uma medida da complexidade do modelo.
Sven Hohenstein
@SvenHohenstein, desde sua última frase, entendo que ele não está sugerindo que a própria AIC seja uma medida da complexidade do modelo. Brause42, observe que a pergunta é específica sobre modelos com o mesmo número de parâmetros. Assim, a AIC reduzirá a SSE ou desvio, ou o que seja.
gung - Restabelece Monica