Intervalo de confiança para previsão xgb

8

especialistas! Talvez você saiba como calcular o intervalo de confiança para xgboost? A fórmula clássica com distribuição t não pode ajudar, porque meus dados não são normalmente distribuídos. Ou não importa?

Se você sugerir alguma literatura, será muito útil, mas as abordagens em R e Python (no contexto da biblioteca xgb) também são boas.

Talvez, parece que este , mas como calcular? E encontrou isso - está certo ou não?

PS: Não consigo adicionar algumas fotos relacionadas aos meus dados (limite de links), desculpe.

Lu Wao
fonte
Isso é um problema de classificação? Quando você diz que os dados não são normais, você quer dizer normal multivariado?
Michael R. Chernick 12/01
@MichaelChernick Não, problema de regressão. Eu acho que os dados podem ser nomeados como multivariados normais, porque eu tenho informações sobre diferentes cidades e subsidiárias. Portanto, meu intervalo de confiança estava relacionado à distribuição para cada cidade.
Lu Wao 12/01
O problema não está afirmado claramente. Nenhuma maneira de dizer isso era um problema de regressão. Tive a impressão de que era uma classificação baseada em olhar nos seus links. Se for regressão, existe apenas uma variável preditora e uma variável dependente? Se for esse o caso, está usando a distribuição t para os parâmetros de regressão que você está falando. Também poderia ser para um determinado valor ajustado de y (variável dependente) dado x (variável preditora) ou um intervalo de predição para um novo valor de y.
Michael R. Chernick
@MichaelChernick No modelo, uma variável dependente e mais de 30 vars independentes. Sim, o xgb funciona em árvores (que inicialmente resolvem o problema de classificação), mas eu o usei para regressão.
Lu Wao
1
@ ab90hi Mas graças pela sua resposta, agora eu sei, esse intervalo automaticamente R computação errado :)
Lu Wao

Respostas:

4

Então, esta é a resposta! ( espelho )

Para criar limites de confiança para dados distribuídos de maneira anormal, primeiro você precisa criar uma regressão quantil, em vez de uma regressão linear, como faz por padrão. Para isso, é necessário, usando as derivadas derivadas do artigo ou simplesmente copiando o código no python, para personalizar a variável 'objetivo'. Também é necessário alterar a função gradiente e a função gaussiana. Depois que tudo estiver programado, crie uma regressão quantílica para o quinquagésimo quinto (esta será a regressão inicial) e, em seguida, duas regressões quantílicas para os dois limites do intervalo (por exemplo, 95 e 5). Como resultado, você obtém não apenas um modelo mais preciso para a regressão inicial, mas também os intervalos desejados.

Lu Wao
fonte
4
Estamos tentando construir um repositório permanente de informações estatísticas de alta qualidade na forma de perguntas e respostas. Portanto, temos receio de respostas somente para links, devido ao linkrot. Você pode postar uma citação completa e um resumo das informações no link, caso elas desapareçam?
TEG - Restabelece Monica