Recebi de outros posts que não se pode atribuir 'importância' ou 'significância' às variáveis preditoras que entram em um modelo de laço, porque calcular os valores p ou os desvios-padrão dessas variáveis ainda é um trabalho em andamento.
Sob esse raciocínio, é correto afirmar que não se pode dizer que as variáveis EXCLUÍDAS do modelo de laço são 'irrelevantes' ou 'insignificantes'?
Nesse caso, o que realmente posso reivindicar sobre as variáveis que são excluídas ou incluídas em um modelo de laço? No meu caso específico, selecionei o parâmetro de ajuste lambda repetindo a validação cruzada 10 vezes 100 vezes para reduzir a perda de tempo e calcular a média das curvas de erro.
UPDATE1: Segui uma sugestão abaixo e refiz o laço usando amostras de bootstrap. Eu experimentei 100 amostras (essa era a quantidade que a energia do meu computador poderia gerenciar da noite para o dia) e alguns padrões surgiram. 2 das minhas 41 variáveis entraram no modelo mais de 95% das vezes, 3 variáveis mais de 90% e 5 variáveis mais de 85%. Essas 5 variáveis estão entre as 9 que entraram no modelo quando eu o executei com a amostra original e foram as que apresentaram os maiores valores de coeficiente. Se eu executar o laço com, digamos, 1000 amostras de autoinicialização e esses padrões forem mantidos, qual seria a melhor maneira de apresentar meus resultados?
1000 amostras de inicialização soam o suficiente? (O tamanho da minha amostra é 116)
Devo listar todas as variáveis e com que frequência elas entram no modelo e depois argumentar que aquelas que entram com mais frequência têm mais probabilidade de serem significativas?
Isso é o máximo que posso com minhas reivindicações? Por ser um trabalho em andamento (veja acima), não posso usar um valor de corte, certo?
ATUALIZAÇÃO2: Seguindo uma sugestão abaixo, calculei o seguinte: em média, 78% das variáveis no modelo original entraram nos modelos gerados para as 100 amostras de autoinicialização. Por outro lado, apenas 41% ao contrário. Isso tem a ver em grande parte com o fato de que os modelos gerados para as amostras de bootstrap tendem a incluir muito mais variáveis (17 em média) do que o modelo original (9).
ATUALIZAÇÃO3: Se você puder me ajudar a interpretar os resultados que obtive do bootstrapping e da simulação de Monte Carlo, dê uma olhada neste outro post.