Tenho um conjunto de dados de estudos de caso de projetos para um novo tipo de método de pesquisa para agências governamentais apoiarem as atividades de tomada de decisão. Minha tarefa é desenvolver um método de estimativa baseado em experiências passadas para projetos futuros para fins de estimativa.
Meu conjunto de dados é limitado a 50 casos. Tenho mais de 30 preditores (potenciais) registrados e uma variável de resposta (ou seja, horas necessárias para concluir o projeto).
Nem todos os preditores são significativos, usando técnicas de seleção passo a passo, espero que o número de variáveis de previsão provavelmente esteja na faixa de 5 a 10 variáveis. Embora eu esteja lutando para obter um conjunto de preditores usando as abordagens padrão em ferramentas como o PASW (SPSS).
Estou ciente de todo o material que fala sobre regras práticas para tamanhos de amostra e proporções de variáveis preditivas para casos. Meu dilema é que demorou quase 10 anos para coletar 50 casos, por isso é tão bom quanto possível.
Minha pergunta é o que devo fazer para tirar o máximo proveito deste pequeno conjunto de amostras?
Essa é uma boa referência para lidar com pequenos conjuntos de smaple? Mudanças na significância do valor-p? Alterações nas abordagens de seleção passo a passo? Uso de transformações como centralização ou registro?
Qualquer conselho é apreciado.
fonte
glmnet
glmnet
glm