Digamos que temos uma amostra de duas populações: A
e B
. Vamos supor que essas populações sejam feitas de indivíduos e optamos por descrevê-los em termos de recursos. Alguns desses recursos são categóricos (por exemplo, eles dirigem para o trabalho?) E outros são numéricos (por exemplo, sua altura). Vamos chamar esses recursos: . Coletamos centenas desses recursos (por exemplo, n = 200), vamos assumir por simplicidade, sem erros nem ruídos em todos os indivíduos.
Temos a hipótese de que as duas populações são diferentes. Nosso objetivo é responder às duas perguntas a seguir:
- Eles são realmente significativamente diferentes?
- O que é significativamente diferente entre eles?
Métodos como árvores de decisão (por exemplo, florestas aleatórias) e análise de regressão linear podem ajudar. Por exemplo, pode-se considerar a importância das características em florestas aleatórias ou os coeficientes ajustados em regressão linear para entender o que pode distinguir esses grupos e explorar as relações entre características e populações.
Antes de seguir esse caminho, quero ter uma idéia das minhas opções aqui, o que é bom e moderno versus as práticas ruins. Observe que meu objetivo não é a previsão em si, mas sim o teste e a descoberta de diferenças significativas entre os grupos.
Quais são algumas abordagens de princípios para resolver esse problema?
Aqui estão algumas preocupações que tenho:
Métodos como a análise de regressão linear podem não responder totalmente (2), certo? Por exemplo, um único ajuste pode ajudar a encontrar algumas diferenças, mas nem todas as diferenças significativas. Por exemplo, a multicolinearidade pode nos impedir de descobrir como todos os recursos variam entre grupos (pelo menos em um único ajuste). Pelo mesmo motivo, espero que a ANOVA também não possa fornecer uma resposta completa para (2).
Não está totalmente claro como uma abordagem preditiva responderia (1). Por exemplo, que função de perda de classificação / previsão devemos minimizar? E como testamos se os grupos são ou não significativamente diferentes quando temos um ajuste? Por fim, receio que a resposta recebida em (1) dependa do conjunto específico de modelos de classificação que uso.
fonte
Você não diz quantos recursos estão disponíveis nos dados. Poucos, muitos, maciços? Podemos supor que eles são os mesmos recursos entre populações, todos medidos usando as mesmas ferramentas, métodos e modalidades? Caso contrário, você tem um problema maior, onde um modelo de medição de erros nas variáveis pode funcionar.
@benoitsanchez parece ter respondido à pergunta 1).
Wrt # 2), não tenho certeza se os RFs podem ajudar. Usando um modelo mais formal, como a ANOVA unidirecional aplicada a um recurso de cada vez, é possível desenvolver um teste da diferença entre populações de recursos. Ao resumir os resultados desses testes, com base na magnitude do teste e no seu significado, é possível um perfil descritivo de como as populações diferem entre os recursos. Esta é uma solução reconhecidamente ad hoc e heurística que pode não ser rigorosa o suficiente para seus gostos, preferências e treinamento.
Não sendo bom na notação do tipo Látex, deixe-me descrever simplesmente como esses testes podem funcionar: primeiro, construa algum tipo de loop de macro que passe por todos os recursos, um recurso por vez. A cada passagem do loop, o novo recurso se torna o destino ou DV com X, consistindo em uma variável dummy para população, bem como em quaisquer variáveis de controle apropriadas. Verifique se os mesmos controles são usados para cada recurso e se os dados subjacentes são exatamente os mesmos para todas as ANOVAs, eliminando a variação atribuível às vicissitudes de amostras de dados finitos. Agregue os valores do teste F para a variável dummy para cada recurso. Isso fornecerá uma métrica padronizada, permitindo a comparação entre os recursos. Os testes F são preferíveis aos betas ajustados, pois os betasnão são padronizados, sendo expressos na unidade e nos desenvolvedores padrão de cada recurso individual.
Seu último comentário, "Eu me preocupo que a resposta recebida (1) possa depender do conjunto específico de modelos de classificação / regressão que eu uso", sempre é verdadeiro. É provável que as respostas variem em função do (s) modelo (s) usado (s). É também uma expressão de um mal-estar comumente observado entre os estatísticos mais fortemente teóricos e treinados classicamente, que não se sentem confortáveis ou têm dificuldade em reconhecer a natureza não determinística da modelagem estatística aplicada. Um antídoto excelente para esses sintomas é o recente livro de Efron e Hastie, Computer Age Statistical Inference . Eles trazem modelagem estatística para o século XXI, uma era da ciência de dados e do aprendizado de máquina, reconhecendo francamente a natureza iterativa, aproximada e heurística de todos osmodelos que possuem um termo de erro. Não é preciso ser bayesiano para reconhecer a verdade inerente a essa observação. A perspectiva deles é refrescante e difere do determinismo rígido da prática estatística clássica do século XX, que levantou as mãos quando, por exemplo, uma matriz de produtos cruzados não se inverteu e / ou alguma suposição de modelo pedante não foi cumprida.
fonte