Investigando diferenças entre populações

9

Digamos que temos uma amostra de duas populações: Ae B. Vamos supor que essas populações sejam feitas de indivíduos e optamos por descrevê-los em termos de recursos. Alguns desses recursos são categóricos (por exemplo, eles dirigem para o trabalho?) E outros são numéricos (por exemplo, sua altura). Vamos chamar esses recursos: . Coletamos centenas desses recursos (por exemplo, n = 200), vamos assumir por simplicidade, sem erros nem ruídos em todos os indivíduos.X1Xn

Temos a hipótese de que as duas populações são diferentes. Nosso objetivo é responder às duas perguntas a seguir:

  1. Eles são realmente significativamente diferentes?
  2. O que é significativamente diferente entre eles?

Métodos como árvores de decisão (por exemplo, florestas aleatórias) e análise de regressão linear podem ajudar. Por exemplo, pode-se considerar a importância das características em florestas aleatórias ou os coeficientes ajustados em regressão linear para entender o que pode distinguir esses grupos e explorar as relações entre características e populações.

Antes de seguir esse caminho, quero ter uma idéia das minhas opções aqui, o que é bom e moderno versus as práticas ruins. Observe que meu objetivo não é a previsão em si, mas sim o teste e a descoberta de diferenças significativas entre os grupos.

Quais são algumas abordagens de princípios para resolver esse problema?

Aqui estão algumas preocupações que tenho:

  • Métodos como a análise de regressão linear podem não responder totalmente (2), certo? Por exemplo, um único ajuste pode ajudar a encontrar algumas diferenças, mas nem todas as diferenças significativas. Por exemplo, a multicolinearidade pode nos impedir de descobrir como todos os recursos variam entre grupos (pelo menos em um único ajuste). Pelo mesmo motivo, espero que a ANOVA também não possa fornecer uma resposta completa para (2).

  • Não está totalmente claro como uma abordagem preditiva responderia (1). Por exemplo, que função de perda de classificação / previsão devemos minimizar? E como testamos se os grupos são ou não significativamente diferentes quando temos um ajuste? Por fim, receio que a resposta recebida em (1) dependa do conjunto específico de modelos de classificação que uso.

Amelio Vazquez-Reina
fonte

Respostas:

5

Vamos pensar no problema da seguinte maneira.

Digamos e Y é uma variável binária representando a população: Y = 0 primeiro meio de população, Y = 1 segundo meio de população. A hipótese nula pode ser expressa de várias maneiras equivalentes:X=(X1,X2,..Xn)YY=0Y=1

  • : as populações são as mesmasH0
  • : a distribuição de X dado Y = 0 é a mesma que a distribuição de X dado Y = 1H0XY=0XY=1
  • : X e Y são independentesH0XY
  • : para qualquer função f em { 0 , 1 } , f ( X ) e Y são independentesH0f{0,1}f(X)Y

Não sei muito sobre florestas aleatórias, mas elas podem ser pensadas como um preditor para todos os fins que evita o excesso de ajuste. Se os idealizarmos um pouco: é algo capaz de detectar qualquer tipo de relacionamento entre e qualquer tipo de recurso X sem ajuste excessivo.YX

É possível tentar algo com base nisso. Divida o conjunto de dados original em um conjunto de treinamento e um conjunto de teste. Então:

  • treine uma floresta aleatória que prevê Y de X no conjunto de treinamento.fYX
  • faça um teste simples de independência do qui-quadrado (com risco ) entre f ( X ) e Y no conjunto de testesαf(X)Y

Este teste é bastante conservador. Se a floresta aleatória for um método ruim, na pior das hipóteses, obtendo um burro , então rejeitará H 0 com uma probabilidade menor que α de qualquer maneira (quando H 0 for verdadeiro). O excesso de ajuste nem seria um problema, pois usamos um conjunto de teste e treinamento. No entanto, o poder do teste depende diretamente da inteligência do método de floresta aleatória (ou de qualquer preditor usado).f(X)H0αH0

α

Benoit Sanchez
fonte
Obrigado Benoit (+1). Isso parece aplicável à pergunta (1). Alguma idéia de como lidar com (2) com esta ou uma abordagem alternativa?
Amelio Vazquez-Reina
α
α
Além disso, minha esperança com os RFs é identificar recursos que capturam diferenças (ou seja, obtenha pelo menos uma resposta parcial para (2)). Eles não são ideais para interpretabilidade (embora eu assuma que alguém possa fazê-lo limitando sua altura). Em ambos os casos, o mesmo pode ser dito sobre TDs, certo? Apenas certifique-se de entender bem o seu comentário.
Amelio Vazquez-Reina
αn1(1α)n
3

Você não diz quantos recursos estão disponíveis nos dados. Poucos, muitos, maciços? Podemos supor que eles são os mesmos recursos entre populações, todos medidos usando as mesmas ferramentas, métodos e modalidades? Caso contrário, você tem um problema maior, onde um modelo de medição de erros nas variáveis pode funcionar.

@benoitsanchez parece ter respondido à pergunta 1).

Wrt # 2), não tenho certeza se os RFs podem ajudar. Usando um modelo mais formal, como a ANOVA unidirecional aplicada a um recurso de cada vez, é possível desenvolver um teste da diferença entre populações de recursos. Ao resumir os resultados desses testes, com base na magnitude do teste e no seu significado, é possível um perfil descritivo de como as populações diferem entre os recursos. Esta é uma solução reconhecidamente ad hoc e heurística que pode não ser rigorosa o suficiente para seus gostos, preferências e treinamento.

Não sendo bom na notação do tipo Látex, deixe-me descrever simplesmente como esses testes podem funcionar: primeiro, construa algum tipo de loop de macro que passe por todos os recursos, um recurso por vez. A cada passagem do loop, o novo recurso se torna o destino ou DV com X, consistindo em uma variável dummy para população, bem como em quaisquer variáveis ​​de controle apropriadas. Verifique se os mesmos controles são usados ​​para cada recurso e se os dados subjacentes são exatamente os mesmos para todas as ANOVAs, eliminando a variação atribuível às vicissitudes de amostras de dados finitos. Agregue os valores do teste F para a variável dummy para cada recurso. Isso fornecerá uma métrica padronizada, permitindo a comparação entre os recursos. Os testes F são preferíveis aos betas ajustados, pois os betasnão são padronizados, sendo expressos na unidade e nos desenvolvedores padrão de cada recurso individual.

Seu último comentário, "Eu me preocupo que a resposta recebida (1) possa depender do conjunto específico de modelos de classificação / regressão que eu uso", sempre é verdadeiro. É provável que as respostas variem em função do (s) modelo (s) usado (s). É também uma expressão de um mal-estar comumente observado entre os estatísticos mais fortemente teóricos e treinados classicamente, que não se sentem confortáveis ​​ou têm dificuldade em reconhecer a natureza não determinística da modelagem estatística aplicada. Um antídoto excelente para esses sintomas é o recente livro de Efron e Hastie, Computer Age Statistical Inference . Eles trazem modelagem estatística para o século XXI, uma era da ciência de dados e do aprendizado de máquina, reconhecendo francamente a natureza iterativa, aproximada e heurística de todos osmodelos que possuem um termo de erro. Não é preciso ser bayesiano para reconhecer a verdade inerente a essa observação. A perspectiva deles é refrescante e difere do determinismo rígido da prática estatística clássica do século XX, que levantou as mãos quando, por exemplo, uma matriz de produtos cruzados não se inverteu e / ou alguma suposição de modelo pedante não foi cumprida.

Mike Hunter
fonte
Obrigado @DJohnson. Quando você disse "Agregue os valores do teste F para a variável dummy para cada recurso", o que você quer dizer exatamente? ou seja, o que você faria exatamente com esse resultado? Além disso, o que você quer dizer com betas neste contexto? Finalmente, essa abordagem iterativa não se limita a nenhuma interação? Por exemplo, usando o exemplo original, e se houver uma diferença significativa na "altura dos indivíduos que dirigem para o trabalho?"
Amelio Vazquez-Reina
Além disso, por que você prosseguiria com uma sequência de testes ANOVA unidirecional, em vez de fazer ANOVA multivias?
Amelio Vazquez-Reina
2
Boas perguntas. Em termos do perfil descritivo resultante, eu estava pensando em simplesmente registrar o teste F e a significância ou valores p associados a cada recurso e depois classificá-los de alto a baixo. Como o teste F é uma razão de qui-quadrado e, portanto, não simétrico, as médias populacionais podem ser adicionadas ao relatório para ajudar a entender a direcionalidade dos resultados. Como alternativa, um teste t pode ajudar nesse entendimento. Esse perfil ajudaria a entender a magnitude ou a força das características em função das populações subjacentes.
21717 Mike
Como observado, as variáveis ​​de controle devem ser adicionadas conforme apropriado. Isso pode incluir interações, desde que sejam consistentemente usadas em todos os modelos. A introdução de fatores adicionais, por definição, estenderia o modelo de uma via para regressão múltipla ou ANOVA.
21717 Mike