Suponha que eu tenha dois grupos de dados, rotulados como A e B (cada um contendo, por exemplo, 200 amostras e 1 recurso), e quero saber se eles são diferentes. Eu poderia:
a) realize um teste estatístico (por exemplo, teste t) para verificar se eles são estatisticamente diferentes.
b) use aprendizado de máquina supervisionado (por exemplo, classificador de vetor de suporte ou classificador aleatório de floresta). Posso treinar isso em uma parte dos meus dados e verificá-los nos demais. Se o algoritmo de aprendizado de máquina classificar o restante corretamente posteriormente, posso ter certeza de que as amostras são diferenciáveis.
c) use um algoritmo não supervisionado (por exemplo, K-Means) e permita que ele divida todos os dados em duas amostras. Posso então verificar se essas duas amostras encontradas concordam com meus rótulos, A e B.
Minhas perguntas são:
- Como essas três maneiras diferentes se sobrepõem / são exclusivas?
- B) ec) são úteis para quaisquer argumentos científicos?
- Como eu poderia obter um "significado" para a diferença entre as amostras A e B dos métodos b) e c)?
- O que mudaria se os dados tivessem vários recursos em vez de um recurso?
- O que acontece se eles contêm um número diferente de amostras, por exemplo, 100 vs 300?
Respostas:
Ótima pergunta. Qualquer coisa pode ser boa ou ruim, útil ou não, com base em quais são seus objetivos (e talvez na natureza da sua situação). Na maioria das vezes, esses métodos são projetados para satisfazer objetivos diferentes.
Com isso em mente, vamos responder às suas perguntas:
fonte
Não vou abordar o cluster porque foi abordado em outras respostas, mas:
Em geral, o problema de testar se duas amostras são significativamente diferentes é conhecido como teste de duas amostras .
Pode ser mais fácil pensar em algumas dessas questões se você construir um teste de duas amostras com um classificador, por exemplo, conforme proposto recentemente por Lopez-Paz e Oquab (2017) . O procedimento é o seguinte:
Ao inspecionar o classificador aprendido, você também poderá interpretar as diferenças entre as distribuições de uma maneira semi-significativa. Alterando a família de classificadores que você considera, você também pode ajudar a orientar o teste para procurar certos tipos de diferenças.
Observe que é importante fazer a divisão de teste de trem: caso contrário, um classificador que apenas memorizou suas entradas sempre teria discriminação perfeita. Aumentar a parte dos pontos no conjunto de treinamento fornece mais dados para aprender um bom classificador, mas menos oportunidades para garantir que a precisão da classificação seja realmente diferente do acaso. Essa troca é algo que varia de acordo com a família de problemas e classificadores e ainda não é bem compreendida.
Lopez-Paz e Oquab mostraram bom desempenho empírico dessa abordagem em alguns problemas. Ramdas et al. (2016) mostraram adicionalmente que, teoricamente, uma abordagem intimamente relacionada é ótima para um problema simples específico. A coisa "certa" a ser feita nessa configuração é uma área de pesquisa ativa, mas essa abordagem é pelo menos razoável em muitas configurações, se você quiser um pouco mais de flexibilidade e interpretabilidade do que apenas aplicar algum teste padrão disponível no mercado.
fonte
Somente a abordagem (a) serve ao propósito de testar hipóteses.
No caso de usar algoritmos supervisionados de aprendizado de máquina (b), eles não podem provar nem refutar hipóteses sobre distinção de grupos. Se o algoritmo de aprendizado de máquina não classificar os grupos corretamente, pode acontecer porque você usou o algoritmo "errado" para o seu problema ou não o ajustou o suficiente etc. Por outro lado, você pode "torturar" os dados totalmente "aleatórios" por muito tempo o suficiente para produzir um modelo de sobreajuste que faça boas previsões. Outro problema é quando e como você saberia que o algoritmo faz previsões "boas"? Quase nunca você buscaria 100% de precisão na classificação; então, quando você saberia que os resultados da classificação provam alguma coisa?
Os algoritmos de agrupamento (c) não são projetados para aprendizado supervisionado. Eles não pretendem recriar os rótulos, mas agrupar seus dados em termos de semelhanças. Agora, os resultados dependem de qual algoritmo você usa e que tipo de semelhanças você está procurando. Seus dados podem ter diferentes tipos de semelhanças. Você pode procurar diferenças entre meninos e meninas, mas o algoritmo pode encontrar grupos de crianças pobres e ricas, ou inteligentes e menos inteligentes, destros e canhotos, etc. o agrupamento que você pretendia não prova que o agrupamento não faz sentido, mas apenas que encontrou outro agrupamento "significativo". Como no caso anterior, os resultados podem depender do algoritmo usado e dos parâmetros. Seria adequado se um em cada dez algoritmos / configurações encontrasse "seu" etiquetas? E se fosse um em cem? Quanto tempo você pesquisaria antes de parar? Observe que ao usar o aprendizado de máquina na grande maioria dos casos, você não para depois de usar um algoritmo com configurações padrão e o resultado pode depender do procedimento que você usou.
fonte
a) apenas responde a pergunta se a distribuição é diferente, mas não como distingui-los. b) também encontrará o melhor valor para diferenciar entre as duas distribuições. c) funcionará se as duas distribuições tiverem propriedades específicas. Por exemplo, ele funcionará com distribuição normal, mas não com algumas distribuições modais, porque o método pode diferenciar dois modos do mesmo grupo em vez de dois grupos diferentes.
c) não é útil para argumentos científicos devido a duas distribuições modais. b) poderia ser usado para diferenciar duas distribuições, porque você pode calcular a significância (ver 3.) Embora eu nunca a tenha conhecido.
Ao iniciar. Você calcula o modelo com base em subamostras aleatórias 1000 vezes. Você obtém uma pontuação, por exemplo, a soma mínima de erros alfa e beta. Você classifica a pontuação crescente. Com 5% de confiança, você escolhe o 950º valor. Se esse valor for menor que 50% (para um número igual de pontos para os grupos A e B), com 95% de confiança, você poderá desconsiderar a hipótese nula de que as distribuições são iguais. O problema é que, se as distribuições são normais, têm a mesma média, mas têm uma variação diferente, não será possível entender que elas são diferentes pelas técnicas de ML. Por outro lado, você pode encontrar um teste de variação capaz de distinguir as duas distribuições. E poderia ser o contrário: o ML será mais forte que um teste estatístico e será capaz de distinguir as distribuições.
Quando você possui apenas um recurso no ML, precisa encontrar apenas um valor para distinguir as distribuições. Com duas características, a borda pode ser um seio e, no espaço multidimensional, pode ser realmente estranho. Portanto, será muito mais difícil encontrar a borda certa. Por outro lado, recursos adicionais trazem informações adicionais. Portanto, geralmente permitirá distinguir as duas distribuições mais facilmente. Se ambas as variáveis são normalmente distribuídas, a borda é uma linha.
Amostras menores podem se comportar normalmente porque o Teorema do Limite Central não pode ser aplicado. Amostras maiores começam a se comportar mais normalmente porque o Teorema do Limite Central começa a funcionar. Por exemplo, a média de ambos os grupos será quase normalmente distribuída se a amostra for grande o suficiente. Mas geralmente não é 100 vs 300, mas 10 observações contra 1000 observações. Portanto, de acordo com este site, o teste t para diferença de média funcionará independentemente da distribuição se o número de observações for maior que 40 e sem discrepâncias.
fonte
O teste estatístico serve para inferir dados, informando como as coisas estão relacionadas. O resultado é algo que tem um significado no mundo real. Por exemplo, como o tabagismo está associado ao câncer de pulmão, tanto em termos de direção quanto de magnitude. Ainda não diz por que as coisas aconteceram. Para responder por que as coisas aconteceram, precisamos considerar também a inter-relação com outras variáveis e fazer os ajustes adequados (ver Pearl, J. (2003) CAUSALIDADE: MODELOS, RAZÃO E INFERÊNCIA).
O aprendizado supervisionado é para fazer previsões, ele diz o que vai acontecer. Por exemplo, dado o status de fumante de uma pessoa, podemos prever se ela terá câncer de pulmão. Em casos simples, ele ainda diz "como", por exemplo, observando o ponto de corte do status de fumante identificado pelo algoritmo. Mas modelos mais complexos são mais difíceis ou impossíveis de interpretar (aprendizado profundo / aprimoramento com muitos recursos).
O aprendizado não supervisionado é frequentemente usado para facilitar os dois acima.
Quando o número de características / variáveis aumenta, a diferença entre teste estatístico e aprendizado supervisionado se torna mais substancial. O teste estatístico pode não necessariamente se beneficiar disso, depende, por exemplo, se você deseja fazer inferência causal controlando outros fatores ou identificando heterogeneidade nas associações, como mencionado acima. O aprendizado supervisionado terá um desempenho melhor se os recursos forem relevantes e se tornarem mais como uma caixa preta.
Quando o número de amostras aumenta, podemos obter resultados mais precisos para testes estatísticos, resultados mais precisos para aprendizado supervisionado e resultados mais robustos para aprendizado não supervisionado. Mas isso depende da qualidade dos dados. Dados de má qualidade podem introduzir viés ou ruído nos resultados.
Às vezes, queremos saber "como" e "por que" para informar as ações de intervenção, por exemplo, identificando que fumar causa câncer de pulmão, uma política pode ser adotada para lidar com isso. Às vezes, queremos saber “o que” para informar a tomada de decisão, por exemplo, descobrir quem provavelmente tem câncer de pulmão e fazer tratamentos precoces. Existe uma edição especial publicada na Science sobre previsão e seus limites ( http://science.sciencemag.org/content/355/6324/468) “O sucesso parece ser alcançado de maneira mais consistente quando as perguntas são abordadas em esforços multidisciplinares que unem a compreensão humana do contexto à capacidade algorítmica de lidar com terabytes de dados.” Na minha opinião, por exemplo, o conhecimento descoberto usando o teste de hipóteses pode ajudar o aprendizado supervisionado, informando-nos Quais dados / recursos devemos coletar em primeiro lugar. Por outro lado, o aprendizado supervisionado pode ajudar a gerar hipóteses, informando quais variáveis
fonte