Existe algum procedimento padrão (como um que possa ser citado como referência) para selecionar o subconjunto de pontos de dados de um pool maior com a correlação mais forte (em apenas duas dimensões)?
Por exemplo, digamos que você tenha 100 pontos de dados. Você deseja um subconjunto de 40 pontos com a correlação mais forte possível ao longo das dimensões X e Y.
Sei que escrever código para fazer isso seria relativamente simples, mas estou me perguntando se há alguma fonte para citá-lo.
Respostas:
Eu diria que seu método se encaixa na categoria geral descrita neste artigo da Wikipedia que também tem outras referências se você precisar de algo mais do que apenas a wikipedia. Alguns dos links desse artigo também se aplicam.
Outros termos que podem ser aplicados (se você quiser fazer mais pesquisas) incluem "Dragagem de Dados" e "Tortura dos dados até que eles confessem".
Observe que você sempre pode obter uma correlação de 1 se escolher apenas 2 pontos que não têm valores idênticos de x ou y. Alguns anos atrás, havia um artigo na revista Chance que mostrava que quando você tem uma variável xey essencialmente sem correlação, é possível encontrar uma maneira de separar x e calcular a média dos y nos compartimentos para mostrar uma tendência crescente ou decrescente ( Chance 2006, Revelações visuais: Descobrindo o que não existe através da infeliz lista de resultados: The Mendel Effect, pp. 49-52). Também com um conjunto de dados completo mostrando uma correlação positiva moderada, é possível escolher um subconjunto que mostra uma correlação negativa. Dado isso, mesmo que você tenha uma razão legítima para fazer o que propõe, você está dando a muitos céticos muitos argumentos para usar contra quaisquer conclusões que você venha a ter.
fonte
O algoritmo RANSAC soa como o que você deseja. Basicamente, ele assume que seus dados consistem em uma mistura de inliers e outliers e tenta identificar os inliers amostrando repetidamente subconjuntos dos dados, ajustando um modelo a ele e tentando ajustar todos os outros pontos de dados ao modelo. Aqui está o artigo da Wikipedia sobre isso .
No seu caso, você pode continuar repetindo o algoritmo enquanto salva o melhor modelo atual que cabe no mínimo 40 pontos, para não garantir a melhor correlação absoluta, mas deve se aproximar.
fonte
É difícil imaginar um contexto em que isso seria uma boa prática, mas vamos supor por um momento que você realmente tem um bom motivo para fazer isso.
Um algoritmo de força bruta pode ser algo como isto:
Você calcula todas as subamostras possíveis de n da sua amostra geral de N. A maioria dos pacotes estatísticos possui funções para calcular combinações sem substituições que farão isso por você.
Você estima a correlação entre x e y para cada uma das subamostras e seleciona o máximo desse conjunto.
Acabei de ver o comentário do pôster original sobre uma referência para esse procedimento. Não tenho certeza de que alguém tenha um nome específico para esse procedimento, afinal você está simplesmente gerando uma distribuição empírica de toda correlação possível no seu conjunto de dados e selecionando o máximo. Abordagens semelhantes são usadas ao executar o bootstrap, mas, nesse caso, você está interessado na variabilidade empírica, NÃO as utiliza para escolher uma subamostra específica associada ao valor máx.
fonte