Suponha que tenhamos um conjunto de dados com pontos. Queremos realizar uma regressão linear, mas primeiro classificamos os valores e independentemente um do outro, formando um conjunto de dados . Existe alguma interpretação significativa da regressão no novo conjunto de dados? Isso tem um nome?n X i Y i ( X i , Y j )
Eu imagino que seja uma pergunta boba, então peço desculpas, não sou formalmente treinado em estatística. Na minha opinião, isso destrói completamente nossos dados e a regressão não faz sentido. Mas meu gerente diz que obtém "melhores regressões na maioria das vezes" quando faz isso (aqui "melhor" significa mais preditivo). Tenho a sensação de que ele está se enganando.
EDIT: Obrigado por todos os seus exemplos agradáveis e pacientes. Mostrei a ele os exemplos de @ RUser4512 e @gung e ele permanece firme. Ele está ficando irritado e eu estou ficando exausta. Eu me sinto decepcionado. Provavelmente vou começar a procurar outros empregos em breve.
fonte
Respostas:
Não sei ao certo o que seu chefe acha "mais preditivo". Muitas pessoas acreditam incorretamente que valores mais baixos de significam um modelo melhor / mais preditivo. Isso não é necessariamente verdade (sendo esse o caso). No entanto, classificar independentemente as duas variáveis de antemão garantirá um valor- menor . Por outro lado, podemos avaliar a precisão preditiva de um modelo comparando suas previsões com novos dados que foram gerados pelo mesmo processo. Eu faço isso abaixo em um exemplo simples (codificado com ). pp p
R
O gráfico superior esquerdo mostra os dados originais. Existe alguma relação entre e (ou seja, a correlação é de cerca de .) O gráfico superior direito mostra a aparência dos dados após a classificação independente de ambas as variáveis. Você pode ver facilmente que a força da correlação aumentou substancialmente (agora é de cerca de ). No entanto, nas parcelas mais baixas, vemos que a distribuição dos erros preditivos está muito mais próxima de para o modelo treinado nos dados originais (não classificados). O erro preditivo médio absoluto para o modelo que usou os dados originais é , enquanto o erro preditivo médio absoluto para o modelo treinado nos dados classificados éy 0,31 0,99 0 1,1 1,98 y 68 %x y .31 .99 0 0 1.1 1,98 Quase duas vezes maior. Isso significa que as previsões do modelo de dados classificados estão muito mais longe dos valores corretos. A plotagem no quadrante inferior direito é uma plotagem de pontos. Ele exibe as diferenças entre o erro preditivo com os dados originais e com os dados classificados. Isso permite comparar as duas previsões correspondentes para cada nova observação simulada. Pontos azuis à esquerda são momentos em que os dados originais estavam mais próximos do novo valor e pontos vermelhos à direita são momentos em que os dados classificados produziram melhores previsões. Havia previsões mais precisas do modelo treinado nos dados originais em do tempo. y 68 %
O grau em que a classificação causará esses problemas é uma função do relacionamento linear que existe em seus dados. Se a correlação entre e já fosse , a classificação não teria efeito e, portanto, não seria prejudicial. Por outro lado, se a correlação fossey 1,0 - 1,0x y 1.0 - 1,0 , a classificação reverteria completamente o relacionamento, tornando o modelo o mais impreciso possível. Se os dados fossem completamente não correlacionados originalmente, a classificação teria um efeito deletério intermediário, mas ainda bastante grande, na precisão preditiva do modelo resultante. Como você menciona que seus dados normalmente estão correlacionados, suspeito que tenha fornecido alguma proteção contra os danos intrínsecos a esse procedimento. No entanto, classificar primeiro é definitivamente prejudicial. Para explorar essas possibilidades, podemos simplesmente executar novamente o código acima com valores diferentes para
B1
(usando a mesma semente para reprodutibilidade) e examinar a saída:B1 = -5
:B1 = 0
:B1 = 5
:fonte
<-
algumas vezes, mas meu objetivo no CV é escrever o código R o mais próximo possível do pseudocódigo, para que seja mais legível para pessoas que não estão familiarizadas com R.=
é bastante universal entre as linguagens de programação como um operador de atribuição .Se você quiser convencer seu chefe, pode mostrar o que está acontecendo com dados simulados, aleatórios e independentes . Com R:x , y
Obviamente, os resultados classificados oferecem uma regressão muito melhor. No entanto, dado o processo usado para gerar os dados (duas amostras independentes), não há absolutamente nenhuma chance de que um possa ser usado para prever o outro.
fonte
Sua intuição está correta: os dados classificados independentemente não têm significado confiável, porque as entradas e saídas estão sendo mapeadas aleatoriamente uma para a outra, e não como era o relacionamento observado.
Há uma (boa) chance de a regressão nos dados classificados parecer boa, mas não faz sentido no contexto.
Exemplo intuitivo: suponha um conjunto de dados para alguma população. O gráfico dos dados não adulterados provavelmente se pareceria com uma função logarítmica ou de poder: taxas de crescimento mais rápidas para crianças que desaceleram para adolescentes posteriores e "assintoticamente" se aproximam da altura máxima de uma pessoa para adultos jovens e mais velhos.( X= a ge , Y= h e i gh t )
Se ordenarmos em ordem crescente, o gráfico provavelmente será quase linear. Assim, a função de previsão é que as pessoas cresçam mais altas por toda a vida. Eu não apostaria dinheiro nesse algoritmo de previsão.x , y
fonte
Na verdade, vamos tornar isso realmente óbvio e simples. Suponha que eu realize um experimento no qual meço 1 litro de água em um recipiente padronizado e observe a quantidade de água restante no recipiente em função do tempo , a perda de água devido à evaporação:t iVi ti
Suponha agora que eu obtenho as seguintes medidas em horas e litros, respectivamente: Obviamente, esses são dados perfeitamente correlacionados (e hipotéticos). Mas se eu o tempo e as medidas de volume, obteria E a conclusão desse conjunto de dados classificados é que, à medida que o tempo aumenta, o volume de água aumenta e, além disso, a partir de 1 litro de água, você recebe, após 5 horas de espera, mais de 1 litro de água. Isso não é notável? A conclusão não é apenas oposta ao que os dados originais disseram, mas também sugere que descobrimos uma nova física!(ti,Vi)
fonte
É uma arte real e requer uma compreensão real da psicologia para convencer algumas pessoas do erro de seus caminhos. Além de todos os excelentes exemplos acima, às vezes uma estratégia útil é mostrar que a crença de uma pessoa leva a uma inconsistência consigo mesma. Ou tente essa abordagem. Descubra algo em que seu chefe acredita firmemente, como o desempenho das pessoas na tarefa Y não tem relação com o quanto de um atributo X elas possuem. Mostre como a abordagem do seu chefe resultaria na conclusão de uma forte associação entre X e Y. Capitalize em crenças políticas / raciais / religiosas.
A invalidez do rosto deveria ter sido suficiente. Que chefe teimoso. Enquanto isso, procure um emprego melhor. Boa sorte.
fonte
Mais um exemplo. Imagine que você tem duas variáveis, uma relacionada à ingestão de chocolate e a segunda relacionada ao bem-estar geral. Você tem uma amostra de dois e seus dados são exibidos abaixo:
Qual é a relação de chocolate e felicidade com base na sua amostra? E agora, mude a ordem de uma das colunas - qual é a relação após esta operação?
Observe que, às vezes, na verdade, estamos interessados em alterar a ordem dos casos, fazemos isso nos métodos de reamostragem . Por exemplo, podemos embaralhar intencionalmente as observações várias vezes, para aprender algo sobre a distribuição nula de nossos dados (como seriam nossos dados se não houvesse relações de pares) e, em seguida, poderemos comparar se nossos dados reais são melhores do que os aleatoriamente baralhado. O que seu gerente faz é exatamente o contrário - ele intencionalmente força as observações a terem estrutura artificial onde não havia estrutura, o que leva a correlações falsas.
fonte
Um exemplo simples que talvez seu gerente entenda:
Digamos que você tenha a Moeda Y e a Moeda X, e você vira cada uma delas 100 vezes. Então você deseja prever se conseguir uma cara com a Coin X (IV) pode aumentar a chance de ter uma cara com a Coin Y (DV).
Sem classificação, o relacionamento será nenhum, porque o resultado da Moeda X não deve afetar o resultado da Moeda Y. Com a classificação, o relacionamento será quase perfeito.
Como faz sentido concluir que você tem uma boa chance de jogar uma moeda no flip se você acabou de jogar uma moeda com uma moeda diferente?
fonte
Essa técnica é realmente incrível. Estou encontrando todo tipo de relacionamento que nunca suspeitei. Por exemplo, eu não teria suspeitado que os números que aparecem na loteria Powerball, que são REIVINDICADOS, são aleatórios, na verdade estão altamente correlacionados com o preço de abertura das ações da Apple no mesmo dia! Pessoal, acho que estamos prestes a ganhar muito dinheiro. :)
Hmm, parece não ter um relacionamento significativo. MAS usando a nova técnica aprimorada:
NOTA: Isso não pretende ser uma análise séria. Apenas mostre ao seu gerente que eles podem tornar QUALQUER duas variáveis significativamente relacionadas se você classificar as duas.
fonte
Muitos bons exemplos de contadores aqui. Deixe-me adicionar um parágrafo sobre o coração do problema.
Na verdade, deixe-me adicionar um parágrafo sobre por que "funciona" também.
fonte
Na verdade, o teste descrito (ou seja, classificar os valores X e Y independentemente e regredir um contra o outro) Testa alguma coisa, assumindo que o (X, Y) seja amostrado como pares independentes de uma distribuição bivariada. Simplesmente não é um teste do que seu gerente deseja testar. É essencialmente verificar a linearidade de um gráfico QQ, comparando a distribuição marginal dos Xs com a distribuição marginal dos Ys. Em particular, os 'dados' cairão perto de uma linha reta se a densidade dos Xs (f (x)) estiver relacionada à densidade dos Ys (g (y)) desta maneira:
fonte
Estranho que o contra-exemplo mais óbvio ainda não esteja presente entre as respostas em sua forma mais simples.
Este é um tipo de "inverso direto" do padrão que você pode querer encontrar aqui.
fonte
Você está certo. Seu gerente encontraria resultados "bons"! Mas eles não têm sentido. O que você obtém ao classificá-los de forma independente é que os dois aumentam ou diminuem de maneira semelhante e isso dá uma aparência de um bom modelo. Mas as duas variáveis foram retiradas do relacionamento real e o modelo está incorreto.
fonte
A regressão linear é geralmente menos razoável (existem exceções, veja outras respostas); mas a geometria das caudas e da distribuição dos erros indica a que distância estão as distribuições semelhantes.
fonte
Eu tenho uma intuição simples por que isso é realmente uma boa idéia se a função é monótona :
PS: Acho incrível como uma pergunta aparentemente simples pode levar a novas maneiras interessantes de repensar o modelo de padrões. Por favor, obrigado chefe!
fonte
Digamos que você tenha esses pontos em um círculo de raio 5. Você calcula a correlação:
Depois, você classifica seus valores xe y e faz a correlação novamente:
Com essa manipulação, você altera um conjunto de dados com correlação 0,0 para um com correlação 1,0. Isso é um problema.
fonte
Deixe-me jogar o advogado do diabo aqui. Eu acho que muitas respostas fizeram casos convincentes de que o procedimento do chefe está fundamentalmente errado. Ao mesmo tempo, ofereço um contra-exemplo que ilustra que o chefe pode realmente ter visto resultados melhorar com essa transformação equivocada.
Penso que o reconhecimento de que esse procedimento pode ter "funcionado" para o chefe pode começar um argumento mais persuasivo: Claro, funcionou, mas apenas nessas circunstâncias de sorte que geralmente não se mantêm. Então podemos mostrar - como na excelente resposta aceita - quão ruim pode ser quando não temos sorte. Qual é a maior parte do tempo. Isoladamente, mostrar ao chefe o quão ruim pode ser pode não convencê-lo, porque ele pode ter visto um caso em que isso melhora as coisas e acha que nosso argumento sofisticado deve ter uma falha em algum lugar.
Encontrei esses dados on-line e, com certeza, parece que a regressão é aprimorada pela classificação independente de X e Y porque: a) os dados estão altamente correlacionados positivamente eb) OLS realmente não se dá bem com extrema (alta outliers). A altura e o peso têm uma correlação de 0,19 com o outlier incluído, 0,77 com o outlier excluído e 0,78 com o X e Y classificados independentemente.
Portanto, parece-me que o modelo de regressão neste conjunto de dados é aprimorado pela classificação independente (linha preta versus linha vermelha no primeiro gráfico), e há uma relação visível (preto versus vermelho no segundo gráfico), devido ao conjunto de dados específico estar altamente (positivamente) correlacionado e com o tipo certo de discrepâncias que prejudicam mais a regressão do que o embaralhamento que ocorre quando você classifica independentemente x e y.
Novamente, não dizer que a classificação independente faz algo sensato em geral, nem que seja a resposta correta aqui. Só que o chefe pode ter visto algo assim que funcionou exatamente nas circunstâncias certas.
fonte
Se ele selecionou previamente as variáveis para serem monótonas, na verdade é bastante robusto. Google "modelos lineares impróprios" e "Robin Dawes" ou "Howard Wainer". Dawes e Wainer conversam sobre maneiras alternativas de escolher coeficientes. John Cook tem uma coluna curta ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ ) nela.
fonte
Eu pensei sobre isso, e pensei que há alguma estrutura aqui com base nas estatísticas da ordem. Eu verifiquei, e parece que o gerente não é tão louco quanto parece
Coeficiente de correlação de estatísticas de pedidos como uma nova medição de associação com aplicativos para análise de biossinal
http://www.researchgate.net/profile/Weichao_Xu/publication/3320558_Order_Statistics_Correlation_Coefficient_as_a_Novel_Association_Measurement_With_Applications_to_Biosignal_Analysis/links/0912f507ed6f94a3c6000000.pdf
fonte