A linha de melhor ajuste do 'senso comum' pareceria uma linha quase vertical, diretamente através do centro dos pontos (editada manualmente em vermelho). No entanto, a linha de tendência linear, conforme decidido pelo Excel, é a linha preta diagonal mostrada.
- Por que o Excel produziu algo que (para o olho humano) parece estar errado?
- Como posso produzir uma linha de melhor ajuste que pareça um pouco mais intuitiva (ou seja, algo como a linha vermelha)?
Atualização 1. Uma planilha do Excel com dados e gráfico está disponível aqui: dados de exemplo , CSV em Pastebin . As técnicas de regressão type1 e type2 estão disponíveis como funções do excel?
Atualização 2. Os dados representam um parapente subindo em uma térmica enquanto flutua com o vento. O objetivo final é investigar como a força e a direção do vento variam com a altura. Sou engenheiro, NÃO matemático ou estatístico, portanto as informações nessas respostas me deram muito mais áreas para pesquisa.
fonte
Respostas:
Existe uma variável dependente?
Veja como você pode fazer isso no R:
Se você deseja tratar as variáveis igualmente ou não, depende do objetivo. Não é a qualidade inerente dos dados. Você precisa escolher a ferramenta estatística certa para analisar os dados; nesse caso, escolha entre a regressão e o PCA.
Uma resposta a uma pergunta que não foi feita
Então, por que no seu caso uma linha de tendência (regressão) no Excel não parece ser uma ferramenta adequada para o seu caso? O motivo é que a linha de tendência é uma resposta a uma pergunta que não foi feita. Aqui está o porquê.
Imagine que não havia vento. Um parapente faria o mesmo círculo repetidamente. Qual seria a linha de tendência? Obviamente, seria uma linha horizontal plana, sua inclinação seria zero, mas isso não significa que o vento esteja soprando na direção horizontal!
Código R para a simulação:
Portanto, a direção do vento claramente não está alinhada com a linha de tendência. Eles estão ligados, é claro, mas de maneira não trivial. Portanto, minha afirmação de que a linha de tendência do Excel é uma resposta a alguma pergunta, mas não a que você fez.
Por que PCA?
Como você observou, existem pelo menos dois componentes do movimento de um parapente: a deriva com um vento e o movimento circular controlado por um parapente. Isso é visto claramente quando você conecta os pontos em seu gráfico:
Por um lado, o movimento circular é realmente um incômodo para você: você está interessado no vento. Embora, por outro lado, você não observe a velocidade do vento, apenas observe o parapente. Portanto, seu objetivo é inferir o vento não observável a partir da leitura da localização do parapente observável. Essa é exatamente a situação em que ferramentas como análise fatorial e PCA podem ser úteis.
O objetivo do PCA é isolar alguns fatores que determinam as múltiplas saídas analisando as correlações nas saídas. É eficaz quando a saída está vinculada a fatores linearmente, o que acontece nos seus dados: o desvio do vento simplesmente adiciona às coordenadas do movimento circular, é por isso que o PCA está trabalhando aqui.
Configuração PCA
Então, estabelecemos que o PCA deveria ter uma chance aqui, mas como vamos configurá-lo? Vamos começar adicionando uma terceira variável, time. Vamos atribuir o tempo 1 a 123 para cada observação 123, assumindo a frequência de amostragem constante. Veja como o gráfico 3D se parece com os dados, revelando sua estrutura espiral:
O próximo gráfico mostra o centro imaginário de rotação de um parapente como círculos marrons. Você pode ver como ele flutua no avião lat-lon com o vento, enquanto o parapente mostrado com um ponto azul está circulando em torno dele. O tempo está no eixo vertical. Liguei o centro de rotação a um local correspondente de um parapente, mostrando apenas os dois primeiros círculos.
O código R correspondente:
A deriva do centro de rotação do parapente é causada principalmente pelo vento, e o caminho e a velocidade da deriva estão correlacionados com a direção e a velocidade do vento, variáveis não observáveis de interesse. É assim que a deriva se parece quando projetada no plano lat-lon:
Regressão PCA
Portanto, antes estabelecemos que a regressão linear regular não parece funcionar muito bem aqui. Também descobrimos o porquê: porque não reflete o processo subjacente, porque o movimento do parapente é altamente não-linear. É uma combinação de movimento circular e um desvio linear. Também discutimos que, nessa situação, a análise fatorial pode ser útil. Aqui está um esboço de uma possível abordagem para modelar esses dados: regressão PCA . Mas primeiro vou mostrar a curva ajustada da regressão PCA :
Isso foi obtido da seguinte maneira. Execute o PCA no conjunto de dados que possui a coluna extra t = 1: 123, conforme discutido anteriormente. Você recebe três componentes principais. O primeiro é simplesmente t. O segundo corresponde à coluna lon e o terceiro à coluna lat.
É isso aí. Para obter os valores ajustados, você recupera os dados dos componentes ajustados, conectando a transposição da matriz de rotação do PCA nos componentes principais previstos. Meu código R acima mostra partes do procedimento e o restante você pode descobrir facilmente.
Conclusão
É interessante ver quão poderoso é o PCA e outras ferramentas simples quando se trata de fenômenos físicos onde os processos subjacentes são estáveis, e as entradas se traduzem em saídas por meio de relacionamentos lineares (ou linearizados). Portanto, no nosso caso, o movimento circular é muito não-linear, mas nós o linearizamos facilmente usando funções seno / cosseno em um parâmetro de tempo t. Minhas parcelas foram produzidas com apenas algumas linhas de código R, como você viu.
O modelo de regressão deve refletir o processo subjacente; somente você pode esperar que seus parâmetros sejam significativos. Se este é um parapente à deriva no vento, um gráfico de dispersão simples, como na pergunta original, oculta a estrutura temporal do processo.
Também a regressão do Excel foi uma análise transversal, para a qual a regressão linear funciona melhor, enquanto seus dados são um processo de série temporal, em que as observações são ordenadas no tempo. A análise de séries temporais deve ser aplicada aqui e foi realizada em regressão PCA.
Notas sobre uma função
fonte
A resposta provavelmente tem a ver com a maneira como você está julgando mentalmente a distância da linha de regressão. A regressão padrão (Tipo 1) minimiza o erro ao quadrado, onde o erro é calculado com base na distância vertical da linha .
A regressão do tipo 2 pode ser mais análoga ao seu julgamento da melhor linha. Nele, o erro quadrático minimizado é a distância perpendicular à linha . Há uma série de consequências para essa diferença. Um importante é que, se você trocar os eixos X e Y em seu gráfico e reajustar a linha, obterá uma relação diferente entre as variáveis para a regressão do Tipo 1. Para a regressão do tipo 2, o relacionamento permanece o mesmo.
Minha impressão é que há uma boa quantidade de debate sobre onde usar a regressão Tipo 1 vs Tipo 2, e por isso sugiro que leia com atenção as diferenças antes de decidir qual aplicar. A regressão do tipo 1 é frequentemente recomendada nos casos em que um eixo é controlado experimentalmente ou pelo menos medido com muito menos erros que o outro. Se essas condições não forem atendidas, a regressão do Tipo 1 irá inclinar a inclinação para 0 e, portanto, a regressão do Tipo 2 é recomendada. No entanto, com ruído suficiente nos dois eixos, a regressão do tipo 2 aparentemente tende a enviesá-los para 1. Warton et al. (2006) e Smith (2009) são boas fontes para entender o debate.
Observe também que existem vários métodos sutilmente diferentes que se enquadram na categoria ampla de regressão tipo 2 (eixo principal, eixo principal reduzido e regressão do eixo principal padrão) e que a terminologia sobre os métodos específicos é inconsistente.
Warton, DI, IJ Wright, DS Falster e M. Westoby. 2006. Métodos de ajuste de linha bivariados para alometria. Biol. Rev. 81: 259–291. doi: 10.1017 / S1464793106007007
Smith, RJ 2009. Sobre o uso e uso indevido do eixo maior reduzido para ajuste de linha. Sou. J. Phys. Anthropol. 140: 476-486. doi: 10.1002 / ajpa.21090
EDIT :
@amoeba salienta que o que estou chamando de regressão tipo 2 acima também é conhecido como regressão ortogonal; esse pode ser o termo mais apropriado. Como eu disse acima, a terminologia nesta área é inconsistente, o que merece cuidados extras.
fonte
A pergunta que o Excel tenta responder é: "Supondo que y depende de x, qual linha prediz y melhor". A resposta é que, devido às enormes variações em y, nenhuma linha poderia ser particularmente boa e o que o Excel exibe é o melhor que você pode fazer.
Se você pegar sua linha vermelha proposta e continuar até x = -0,714 ex = -0,712, descobrirá que seus valores estão muito distantes do gráfico e a uma grande distância dos valores y correspondentes .
A pergunta que o Excel responde não é "qual linha está mais próxima dos pontos de dados", mas "qual linha é melhor para prever valores y a partir de valores x", e faz isso corretamente.
fonte
Não quero acrescentar nada às outras respostas, mas quero dizer que você se desviou de uma terminologia ruim, em particular o termo "linha de melhor ajuste", usado em alguns cursos de estatística.
Intuitivamente, uma "linha de melhor ajuste" seria semelhante à sua linha vermelha. Mas a linha produzida pelo Excel não é uma "linha de melhor ajuste"; nem está tentando ser. É uma linha que responde à pergunta: dado o valor de x, qual é a minha melhor previsão possível para y? ou, alternativamente, qual é o valor médio de y para cada valor de x?
Observe a assimetria aqui entre x e y; o uso do nome "linha de melhor ajuste" oculta isso. O mesmo ocorre com o uso da "linha de tendência" do Excel.
É explicado muito bem no seguinte link:
https://www.stat.berkeley.edu/~stark/SticiGui/Text/regression.htm
Você pode querer algo mais parecido com o que é chamado "Tipo 2" na resposta acima, ou "Linha SD" na página do curso de estatísticas de Berkeley.
fonte
Parte do problema óptico vem das diferentes escalas - se você usar a mesma escala nos dois eixos, ela parecerá diferente.
Em outras palavras, você pode fazer com que a maioria das linhas de 'melhor ajuste' pareça 'não intuitiva', espalhando uma escala de eixo.
fonte
Algumas pessoas notaram que o problema é visual - a escala gráfica empregada produz informações enganosas. Mais especificamente, o dimensionamento de "lon" é tal que parece ser uma espiral apertada, o que sugere que a linha de regressão fornece um ajuste inadequado (uma avaliação com a qual eu concordo, a linha vermelha que você desenha forneceria erros ao quadrado menores se os dados foram moldados da maneira apresentada).
Abaixo, forneço um gráfico de dispersão criado no Excel com a escala de "lon" alterada para que não produza a espiral apertada no gráfico de dispersão. Com essa alteração, a linha de regressão agora fornece um melhor ajuste visual e acho que ajuda a demonstrar como o dimensionamento no gráfico de dispersão original forneceu uma avaliação enganosa do ajuste.
Eu acho que a regressão funciona bem aqui. Não acho que seja necessária uma análise mais complexa.
Para qualquer interessado, plotei os dados usando uma ferramenta de mapeamento e mostro a regressão ajustada aos dados. Os pontos vermelhos são os dados gravados e o verde é a linha de regressão.
E aqui estão os mesmos dados em um gráfico de dispersão com linha de regressão; aqui lat é tratado como dependente e as pontuações lat são revertidas para se ajustarem ao perfil geográfico.
fonte
Sua regressão de mínimos quadrados ordinários (OLS) confusos (que minimiza a soma do desvio ao quadrado sobre os valores previstos (observado-previsto) ^ 2) e regressão do eixo principal (que minimiza a soma dos quadrados da distância perpendicular entre cada ponto e a linha de regressão, às vezes é chamada de regressão tipo II, regressão ortogonal ou regressão padronizada dos componentes principais).
Se você quiser comparar as duas abordagens apenas em R, basta conferir
O que você acha mais intuitivo (sua linha vermelha) é apenas a regressão do eixo principal, que, visualmente, é realmente o que parece mais lógico, pois minimiza a distância perpendicular aos seus pontos. A regressão OLS parecerá minimizar a distância perpendicular aos seus pontos apenas se a variável xey estiver na mesma escala de medição e / ou apresentar a mesma quantidade de erro (você pode ver isso simplesmente com base no teorema de Pitágoras). No seu caso, sua variável y tem muito mais propagação, daí a diferença ...
fonte
A resposta do PCA é a melhor, porque acho que é isso que você deve fazer, dada a descrição do seu problema; no entanto, a resposta do PCA pode confundir PCA e regressão, que são coisas totalmente diferentes. Se você deseja extrapolar esse conjunto de dados específico, precisará fazer a regressão e provavelmente deseja fazer a regressão de Deming (que eu acho que às vezes é do tipo II, nunca ouvi falar dessa descrição). No entanto, se você deseja descobrir quais direções são mais importantes (vetores próprios) e ter uma métrica de seu impacto relativo no conjunto de dados (valores próprios), o PCA é a abordagem correta.
fonte