A regressão linear simples pode ser feita sem o uso de gráficos e álgebra linear?

47

Sou completamente cego e venho de um background de programação.

O que estou tentando fazer é aprender aprendizado de máquina e, para fazer isso, primeiro preciso aprender sobre regressão linear. Todas as explicações na Internet que estou descobrindo sobre esse assunto traçam os dados primeiro. Estou procurando uma explicação prática da regressão linear que não depende de gráficos e plotagens.

Aqui está o meu entendimento do objetivo da regressão linear simples:

A regressão linear simples está tentando encontrar a fórmula que, uma vez Xfornecida, forneceria a estimativa mais próxima de Y.

Então, pelo que entendi, o que precisa ser feito é comparar o preditor (por exemplo, a área de uma casa em pés quadrados) com a variável independente (o preço). No meu exemplo, você provavelmente pode criar uma maneira não visual de obter a melhor fórmula para calcular o preço de uma casa a partir de sua área. Por exemplo, talvez você obtenha a área e o preço de 1000 casas em um bairro e divida o preço pela área? O resultado (pelo menos no Irã, onde eu moro) teria uma variação muito insignificante. Então você provavelmente obteria algo como isto:

Price = 2333 Rials * Area of the house

Obviamente, você precisaria passar por todas as 1000 casas em seu conjunto de dados, colocar a área na fórmula acima, comparar a estimativa com o preço real, quadrado os resultados (acho que para evitar que as variações se cancelem) e, em seguida, obtenha um número e continue brincando com o 2333botão para diminuir os erros.

Obviamente, esta é a opção de força bruta em que provavelmente levará séculos para calcular os erros e chegar à melhor opção, mas você entende o que estou dizendo? Eu não disse nada sobre um gráfico, uma linha ou pontos em um gráfico, ou a melhor maneira de ajustar uma linha aos dados existentes.

Então, por que você precisaria de um gráfico de dispersão e álgebra linear para isso? Não existe uma maneira não visual?

Primeiro, estou certo em minhas suposições? Caso contrário, eu adoraria ser corrigido. Se estou ou não, existe uma maneira de criar a fórmula sem brincar com álgebra linear?

Eu realmente apreciaria se pudesse obter um exemplo com a explicação, para que eu possa fazer isso junto com o texto para testar minha compreensão.

Parham Doustdar
fonte
2
Mas você tem imaginação espacial que pode assumir a visão? Se sim, suponho que um gráfico de dispersão possa ser imaginado de alguma maneira. Duvido que a essência da regressão possa ser capturada apenas pelo pensamento proposicional (como o verbal).
precisa saber é o seguinte
3
Qual é a sua formação matemática? A página da Wikipedia chamada Regressão linear simples é composta principalmente por texto e tem o que eu acho que é uma descrição razoavelmente clara no primeiro parágrafo. Como esse artigo se compara ao nível de detalhe que você está procurando?
Shadowtalker
3
Vou continuar pensando, ver se consigo surgir, mas logo de cara, pense em regressão como resolver uma equação que não tem solução. Todos os seus pontos de dados serão previstos incorretamente pelo seu regressor (a área da casa). Você está procurando uma equação que torne seus erros o mais tolerável possível.
Antoni Parellada
8
excelente pergunta, precisamos pensar mais sobre explicando nossos conceitos para as pessoas com deficiência
Aksakal
4
Você não precisa usar um enredo. De fato, para regressão linear múltipla (regressão com muitos preditores), você não pode plotar um espaço dimensional . No entanto, a álgebra linear ainda funciona. Todas as fórmulas de álgebra linear envolvidas na regressão linear podem ser reduzidas a operações em números escalares simples. Você não gostaria de fazê-lo dessa maneira manualmente, se valorizar sua sanidade. p+1
conjectures

Respostas:

17

Sim, você gosta disso. Você deve continuar brincando com o 2333 até encontrar o caminho certo que minimize o erro. Mas há uma maneira matemática de encontrar a "certa". Vamos chamar esse número . , a soma dos erros ao quadrado (SSE) é uma função de pois para cada escolha de pode calcular a quantidade que cada estimativa está desativada, quadrá-la e somar.βEββ

O que minimiza a soma total dos erros ao quadrado? Este é apenas um problema de cálculo. Pegue a derivada de por e defina-a como zero. Isso fornece uma equação para . Verifique se a segunda derivada é positiva para saber que é um mínimo. Assim, você obtém uma equação para que minimiza o erro.βEβββ

Se você derivar dessa maneira, receberá como um somatório. Se você escrever a forma de álgebra linear da estimativa, verá que é a mesma coisa.β

Edit: Aqui está um link para algumas notas com este tipo de derivação. A matemática fica um pouco confusa, mas no fundo é apenas um problema de cálculo.

Chris Rackauckas
fonte
AMD. Finalmente! Uma maneira de álgebra não linear para calcular isso. Os conceitos sobre os quais você está falando na sua resposta estão acima da minha cabeça, mas definitivamente analisarei os derivativos em um esforço para entender melhor essa linha de pensamento.
Parham Doustdar
1
Eu liguei a algumas notas que explicam isso em um nível bastante elementar. Eu acho que qualquer resposta precisará de cálculo porque a maneira como você resolve problemas como "encontre o mínimo de " é pegar uma derivada e defini-la como zero. Intuitivamente, isso significa apenas que o mínimo (ou máximo) de uma colina será onde a colina é plana (já que a inclinação é mais alta ao longo da encosta da colina!). Derivada = inclinação. Portanto, em áreas que mudam começa a causar pouca alteração em você está próximo do mínimo (ou máximo. Você precisa garantir que não seja o máximo!). E(β)βE
Chris Rackauckas
4
Essa idéia leva você ao aprendizado de máquina. Um dos métodos básicos de aprendizado de máquina é decente em gradiente. Isso basicamente se traduz em "seguir a inclinação". se você continuar deixando a bola rolar na direção em que a colina é mais íngreme, você atingirá o mínimo. Portanto, o método decente gradiente é fazer exatamente isso: descubra qual a maneira de alterar faz com que o erro diminua mais e siga por esse caminho! β
Chris Rackauckas
2
Para a regressão de mínimos quadrados, você não precisa fazer um gradiente decente, pois pode resolver uma equação que é a resposta, mas isso fornece uma boa maneira de entender o que é aprendizado de máquina. Tudo se resume a escolher uma maneira de medir o erro e, em seguida, encontrar uma maneira de minimizar a equação do erro. O resultado é a "melhor" equação de estimativa aprendida através dos dados. Espero que ajude você no seu caminho para o aprendizado de máquina!
Chris Rackauckas
10

Seu entendimento é próximo, mas precisa de alguma extensão: A regressão linear simples está tentando encontrar a fórmula que, uma vez Xfornecida, forneceria a estimativa mais próxima de Y baseada em uma relação linear entre X e Y .

Seu exemplo de preço da habitação, quando estendido um pouco, mostra por que você acaba com gráficos de dispersão e similares. Primeiro, simplesmente dividir o preço pela área não funciona em outros casos, como o preço da terra em minha cidade natal, onde os regulamentos de construção significam que simplesmente possuir um lote de terra sobre o qual você pode construir uma casa tem um valor alto. Portanto, os preços da terra não são simplesmente proporcionais às áreas. Cada aumento da área da parcela pode dar o mesmo aumento no valor da parcela, mas se você fosse até uma parcela (mítica) de 0 de área, ainda haveria um preço aparente associado que representa o valor de apenas possuir uma parcela de terra isso é aprovado para construção.

Ainda é uma relação linear entre área e valor, mas há um intercepto na relação, representando o valor de apenas possuir uma parcela. O que torna isso, no entanto, uma relação linear é que a mudança de valor por unidade de mudança de área, a inclinação ou o coeficiente de regressão, é sempre a mesma, independentemente das magnitudes de área ou valor.

Então, diga que você já conhece de alguma forma a interceptação e a inclinação que relacionam as áreas das parcelas ao valor e compara os valores dessa relação linear aos valores reais representados pelas vendas recentes. Você verá que os valores previstos e reais raramente coincidem. Essas discrepâncias representam os erros no seu modelo e resultam em uma dispersão de valores em torno da relação prevista. Você obtém um gráfico de dispersão de pontos agrupados em torno de sua relação linear prevista entre área e valor.

Nos exemplos mais práticos, você ainda não conhece a interceptação e a inclinação, portanto, tente estimar a partir dos dados. É isso que a regressão linear tenta fazer.

É melhor pensar em regressão linear e modelagem relacionada a partir da perspectiva da estimativa de máxima verossimilhança , que é uma pesquisa pelos valores de parâmetros específicos em seu modelo que tornam os dados mais prováveis. É semelhante à abordagem de "força bruta" que você propõe em sua pergunta, mas com uma medida um pouco diferente do que você está tentando otimizar. Com métodos de computação modernos e design inteligente do padrão de pesquisa, isso pode ser feito rapidamente.

A estimativa de probabilidade máxima pode ser conceituada de maneiras que não exigem um gráfico e é semelhante à maneira como você já pensa. No caso de regressão linear, tanto a regressão de mínimos quadrados padrão quanto a máxima verossimilhança fornecem as mesmas estimativas de interceptação e inclinação.

Pensar em termos de máxima probabilidade tem a vantagem adicional de se estender melhor a outras situações em que não existem relações estritamente lineares. Um bom exemplo é a regressão logística na qual você tenta estimar a probabilidade de ocorrência de um evento com base em variáveis ​​preditivas. Isso pode ser conseguido pela máxima probabilidade, mas, diferentemente da regressão linear padrão, não existe uma equação simples que produza a interceptação e as inclinações na regressão logística.

EdM
fonte
1
Eu pensei que '' linear '' em '' regressão linear '' significava '' linear nos parâmetros '', então você pode ter como uma variável independente, mas o coeficiente de cada variável independente deve aparecer de maneira linear ? x2
@fcop você está correto. Eu estava partindo do exemplo fornecido pelo OP, que apresentava uma proporcionalidade entre valores e áreas. Costumo pensar nos valores transformados das variáveis ​​preditoras originais como variáveis ​​independentes reais na regressão quando transformações como potências ou logs são usados. Eu acho que isso acaba na prática principalmente como uma diferença na terminologia, embora haja diferenças nos modelos de erro implícitos.
EdM
Eu vejo o seu ponto, de qualquer forma, foi uma boa resposta (+1)
6

Primeiro de tudo, meus cumprimentos. É difícil para todos lutarem com estatísticas (eu sou médico, então você pode adivinhar o quanto é difícil para mim) ...

Não posso propor uma explicação visual para a regressão linear , mas algo muito próximo: uma explicação tátil para a regressão linear .

Imagine que você está entrando em uma sala de uma porta. A sala tem mais ou menos um quadrado e a porta fica no canto inferior esquerdo. Você deseja chegar ao próximo cômodo, cuja porta espera estar no canto superior direito, mais ou menos. Imagine que você não pode dizer exatamente onde fica a porta ao lado (nunca!), Mas há algumas pessoas espalhadas na sala e elas podem lhe dizer para onde ir. Eles também não podem ver, mas podem dizer o que há perto deles. O caminho final que você seguirá para chegar à próxima porta, guiado por essas pessoas, é análogo a uma linha de regressão, que minimiza a distância entre essas pessoas e o leva em direção à porta, próximo (se não estiver) ao caminho correto.

Joe_74
fonte
1
(+1) Gosto muito do seu exemplo e é engraçado que, por pura coincidência, tenhamos usado ilustrações muito semelhantes para esse problema!
Tim
"A sala tem mais ou menos um quadrado" - o que é quadrado para cegos? Com esta frase, você nos levou de volta para onde deveríamos começar.
Aksakal
4
Eu não concordo Deixe-os andar 10 pés em uma direção, depois gire 90 ° (como uma braçadeira) e ande novamente 10 pés. É um quadrado se você não pode ver corretamente.
Joe_74
@ GiuseppeBiondi-Zoccai, se estou construindo um modelo de pressão na câmara sobre a temperatura, por que precisaria criar quadrados, linhas e outros conceitos espaciais? É certamente conveniente se você não está cego, mas para uma pessoa cega essas analogias espaciais não trazem nada para a mesa para o problema na mão, eles só complicam a exposição
Aksakal
2
Novamente, eu discordo educadamente ... minha suposição sempre foi de que pessoas cegas desenvolveram habilidades espaciais táteis em particular. Enfim, qualquer exemplo que funcione bem, e quanto mais, melhor.
Joe_74
3

Um bom exemplo que pode ajudar na sua pergunta foi fornecido por Andrew Gelman e David K. Park (2012). Vamos vara para seu exemplo de prever o preço da casa dado da área . Para isso, usamos um modelo de regressão linear simplesYX

Y=β0+β1X+ε

Por uma questão de simplicidade, vamos esquecer a interceptação , você pode verificar este tópico para saber por que é importante . Esses dados podem ser visualizados em um gráfico de dispersão. O que é gráfico de dispersão? Imagine o espaço bidimensional (poderia ser uma sala), os pontos de dados estão "espalhados" pelo local, onde os valores de ambas as variáveis ​​marcam suas posições de eixo e eixo . O que você já sabe é que, de alguma forma, se traduz no modelo de regressão linear.β0yx

Para deixar claro, vamos simplificar ainda mais esse exemplo - como Gelman e Park fizeram. A simplificação que eles propuseram é dividir oβ 1Xvariável, isto é, área da casa, em três grupos: casas "pequenas", "médias" e "grandes" (elas descrevem como otimamente tomar essa decisão, mas isso é de menor importância). Em seguida, calcule o tamanho médio da casa "pequena" e o tamanho médio da casa "grande". Calcular também o preço médio da casa "pequena" e da "grande". Agora, reduza seus dados para dois pontos - o centro das nuvens de pontos de dados para pequenas e grandes casas espalhadas no espaço e remova todos os pontos de dados sobre casas "médias". Você fica com dois pontos no espaço bidimensional. Linha de regressão é a linha que liga os pontos - você pode pensar nela como uma direção de um ponto para o outro. β1

O mesmo acontece quando temos mais pontos, espalhados pelo espaço: a linha de regressão encontra seu caminho, minimizando a distância quadrada de cada ponto. Portanto, a linha está passando exatamente pelo centro da nuvem de pontos espalhados no espaço. Em vez de conectar dois pontos, você pode pensar nisso como conectar um número ilimitado desses pontos centrais.


Gelman, A. & Park, DK (2012). Dividir um preditor no quarto ou terceiro superior e no quarto ou terceiro inferior. The American Statistician, 62 (4), 1-8.

Tim
fonte
3

A resposta curta é sim. Qual linha passa melhor no meio de todos os pontos que compreendem a totalidade ou apenas a superfície de um avião ou dardo? Desenhe isso; na sua cabeça ou na foto. Você está procurando e nessa linha solitária a partir da qual todos os pontos (de interesse, sejam eles plotados ou não) que contribuiriam para o mínimo total (entre pontos) de desvio dessa linha. Se você fizer isso a olho nu, implicitamente pelo senso comum, aproximará (notavelmente bem) um resultado matematicamente calculado. Para isso, existem fórmulas que incomodam os olhos e podem não fazer sentido. Em problemas formalizados semelhantes em engenharia e ciência, as dispersões ainda convidam uma avaliação preliminar a olho nu, mas nessas áreas é suposto surgir uma probabilidade de "teste" de que uma linha é a linha. Vai ladeira abaixo de lá. Contudo, aparentemente, você está tentando ensinar uma máquina a avaliar (com efeito) as medidas e os limites de (a) um considerável celeiro e (b) gado disperso dentro dela. Se você fornecer à sua máquina o que equivale a uma imagem (gráfica, algébrica) dos bens imobiliários e dos ocupantes, ela deve ser capaz de descobrir (linha média dividindo cuidadosamente o blob em dois, calculador descatter em uma linha) o que você deseja que ele faça. Qualquer livro de estatística decente (peça aos professores ou professores para nomear mais de um) deve especificar, em primeiro lugar, todo o ponto da regressão linear e como fazê-lo nos casos mais simples (variando para casos que não são simples). Depois de alguns pretzels, você terá uma ideia. Se você fornecer à sua máquina o que equivale a uma imagem (gráfica, algébrica) dos bens imobiliários e dos ocupantes, ela deve ser capaz de descobrir (linha média dividindo cuidadosamente o blob em dois, calculador descatter em uma linha) o que você deseja que ele faça. Qualquer livro de estatística decente (peça aos professores ou professores para nomear mais de um) deve especificar, em primeiro lugar, todo o ponto da regressão linear e como fazê-lo nos casos mais simples (variando para casos que não são simples). Depois de alguns pretzels, você terá uma ideia. Se você fornecer à sua máquina o que equivale a uma imagem (gráfica, algébrica) dos bens imobiliários e dos ocupantes, ela deve ser capaz de descobrir (linha média dividindo cuidadosamente o blob em dois, calculador descatter em uma linha) o que você deseja que ele faça. Qualquer livro de estatística decente (peça aos professores ou professores para nomear mais de um) deve especificar, em primeiro lugar, todo o ponto da regressão linear e como fazê-lo nos casos mais simples (variando para casos que não são simples). Depois de alguns pretzels, você terá uma ideia. Qualquer livro de estatística decente (peça aos professores ou professores para nomear mais de um) deve especificar, em primeiro lugar, todo o ponto da regressão linear e como fazê-lo nos casos mais simples (variando para casos que não são simples). Depois de alguns pretzels, você terá uma ideia. Qualquer livro de estatística decente (peça aos professores ou professores para nomear mais de um) deve especificar, em primeiro lugar, todo o ponto da regressão linear e como fazê-lo nos casos mais simples (variando para casos que não são simples). Depois de alguns pretzels, você terá uma ideia.


Em re: comentário do Silverfish ao meu post supra (parece que não há outra maneira simples de adicionar comentário a esse comentário), sim, o OP é cego, está aprendendo aprendizado de máquina e solicitou praticidade sem plots ou gráficos, mas presumo que ele é capaz de distinguir "visualizar" de "visão", visualiza e tem verdadeiras imagens em sua cabeça e tem uma idéia básica de todo tipo de físico nos objetos do mundo ao seu redor (casas, entre outros), para que ele ainda possa " desenhe "matematicamente e de outra forma em sua cabeça, e provavelmente pode colocar uma boa aparência de 2D e 3D no papel. Atualmente, há uma grande variedade de livros e outros textos disponíveis em Braille físico e em voz eletrônica no próprio computador (como fóruns, dicionários etc.), e muitas escolas para cegos têm currículos bastante completos. Em vez de avião ou dardo, sofá ou bengala não seria necessariamente o mais apropriado, e provavelmente os textos estatísticos estão disponíveis. Ele está menos preocupado com o modo como as máquinas podem aprender a plotar, representar graficamente ou calcular a regressão, e com o modo como as máquinas podem aprender a fazer algo equivalente (e mais básico) para entender a regressão (se uma máquina pode exibi-la, reagir a ela, seguir evite, ou o que for). O impulso essencial (tanto para os cegos quanto para os que vêem) ainda é como visualizar o que pode ser não visual (como o conceito de linearidade em vez de uma instância de linha traçada, desde antes de Euclides e Pitágoras), e como visualizar o finalidade básica de um tipo especial de linearidade (regressão, cujo ponto básico é mais adequado ao menor desvio, desde o início em matemática e estatística). A saída de regressão Fortran de um impressor de linha é dificilmente "visual" até que seja assimilada mentalmente, mas até o ponto básico da regressão é imaginário (uma linha que não existe até ser criada para um propósito).

butte
fonte
2
Talvez eu esteja entendendo mal esta resposta, mas "desenhe na sua cabeça ou em uma imagem" parece um pouco esquecido do ponto da pergunta: a pergunta original é feita por alguém que é completamente cego e, portanto, procura um maneira visual de abordar a regressão.
Silverfish
Response @Silverfish (muito tempo para um comentário) foi editado na resposta acima
Obrigado. Eu pensei que o voto negativo era um pouco duro (não fui eu), mas algumas das opções de idioma nesta resposta foram infelizes (por exemplo, existem várias referências a fazer as coisas "a olho nu"). No entanto, entendo por que você gostaria de distinguir entre percepção visual e o que pode ser visualizado através do "olho da mente".
quer
2
Eu posso visualizar as coisas em minha mente. Só que eu não uso as mesmas formas de visualização. Não é uma questão de não usar drawou visualize. É apenas uma questão de usar o conceito para derivar a visualização, e não o contrário. Eu descobri que isso acontece em muitos lugares na matemática. Para explicar um assunto difícil, geralmente são usadas formas e imagens, em vez de relacionar o cálculo a conceitos que o aluno conheceria da vida real.
Parham Doustdar
3

A razão pela qual as plotagens são universalmente usadas para introduzir uma regressão simples - uma resposta prevista por um único preditor - é que elas ajudam na compreensão.

No entanto, acredito que posso dar algo do sabor que possa ajudar a entender o que está acontecendo. Nisto, vou me concentrar principalmente em tentar transmitir um pouco do entendimento que eles fornecem, o que pode ajudar com alguns dos outros aspectos que você normalmente encontrará na leitura sobre regressão. Portanto, esta resposta lidará principalmente com um aspecto específico da sua postagem.

Imagine que você está sentado diante de uma grande mesa retangular, como uma mesa de escritório simples, uma com um braço inteiro (talvez 1,8 metros), talvez com metade dessa largura.

Você está sentado diante da mesa na posição usual, no meio de um lado comprido. Nesta mesa, um grande número de pregos (com cabeças bastante lisas) foi martelado na superfície superior, de modo que cada um aperta um pouco (o suficiente para sentir onde estão e o suficiente para amarrar um barbante neles ou prender um elástico) )

Essas unhas estão a distâncias variadas da borda da mesa, de maneira que, em uma extremidade (digamos, na extremidade esquerda), elas normalmente estejam mais próximas da borda da mesa e depois, enquanto você se move em direção à outra extremidade, as cabeças das unhas tendem a estar mais distantes da sua borda.

Além disso, imagine que seria útil ter uma noção de quão longe as unhas estão, em média, da sua borda, em qualquer posição da sua borda.

Escolha algum lugar ao longo da borda da mesa e coloque a mão ali, depois estenda a mão diretamente sobre a mesa, arrastando suavemente a mão de volta em sua direção e depois para longe novamente, movendo a mão para frente e para trás sobre as cabeças das unhas. Você encontra várias dúzias de inchaços nessas unhas - aquelas na largura mais estreita da sua mão (à medida que se afasta diretamente da borda, a uma distância constante da extremidade esquerda da mesa), uma seção ou tira, com aproximadamente dez centímetros de largura .

A idéia é descobrir uma distância média de um prego a partir da borda da mesa nessa pequena seção. Intuitivamente, é apenas o meio dos solavancos que atingimos, mas se medimos cada distância até um prego naquela seção da mesa com a largura da mão, poderíamos calcular essas médias facilmente.

Por exemplo, poderíamos usar um quadrado T cuja cabeça desliza ao longo da borda da mesa e cujo eixo corre em direção ao outro lado da mesa, mas logo acima da mesa para não batermos nas unhas quando ela deslizar para a esquerda ou à direita - ao passarmos por uma unha, podemos obter sua distância ao longo do eixo do quadrado T.

Assim, em uma progressão de lugares ao longo de nossa borda, repetimos esse exercício de encontrar todas as unhas em uma faixa na largura da mão, correndo na nossa direção e para longe de nós e encontrando a distância média delas. Talvez dividamos a mesa em tiras da largura das mãos ao longo da borda (para que cada unha seja encontrada em exatamente uma tira).

Agora imagine que havia 21 tiras desse tipo, a primeira na borda esquerda e a última na borda direita. Os meios se afastam ainda mais da nossa mesa à medida que avançamos pelas tiras.

Esses meios formam um estimador de regressão não paramétrico simples da expectativa de y (nossa distância) dada x (distância ao longo da borda da extremidade esquerda), ou seja, E (y | x). Especificamente, este é um estimador de regressão não paramétrico binned, também chamado de regressograma

Se essas médias de faixa aumentassem regularmente - ou seja, a média estava aumentando aproximadamente na mesma quantidade por faixa à medida que passávamos pelas faixas -, poderíamos estimar melhor nossa função de regressão assumindo que o valor esperado de y fosse linear função de x - ou seja, que o valor esperado de y dado x fosse uma constante mais um múltiplo de x. Aqui a constante representa onde as unhas tendem a estar quando x é zero (geralmente podemos colocá-lo na extremidade esquerda extrema, mas não precisa ser), e o múltiplo particular de x é o quão rápido, em média, a média muda à medida que avançamos um centímetro (digamos) para a direita.

Mas como encontrar uma função linear?

Imagine que passamos um elástico sobre cada cabeça de unha e prendemos cada um a uma vara longa e fina que fica logo acima da mesa, em cima das unhas, para que fique em algum lugar perto do "meio" de cada tira que estávamos para.

Prendemos as faixas de tal maneira que elas apenas se esticam na direção em direção a nós (e não à esquerda ou à direita) - deixadas sozinhas elas puxariam para fazer sua direção de esticar em ângulo reto com o manípulo, mas aqui evitamos isso, para que a direção do alongamento permaneça apenas nas direções em direção ou fora da nossa borda da mesa. Agora deixamos o bastão assentar à medida que as faixas o puxam em direção a cada unha, com mais unhas distantes (com mais elásticos esticados) puxando correspondentemente mais forte do que as unhas próximas ao bastão.

Então o resultado combinado de todas as bandas que puxam o bastão seria (pelo menos idealmente) puxar o bastão para minimizar a soma dos comprimentos quadrados dos elásticos de borracha esticados; nessa direção, diretamente sobre a mesa, a distância entre a borda da mesa e o manche em qualquer posição x seria nossa estimativa do valor esperado de y, dado x.

Esta é essencialmente uma estimativa de regressão linear.

Agora, imagine que, em vez de pregos, tenhamos muitas frutas (como maçãs pequenas, talvez) penduradas em uma árvore grande e desejamos encontrar a distância média das frutas acima do solo, pois ela varia de acordo com a posição no solo. Imagine que, neste caso, as alturas acima do solo aumentem à medida que avançamos e um pouco maiores à medida que avançamos para a direita, novamente de maneira regular; portanto, cada passo à frente normalmente altera a altura média aproximadamente na mesma quantidade e cada passo para a right também mudará a média em uma quantidade aproximadamente constante (mas essa quantidade de mudança na média à direita é diferente da quantidade de mudança na frente).

Se minimizarmos a soma das distâncias verticais ao quadrado dos frutos para uma folha fina e plana (talvez uma folha fina de plástico muito rígido) para descobrir como a altura média muda à medida que avançamos ou avançamos para a direita, isso seria uma regressão linear com dois preditores - uma regressão múltipla.

Esses são os únicos dois casos que os gráficos podem ajudar a entender (eles podem mostrar rapidamente o que acabei de descrever detalhadamente, mas espero que você tenha uma base para conceituar as mesmas idéias). Além desses dois casos mais simples, resta apenas a matemática.

Agora dê o seu exemplo de preço da casa; você pode representar a área de cada casa a uma distância ao longo da borda da mesa - representar o maior tamanho da casa como uma posição próxima à borda direita, todos os outros tamanhos de casas estarão em alguma posição mais à esquerda, onde um certo número de centímetros representará alguns número de metros quadrados. Agora a distância representa o preço de venda. Represente a casa mais cara como uma distância específica próxima à extremidade mais distante da mesa (como sempre, a extremidade mais distante da sua cadeira), e cada centímetro que se afastar representará um número de riais.

No momento, imagine que escolhemos a representação para que a borda esquerda da mesa corresponda a uma área da casa igual a zero e a borda próxima a um preço da casa igual a 0. Posicionamos uma unha para cada casa.

Provavelmente, não teremos pregos perto da extremidade esquerda da borda (eles podem estar principalmente na direção certa e longe de nós) porque essa não é necessariamente uma boa escolha de escala, mas sua escolha de um modelo sem interceptação faz com que isso uma maneira melhor de discutir isso.

Agora, em seu modelo, você força o bastão a passar por um laço no canto esquerdo da borda próxima da mesa - forçando o modelo equipado a ter preço zero pela área zero, o que pode parecer natural - mas imagine se houver alguns componentes razoavelmente constantes do preço que afetavam todas as vendas. Então faria sentido ter a interceptação diferente de zero.

De qualquer forma, com a adição desse loop, o mesmo exercício de elástico de antes encontrará nossa estimativa de mínimos quadrados da linha.

Glen_b
fonte
Uau, obrigado por esta resposta espacial longa. Isso explica muito. Obrigado.
Parham Doustdar
2

Você encontrou o tipo de torradeira que costuma receber em hotéis? Você coloca o pão em uma correia transportadora em uma extremidade e sai torrada na outra. Infelizmente, na torradeira deste hotel barato, todos os aquecedores foram movidos para alturas e distâncias aleatórias da entrada da torradeira. Você não pode mover os aquecedores ou dobrar o caminho da esteira (que é reta, a propósito (é aqui que a broca linear entra), mas pode alterar a ALTURA e a INCLINAÇÃO da esteira.

Dadas as posições de todos os aquecedores, a regressão linear indicará a altura e o ângulo corretos para colocar a correia e obter o máximo de calor geral. Isso ocorre porque a regressão linear minimizará a distância média entre a torrada e os aquecedores.

Meu primeiro trabalho de férias foi fazer regressões lineares à mão. O cara que disse que você não quer fazer isso é CERTO !!!

Chris J
fonte
2

Minha explicação favorita da regressão linear é geométrica, mas não visual. Ele trata o conjunto de dados como um ponto único em um espaço de alta dimensão, em vez de dividi-lo em uma nuvem de pontos no espaço bidimensional.

A área de e preço de uma casa são um par de números, que você pode pensar como as coordenadas de um ponto no espaço bidimensional. As áreas e os preços de mil casas são mil pares de números, nos quais você pode pensar como as coordenadas de um ponto no espaço de duas mil dimensões. Por conveniência, chamarei espaço de duas mil dimensões "espaço de dados". Seu conjunto de dados é um ponto único no espaço para dados.ap(a,p)a1,,a1000p1,,p1000

D=(a1,,a1000,p1,,p1000)
D

Se a relação entre área e preço fosse perfeitamente linear, o ponto ficaria em uma região muito especial do espaço de dados, que chamarei de "folha linear". Consiste nos pontos Os números e podem variar, mas são fixos para serem as mesmas áreas que aparecem no seu conjunto de dados. Estou chamando a planilha linear de "planilha" porque é bidimensional: um ponto nela é especificado pelas duas coordenadas eD

M(ρ,β)=(a1,,a1000,ρa1+β,,ρa1000+β).
ρβa1,,a1000ρβ. Se você quiser ter uma idéia de como a folha linear é formada, imagine um fio fino e reto esticado no espaço tridimensional. A folha linear é assim: é perfeitamente plana e sua dimensão é muito baixa em comparação com a dimensão do espaço em que se encontra.

Em uma vizinhança real, a relação entre área e preço não será perfeitamente linear; portanto, o ponto não ficará exatamente na folha linear. No entanto, pode ficar muito perto da folha linear. O objectivo da regressão linear é para encontrar o ponto na folha linear que fica mais próxima do ponto de dados . Esse ponto é o melhor modelo linear para os dados.DM(ρ,β)D

Usando o teorema de Pitágoras, você pode descobrir que o quadrado da distância entre e é Em outras palavras, a distância entre o ponto de dados e o ponto do modelo é o erro quadrático total do modelo! Minimizar o erro quadrático total de um modelo é o mesmo que minimizar a distância entre o modelo e os dados no espaço de dados.M ( ρ , β ) [ p 1 - ( ρ a 1 + β ) ] 2 + + [ p 1000 - ( ρ a 1000 + β ) ] 2 .DM(ρ,β)

[p1(ρa1+β)]2++[p1000(ρa1000+β)]2.

Como Chris Rackauckas apontou , o cálculo fornece uma maneira muito prática de encontrar as coordenadas e que minimizam a distância entre e .β D M ( ρ , β )ρβDM(ρ,β)

Vectornaut
fonte
1

As respostas de @Chris Rackauckas e @ EDM estão no local. Existem várias maneiras de abordar a regressão linear simples que não requer explicações visuais ou de plotagem de estimativas de mínimos quadrados comuns, e elas fornecem explicações muito sólidas do que realmente acontece quando você está executando o OLS.

Posso acrescentar que, usando gráficos de dispersão como uma ferramenta de instrução para aprender qualquer tipo de novo procedimento de modelagem, seja modelo paramétrico da velha escola, material avançado de aprendizado de máquina ou algoritmos bayesianos, os gráficos podem ajudar a reduzir o tempo necessário para aprender o que um determinado algoritmo faz.

A representação gráfica também é muito importante para a análise exploratória de dados quando você começa a trabalhar com um novo conjunto de dados. Tive situações em que coletei muitos dados, elaborei a teoria, planejei cuidadosamente meu modelo e depois o executei, apenas para terminar com resultados que essencialmente não tinham poder preditivo. A plotagem de relacionamentos bivariados pode tirar algumas das suposições: no seu exemplo, é possível que o preço da habitação esteja linearmente relacionado à área, mas talvez o relacionamento não seja linear. Os gráficos de dispersão ajudam a decidir se você precisa de termos de ordem superior em sua regressão, ou se deseja usar um método diferente da regressão linear, ou se deseja usar algum tipo de método não paramétrico.

Chris K
fonte
1

Google para Anscombe Quartet.

Ele mostra 4 conjuntos de dados que, ao inspecionar numericamente, não mostram muita diferença.

No entanto, ao criar um gráfico de dispersão visual, as diferenças se tornam dramaticamente visíveis.

Ele fornece uma visão bastante clara de por que você sempre deve plotar seus dados, com ou sem regressão :-)

ctd2015
fonte
0

Queremos ter uma solução que minimize a diferença entre os valores previstos e reais.

Assumimos que isto é, existe uma relação linear.y=bx+a

Não nos importamos se a diferença entre previsto e real é positiva ou negativa, assumindo que a distribuição dos erros de possua certas propriedades .yyy

Se assumirmos que a distribuição de erros é normalmente distribuída, verifica-se que existe uma solução analítica para esse problema de minimização. A soma dos quadrados das diferenças é o melhor valor a ser minimizado para um melhor ajuste. Mas a normalidade não é necessária no caso geral.

Na verdade, não há muito mais.

A interpretação geométrica é útil porque soma dos quadrados tem a interpretação na forma de soma das distâncias dos pontos no gráfico de dispersão a partir de linha. E o olho humano é muito bom em aproximar a linha que corresponde ao melhor ajuste. Portanto, foi útil antes que tivéssemos computadores para encontrar o ajuste rapidamente.y=bx+a

Atualmente, resta mais como uma ajuda à compreensão, mas não é necessário ter que entender realmente a regressão linear.

EDIT: substituiu a suposição de normalidade dos erros por uma lista correta, mas menos concisa. Era necessário que a normalidade tivesse uma solução analítica e possa ser assumida para muitos casos práticos e, nesse caso, a soma dos quadrados é ideal não apenas para o estimador linear e também maximiza a probabilidade.

Se a suposição de normalidade da distribuição de erros se mantiver, então a Soma dos Quadrados é ideal entre os estimadores lineares e não lineares e está maximizando a probabilidade.

Diego
fonte
1
Pressuposto de distribuição normal não é necessário para qualquer coisa que você descreveu
Aksakal
Pls verificar esta explicação stats.stackexchange.com/a/1516/98469
Diego
O link não tem nada a ver com sua resposta. Se você expandiu para pequenas propriedades de amostra ou MLE, poderia inserir a suposição de distribuição normal, mas, como está, a descrição do OLS em sua resposta não precisa de distribuição normal. De fato, para minimizar a soma dos quadrados, você não precisa de nenhuma distribuição ou estatística. É pura álgebra.
Aksakal
A questão é por que estamos minimizando a soma dos quadrados e não outra métrica. Não é sobre como minimizar a soma dos quadrados.
Diego
Minimizar a soma dos quadrados não tem nada a ver com a distribuição normal. É apenas a sua função de perda. Qualquer outra distribuição de erro pode ser usada com esta função de perda. Você precisa das distribuições em certos casos, por exemplo, se você quiser fazer inferências sobre os valores dos parâmetros em pequenas amostras, etc. Mesmo nesse caso, você poderia usar outras distribuições, não sei por que você está preso ao normal.
Aksakal