A questão é muito simples: por que, quando tentamos ajustar um modelo aos nossos dados, lineares ou não lineares, geralmente tentamos minimizar a soma dos quadrados dos erros para obter nosso estimador para o parâmetro do modelo? Por que não escolher outra função objetiva para minimizar? Entendo que, por razões técnicas, a função quadrática é mais agradável do que algumas outras funções, por exemplo, soma do desvio absoluto. Mas essa ainda não é uma resposta muito convincente. Além dessa razão técnica, por que, em particular, as pessoas são a favor desse "tipo euclidiano" de função à distância? Existe um significado ou interpretação específica para isso?
A lógica por trás do meu pensamento é a seguinte:
Quando você tem um conjunto de dados, primeiro configura seu modelo fazendo um conjunto de suposições funcionais ou distributivas (por exemplo, alguma condição de momento, mas não toda a distribuição). No seu modelo, existem alguns parâmetros (suponha que seja um modelo paramétrico), então você precisa encontrar uma maneira de estimar consistentemente esses parâmetros e, esperançosamente, seu estimador terá baixa variação e algumas outras propriedades interessantes. Se você minimizar o SSE ou LAD ou alguma outra função objetiva, acho que são apenas métodos diferentes para obter um estimador consistente. Seguindo essa lógica, pensei que as pessoas usassem o quadrado mínimo deve ser 1) produz estimador consistente do modelo 2) outra coisa que eu não conheço.
Na econometria, sabemos que no modelo de regressão linear, se você assumir que os termos do erro têm 0 condicionamento médio nos preditores e a homoscedasticidade e os erros não estiverem correlacionados entre si, a minimização da soma do erro quadrado fornecerá um estimador CONSISTENTE do seu modelo parâmetros e pelo teorema de Gauss-Markov, esse estimador é AZUL. Portanto, isso sugere que, se você optar por minimizar alguma outra função objetiva que não seja o SSE, não haverá garantia de obter um estimador consistente do parâmetro do seu modelo. Meu entendimento está correto? Se estiver correto, a minimização do SSE, em vez de alguma outra função objetiva, pode ser justificada pela consistência, o que é aceitável, de fato, melhor do que dizer que a função quadrática é melhor.
Na prática, eu realmente vi muitos casos em que as pessoas minimizam diretamente a soma dos erros quadrados sem primeiro especificar claramente o modelo completo, por exemplo, as premissas distributivas (suposições de momento) sobre o termo do erro. Então, parece-me que o usuário desse método quer apenas ver o quão perto os dados se encaixam no 'modelo' (eu uso aspas, pois as suposições do modelo provavelmente estão incompletas) em termos da função de distância quadrada.
Uma questão relacionada (também relacionada a este site) é: por que, quando tentamos comparar modelos diferentes usando a validação cruzada, usamos novamente o SSE como critério de julgamento? ou seja, escolha o modelo que tem menos SSE? Por que não outro critério?
fonte
Respostas:
Embora sua pergunta seja semelhante a várias outras perguntas no site, aspectos dessa pergunta (como sua ênfase na consistência) me fazem pensar que não estão suficientemente perto de serem duplicadas.
Por que não? Se seu objetivo é diferente de mínimos quadrados, você deve abordá-lo!
No entanto, os mínimos quadrados têm várias propriedades agradáveis (além disso, uma conexão íntima com meios de estimativa , que muitas pessoas desejam, e uma simplicidade que a torna uma primeira escolha óbvia ao ensinar ou tentar implementar novas idéias).
Além disso, em muitos casos, as pessoas não têm uma função objetiva clara, portanto, há uma vantagem em escolher o que está prontamente disponível e amplamente compreendido.
Dito isto, os mínimos quadrados também têm propriedades menos agradáveis (sensibilidade a valores extremos, por exemplo) - então, às vezes, as pessoas preferem um critério mais robusto.
Os mínimos quadrados são não um requisito para consistência. A consistência não é um obstáculo muito alto - muitos estimadores serão consistentes. Quase todos os estimadores que as pessoas usam na prática são consistentes.
Mas em situações em que todos os estimadores lineares são ruins (como seria o caso de caudas pesadas extremas, por exemplo), não há muita vantagem no melhor.
não é difícil encontrar estimadores consistentes; portanto, isso não é uma justificativa especialmente boa dos mínimos quadrados
Se seu objetivo é melhor refletido por outra coisa, por que não?
Não faltam pessoas que usam outras funções objetivas além dos mínimos quadrados. Ele aparece na estimativa M, nos estimadores menos aparados, na regressão quantílica e quando as pessoas usam as funções de perda LINEX, apenas para citar alguns.
Presumivelmente, os parâmetros das premissas funcionais são o que você está tentando estimar; nesse caso, as premissas funcionais são o que você faz menos quadrados (ou qualquer outra coisa) ao redor ; eles não determinam o critério, são o que o critério está estimando.
Por outro lado, se você tem uma suposição distributiva, possui muitas informações sobre uma função objetiva mais adequada - presumivelmente, por exemplo, você deseja obter estimativas eficientes de seus parâmetros - o que em grandes amostras tendem a levá-lo ao MLE (embora possivelmente em alguns casos esteja incorporado em uma estrutura robusta).
LAD é um estimador quantil. É um estimador consistente do parâmetro que deve estimar nas condições em que se espera que seja, da mesma forma que os mínimos quadrados. (Se você observar o que mostra consistência com menos quadrados, há resultados correspondentes para muitos outros estimadores comuns. As pessoas raramente usam estimadores inconsistentes; portanto, se você vê um estimador sendo amplamente discutido, a menos que esteja falando sobre sua inconsistência, é quase certamente consistente. *)
* Dito isto, consistência não é necessariamente uma propriedade essencial. Afinal, para minha amostra, eu tenho um tamanho de amostra específico, não uma sequência de tamanhos de amostra tendendo ao infinito. O que importa são as propriedades no eu tenho, não alguns n infinitamente maiores que eu não possuo e nunca verei . Mas muito mais cuidado é necessário quando temos inconsistência - podemos ter um bom estimador em n = 20, mas pode ser terrível em n = 2000; é necessário mais esforço, em certo sentido, se queremos usar estimadores consistentes.n n n n
Se você usar LAD para estimar a média de um exponencial, não será consistente para isso (embora uma escala trivial de sua estimativa seja) - mas da mesma forma, se você usar mínimos quadrados para estimar a mediana de um exponencial , não será consistente para isso (e novamente, um redimensionamento trivial corrige isso).
fonte
Você fez uma pergunta estatística e espero que a resposta do meu engenheiro de sistemas de controle seja uma facada de uma direção diferente o suficiente para ser esclarecedora.
Aqui está um formulário de fluxo de informações "canônico" para engenharia de sistemas de controle:
O "r" é para o valor de referência. É somado com uma transformação "F" da saída "y" para produzir um erro "e". Este erro é a entrada para um controlador, transformada pela função de transferência de controle "C" em uma entrada de controle para a instalação "P". É destinado a ser geral o suficiente para ser aplicado a plantas arbitrárias. A "planta" poderia ser um motor de carro para controle de cruzeiro ou o ângulo de entrada de um pêndulo inverso.
Digamos que você tenha uma planta com uma função de transferência conhecida com fenomenologia adequada para a discussão a seguir, um estado atual e um estado final desejado. ( tabela 2.1 pp68 ) Há um número infinito de caminhos únicos que o sistema, com entradas diferentes, poderia percorrer para passar do estado inicial ao final. O manual controla as "abordagens ideais" do engenheiro: tempo ideal ( menor tempo / bang-bang ), distância ideal (caminho mais curto), força ideal (menor magnitude máxima de entrada) e energia ideal (entrada total mínima de energia).
Assim como há um número infinito de caminhos, há um número infinito de "ideais" - cada um dos quais seleciona um desses caminhos. Se você escolher um caminho e disser que é melhor, estará implicitamente escolhendo uma "medida de bondade" ou "medida de otimização".
Na minha opinião pessoal, acho que pessoas como a norma L-2 (também conhecida como energia ótima, erro menos quadrado) porque é simples, fácil de explicar, fácil de executar, tem a propriedade de trabalhar mais contra erros maiores do que os menores, e sai com viés zero. Considere as normas h-infinito em que a variação é minimizada e o viés é restrito, mas não zero. Eles podem ser bastante úteis, mas são mais complexos para descrever e mais complexos para codificar.
Eu acho que a norma L2, também conhecida como o caminho ideal para minimizar a energia, também é fácil e, em um sentido preguiçoso, se encaixa na heurística de que "erros maiores são mais ruins e erros menores são menos ruins". Há literalmente um número infinito de maneiras algorítmicas para formular isso, mas o erro ao quadrado é um dos mais convenientes. Requer apenas álgebra, para que mais pessoas possam entender. Funciona no espaço polinomial (popular). A energia ótima é consistente com grande parte da física que compõe nosso mundo percebido, por isso "parece familiar". É decentemente rápido de calcular e não muito horrível na memória.
Se eu tiver mais tempo, gostaria de colocar figuras, códigos ou referências bibliográficas.
fonte
fonte
Você também pode minimizar o erro máximo em vez do ajuste de mínimos quadrados. Existe uma ampla literatura sobre o assunto. Para uma palavra de pesquisa, tente "Tchebechev", também escrito com polinômios "Chebyshev".
fonte
Parece que as pessoas usam quadrados porque permitem estar dentro do domínio da Álgebra Linear e não tocar em outras coisas mais complicadas, como a otimização convexa, que é mais poderosa, mas levam a usar solucionadores sem boas soluções de forma fechada.
Também a idéia desse domínio matemático, que tem otimização convexa de nomes, não se espalhou muito.
"... Por que nos preocupamos com o quadrado de itens. Para ser honesto, porque podemos analisá-lo ... Se você diz que corresponde à energia e eles a compram, prossiga rapidamente ..." - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.
Também aqui Stephen P. Boyd descreve em 2008 que as pessoas usam martelo e adhoc: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916
fonte
Em uma nota lateral:
fonte