Quais são as notações clássicas em estatística, álgebra linear e aprendizado de máquina? E quais são as conexões entre essas notações?

Quando lemos um livro, a compreensão das notações desempenha um papel muito importante na compreensão do conteúdo. Infelizmente, comunidades diferentes têm convenções de notação diferentes para a formulação do modelo e o problema de otimização. Alguém poderia resumir algumas notações de formulação aqui e fornecer possíveis razões?

Vou dar um exemplo aqui: Na literatura de álgebra linear, o livro clássico é a introdução de Strang à álgebra linear . A notação mais usada no livro é

A x = b

$A x=b$

Onde é uma matriz de coeficientes , é as variáveis a serem resolvidos e é um vector no lado direito da equação . A razão pela qual o livro escolhe essa notação é o principal objetivo da álgebra linear é resolver um sistema linear e descobrir o que é o vetor . Dada essa formulação, o problema de otimização do OLS é $A$ $x$ $b$ $x$

\underset{x}{minimizar}__UMA x - b {__}^{2}

$\underset{x}{\text{minimize}}~~ \|A x-b\|^2$

Em estatística ou alfabetizado em machine learning (do livro Elements of Statistical Learning ), as pessoas usam notações diferentes para representar a mesma coisa:

X β = y

$X \beta= y$

Onde $X$ é a matriz de dados , $\beta$ são os coeficientes ou pesos a serem aprendidos na aprendizagem , $y$ é a resposta. A razão pela qual as pessoas usam isso é porque as pessoas na comunidade de estatística ou de aprendizado de máquina são orientadas por dados ; portanto, dados e resposta são a coisa mais interessante para eles, onde usam $X$ e $y$ para representar.

Agora podemos ver toda a confusão possível: $A$ na primeira equação é igual a $X$ na segunda equação. E na segunda equação $X$ não é algo que precisa ser resolvido. Também para os termos: $A$ é a matriz do coeficiente na álgebra linear, mas são dados em estatística. $\beta$ também é chamado de "coeficiente".

Além disso, mencionei que $X \beta=y$ não é exatamente o que as pessoas costumam usar no aprendizado de máquina; as pessoas usam uma versão meio vetorizada que resume todos os pontos de dados. Tal como

min \sum_{Eu} eu (y_{Eu}, f (x_{Eu}))

$\min \sum_i \text{L}(y_i,f(x_i))$

Penso que a razão para isto é que é bom quando se fala da descida do gradiente estocástico e de outras funções de perda diferentes. Além disso, a notação concisa da matriz desaparece para outros problemas além da regressão linear.

Notação matricial para regressão logística

Alguém poderia dar mais resumos sobre as notações cruzando literatura diferente? Espero que respostas inteligentes para essa pergunta possam ser usadas como uma boa referência para quem lê livros cruzar literatura diferente.

por favor, não ser limitado por meu exemplo e . Existem muitos outros. Tal como $A x=b$ $X \beta=y$

Por que existem duas formulações / notações de perda logística diferentes?

machine-learning probability self-study optimization hxd1011
fonte

A notação realmente não existe como algum tipo de verdade verificável externamente. É uma linguagem, por isso é inerentemente contextual e pode ser redefinida. Se eu escrever x * be disser que isso significa vetor de produto de matriz x ponto b, ele estará em negrito ou não.

Sycorax diz Restabelecer Monica

Eu diria que e têm notação equivalente. Apenas os nomes das variáveis foram alterados. Em geral, você não encontrará nomes consistentes das variáveis de papel para papel, mesmo dentro de um campo.

A x = b

$Ax = b$

X β = y

$X \beta = y$

usar o seguinte comando

No momento, isso tem 10 votos positivos, 150 visualizações; parece ser um tópico valioso e útil. Além disso, tem uma resposta votada; então não acho que seja amplo demais para ser respondido.

gung - Restabelece Monica

Concordo com @gung, a comunidade claramente tem algum interesse nessa questão. Eu nomeei para reabrir.

Matthew Drury

Eu acho que é muito amplo para um q regular. - mas como já é CW e um tanto popular, adicionei meu voto para reabrir aos quatro que estavam lá.

Scortchi - Restabelece Monica

Respostas:

Talvez uma pergunta relacionada seja: "Quais são as palavras usadas em diferentes idiomas e quais são as conexões entre essas palavras?"

A notação é, em certo sentido, semelhante à linguagem:

Algumas palavras têm significados específicos da região; algumas palavras são amplamente compreendidas.
Como nações poderosas espalham sua linguagem, campos de sucesso e pesquisadores influentes espalham sua notação.
A linguagem evolui com o tempo: a linguagem tem uma mistura de origens históricas e influência moderna.

Sua pergunta específica ...

Eu discordo de sua afirmação de que os dois seguem "notações completamente diferentes". Ambos e letras maiúsculas denotam o uso de matrizes. Eles não são que diferente. $X\boldsymbol{\beta} = \boldsymbol{y}$ $A\mathbf{x} = \mathbf{b}$
O aprendizado de máquina está altamente relacionado à estatística, um campo amplo e maduro. Usar para representar a matriz de dados é quase certamente a convenção mais legível e padrão a seguir. Embora seja padrão para resolver sistemas lineares, não é assim que as pessoas que fazem estatísticas escrevem as equações normais. Você encontrará seu público mais confuso se tentar fazer isso. Quando em Roma... $X$ $A\mathbf{x} = \mathbf{b}$
Em certo sentido, o cerne da sua pergunta revisada é: "Quais são as origens históricas das estatísticas usando a letra para representar dados e a letra para representar a variável desconhecida a ser resolvida?"
- Esta é uma pergunta para os historiadores estatísticos! Pesquisando brevemente, vejo o influente estatístico britânico e acadêmico de Cambridge Udny Yule usado para representar dados em sua Introdução à Teoria da Estatística (1911). Ele escreveu uma equação de regressão como , com o objetivo de mínimos quadrados como minimizador , e com a solução . Pelo menos remonta a então ... $x$ $x_1 = a + bx_2$ $\sum\left( x_1 - a - bx_2\right)^2$ $b_{12} = \frac{\sum x_1x_2}{\sum x_2^2}$
- O ainda mais influente RA Fisher utilizado para a variável dependente e para a variável independente em seu livro 1925 Métodos Estatísticos para investigadores . (Dica para o @Nick Cox por fornecer link com informações.) $y$ $x$

Uma boa notação é como uma boa linguagem. Evite o jargão específico do campo sempre que possível. Escreva no equivalente matemático do inglês alto da BBC, idioma que é compreensível para a maioria das pessoas que fala inglês. Deve-se escrever, sempre que possível, usando notação clara e amplamente compreendida.

Matthew Gunn
fonte

Esse historiador amador de estatística pode fornecer uma correção pedante de que Yule nunca foi professor ... Mais interessante ainda, existe um site pertinente em jeff560.tripod.com/stat.html, exceto que ele parece estar inativo no momento.

Nick Cox

math.hawaii.edu/~tom/history/stat.html parece ser uma cópia. Convenções sistemáticas como o grego para parâmetros e o romano para variáveis que eu entendo serem em grande parte devidas a RA Fisher, mas existem muitos impedimentos, por exemplo, para a amostra da estatística qui-quadrado, não mostra sinais de desaparecer.

χ^{2}

$\chi^2$

Nick Cox

@NickCox Fantástico link jeff560.tripod.com/stat.html ( aceito por mim ...) que faz referência a Yule e RA Fisher! As primeiras origens matemáticas da regressão obviamente remontam a Gauss e Laplace, mas em minha pesquisa amadora completa, elas pareciam usar notações diferentes.

Matthew Gunn

jeff560.tripod.com/stat.html enquanto escrevo é uma atualização de 2014; www.math.hawaii.edu/~tom/history/stat.html é uma cópia de uma versão de 2007.

Nick Cox