Probabilidade em regressão linear

7

Estou tentando entender como as pessoas derivam a probabilidade de regressão linear simples. Digamos que temos apenas um recurso x e o resultado y. Eu não duvido que a expressão com a própria densidade normal e eu também não tenho dúvida de que se pode levar o produto para fatores mais simples devido à independência. Duvido que as pessoas derivem essa expressão. Parece haver um zoológico inteiro de suposições (parcialmente incorretas) sobre a entrada e, em quase todos os lugares, fica excluída a etapa crítica (namyle como derivar o produto de densidades normais) em que é necessário usar as suposições corretas :-(

O que eu acho natural assumir é o seguinte: Recebemos um conjunto de treinamento fixo e assumimos que(xi,yi)i=1,2,...,n

  1. os pares no conjunto fixo de treinamento de comprimento vêm de variáveis ​​aleatórias que são distribuídas iid(xi,yi)n(Xi,Yi)
  2. Yi=β0Xi+ϵi
  3. o são variáveis ​​aleatórias unidimensionais do iid, cada uma distribuída como com conhecido (para simplificar) (talvez deva-se assumir algo sobre a densidade condicional aqui? As pessoas parecem não saber o que realmente assumir aqui ...)ϵiN(0,σ)σfϵi|Xi

Deixe e deixe . Agora, o objetivo é determinar a densidade condicional . Claramente, Y=(Y1,...,Yn)X=(X1,...,Xn)fY|X=f(Y,X)fX

fY|X=i=1nfYi|Xi

Questão:

Como proceder a partir daqui?

Não vejo como as suposições fornecem informações sobre ou sobre então simplesmente não consigo calcular essa quantidade . Além disso, algumas pessoas podem pensar que e normalmente distribuídos (ou normalmente distribuídos) significa que também é normalmente distribuído, mas ...f(Yi,Xi)fXifYi|Xi=f(Yi,Xi)fXiYi=β0Xi+ϵiϵiϵi|XiYi|X

Há uma instrução para variáveis ​​aleatórias distribuídas normalmente, mas é assim: Se é normalmente distribuído e são matrizes fixas, então é normalmente distribuído novamente. No caso acima, é que não é uma matriz constante.XA,BAX+BBβ0Xi

Outras fontes parecem assumir que é normalmente distribuído imediatamente. Isso parece ser uma suposição estranha ... como poderíamos testar isso em um conjunto de dados real?fYi|Xi

Saudações + obrigado,

FW

Fabian Werner
fonte
Há problemas na sua configuração. Por exemplo, a declaração "variáveis ​​aleatórias que são iid distribuídas" geralmente está incorreta. No mínimo, o geralmente tem meios diferentes, portanto, eles não são considerados apenas por esses motivos. (Xi,Yi)Xi
Aksakal
Embora você afirme que não assumiu nada sobre a distribuição conjunta, claramente fez uma suposição extremamente forte sobre isso em (2) e (3).
whuber
@ whuber: a questão não é se uma regressão linear é um bom modelo ou não ... mesmo ao computar um SVM, você faz implicitamente suposições muito fortes sobre as distribuições ... pois você não está seguindo o caminho bayesiano para esconder isso no fórmulas embora. A questão é: dado que Regressão Linear é um bom modelo, como eu realmente preparar a fórmula para calcular os parâmetros :-)
Fabian Werner
@Aksakal: Eu não entendo o que você está falando, me desculpe ... Esta parece ser uma discussão bastante filosófica: os têm a mesma média, são idênticos em quase todas as configurações de aprendizado de máquina. O que você quer dizer com "eles não têm a mesma média"? Xi
Fabian Werner
@Aksakal: Por exemplo: em um conjunto de pessoas escolhidas aleatoriamente, a idade de um indivíduo fixo depende da idade dos outros? Quase como a chance de que você selecionar membros de uma mesma família é pequena ...
Fabian Werner

Respostas:

3

A principal suposição para derivar é que o ruído é independente da entrada, ou seja, é independente de . Você não precisa saber ou assumir nada sobre a distribuição do .fYi|XiϵiXiXi

Você começa com:

fYi|Xi(x,y)=p(Yi=y|Xi=x)=p(β0x+ϵi=y|Xi=x)=p(ϵi=yβ0x|Xi=x)

Agora, a suposição de independência é usada, uma vez que é independente de , sua densidade dada um valor de é simplesmente sua densidade:ϵiXiXi

p(ϵi=yβ0x|Xi=x)=p(ϵi=yβ0x)=...e(yβ0x)2/2σ2

Como alternativa, você poderia dizer que a distribuição do ruído condicionalmente aXi é normal com uma variação constante (e média 0), dado qualquer valor de . Isso é o que realmente importa. Mas isso é estritamente equivalente à suposição usual:Xi

  • ϵi é independente deXi
  • ϵi é normalmente distribuído (com média 0)
Benoit Sanchez
fonte
Muito boa resposta, obrigado !!! No entanto, ainda estou lutando com o seguinte: como você conclui que , ou seja, por que você acredita que condicionar uma variável aleatória no cenário de densidades (valores não condicionais esperados e outras coisas) é apenas substituir pelo valor concreto? p(ϵ=yβ0X|X=x)=p(ϵ=yβ0x|X=x)
Fabian Werner
É mais fácil ver com variáveis ​​discretas, pois você lida diretamente com probabilidades condicionais simples de eventos. . Finalmente, basta observar que, como eventos (conjuntos), . É apenas lógica. A mesma idéia vale para as densidades. P(Y=f(X)|X=x)=P(Y=f(X) and X=x)/P(X=x)(Y=f(X) and X=x)=(Y=f(x) and X=x)
Benoit Sanchez
Finalmente, sim, funciona como substituição.
Benoit Sanchez
2

Graças à resposta de Benoit Sanchez , finalmente entendi (mas fiquei preso no caminho errado de uma regra de substituição para densidades condicionais). A resposta é a seguinte:

É preciso assumir que

  1. Os pares são provenientes de variáveis ​​aleatórias modo que as variáveis são independentes(xi,yi)(Xi,Yi)Zi=(Xi,Yi)
  2. Yi=β0Xi+ϵi
  3. O é iid. distribuídoϵiN(0,σ)
  4. ϵi é independente do (o erro não aumenta ou diminui com o recurso, mas não está relacionado a ele)Xi
  5. X=(X1,...,Xn) e têm uma densidade comum . Em particular, todos os têm densidades comuns .Y=(Y1,...,Yn)fX,Y(Xi,Yi)fXi,Yi

É necessário a seguinte observação simples: Dadas variáveis ​​aleatórias com valor real com densidade comum e bijeção modo que e sejam diferenciáveis, então ou seja, a densidade da variável aleatória transformada é a densidade antiga avaliada em um ponto transformado.nZ1,...,ZnfZ1,...,ZnΦ:RnRnΦΦ1

fΦ(Z1,...,Zn)(z1,...,zn)=|det(Φ1)|fZ1,...,Zn(Φ1(z1,...,zn))

A observação principal é que a variável aleatória bidimensional é uma transformação simples de , a saber onde . Temos . Sua matriz diferencial é que é determinante.(Yi,Xi)(ϵi,Xi)

(Yi,Xi)=Φ(ϵi,Xi)
Φ(e,x)=(e+β0x,x)Φ1(y,x)=(yβ0x,x)
Φ1=(1β001)

Agora aplicamos a observação a esta situação e obtemos

fYi,Xi(y,x)=fΦ(ϵi,Xi)(y,x)=1fϵi,Xi(Φ1(y,x))=fϵi,Xi(yβ0x,x)

Agora é independente de por suposição, portanto, ou melhor, e a partir disso (e de pelo pressuposto de não-dependência) obtém-se as equações de probabilidade usuais.ϵiXi

fYi,Xi(y,x)=fϵi(yβ0x)fX(x)
fYi|Xi(y|x)=fϵi(yβ0x)fX(x)fX(x)=fϵi(yβ0x)
fY,X=ifYi,Xi

Eu estou feliz agora :-)

Fabian Werner
fonte