Existe uma distribuição de junta paramétrica tal que e são uniformes e

7

Existe uma distribuição de junta paramétrica tal que X e Y sejam uniformes em [0,1] (isto é, uma cópula) e E[Y|X=x] é linear (com o que quero dizer afim) em x ? Ou seja,

E[Y|X=x]=a+bx
enquanto X e Y são marginalmente Uniform[0,1] .

É claro que eu poderia deixar X e Y independentes, nesse caso E[Y|X=x]=0.5 . Existem cópulas paramétricas simples que satisfazem minhas restrições sem que as duas variáveis ​​sejam independentes? (Outro caso de borda seria Y=X e E[Y|X=x]=x .)

Note-se que a a e b em E[Y|X=x]=a+bx possui apenas um grau de liberdade, uma vez que E[Y]=0.5=E[E[Y|X]]=a+0.5b .


Alguma motivação do mundo real para tornar isso menos abstrato: a pesquisa de Chetty et al. Sobre mobilidade intergeracional de renda encontra (aproximadamente) cópulas lineares de renda (isto é, uma relação aproximadamente linear entre a classificação de renda dos pais e a renda dos filhos). Consulte http://www.rajchetty.com/chettyfiles/mobility_trends_published.pdf (Figura 1. Classificação da renda infantil versus classificação da renda dos pais por coorte de nascimento) e http://www.rajchetty.com/chettyfiles/mobility_geo.pdf (Figura II : Associação entre as classificações percentuais das crianças e dos pais).

Adrian
fonte
4
A relação trivial (que eu não acho que você quiser) é ter . (graças a @whuber por apontar meu exemplo anterior não era uma cópula)X=Y
Cliff AB

Respostas:

4

Podemos desenvolver famílias paramétricas ricas a partir da solução trivial com cópula , o caso de correlação perfeita (positiva) e sua contrapartida para uma correlação negativa perfeita. Concentrar a probabilidade ao longo do segmento de linha que liga a com fornece a cópulaF(x,y)=min(x,y)(0,α)(1,β)β>α

F(x,y;α,β)={xy,0y<α or β<y1βx,x(βα)yααx+yαotherwise.

Uma cópula semelhante surge quando , que também designarei .β<αF(x,y;α,β)

Figura: plotagem 3D desta cópula

Pense nisto como misturas: quando , existem componentes uniformes nos retângulos horizontais , , e no retângulo central existe uma correlação perfeita (cuja distribuição é a de para uma variável uniformemente distribuída ) Essa concepção de facilita o cálculo da regressão: é uma soma ponderada das três médias condicionais,β>α[0,1]×[0,α][0,1]×[β,1][0,1]×[α,β](U,α+(βα)U)UF

E(YX)=α(α2)+(βα)(α+(βα)X)+(1β)(1+β2).

Evidentemente, isso é linear em : a interceptação é igual a e a inclinação é vezes o sinal de . Além disso, foi construído para ter marginais uniformes.X(1+(βα)2)/2(βα)2βα

Para criar uma família paramétrica, escolha qualquer distribuição paramétrica para com o parâmetro . Seja a função de distribuição. Descreve uma mistura de via integração:(α,β)θG(α,β;θ)F(;α,β)

F~(x,y;θ)=F(x,y;α,β)dG(α,β;θ)

é a função de distribuição (cópula). Como cada possui marginais uniformes, o mesmo acontece com . Além disso, sua regressão é linear porqueF(;α,β)F~(;θ)

EF~(;θ)(YX)=EF(;α,β)(YX)dG(α,β;θ)=((1+(βα)2)/2+sgn(βα)(βα)2X)dG(α,β;θ)=(1+(βα)2)/2dG(α,β;θ)+sgn(βα)(βα)2dG(α,β;θ)X=EG(;θ)((1+(βα)2)/2)+EG(;θ)(sgn(βα)(βα)2)X.

Isso mostra como o intercepto e a inclinação são as expectativas da interceptação e da inclinação (em relação a ), fornecendo informações úteis para selecionar as famílias apropriadas .GG(;θ)

Números dos resultados da simulação

Esses gráficos documentam uma simulação de uma dessas famílias. Aqui, foi extraído de uma distribuição Beta e foi extraído independentemente de uma distribuição Beta . A primeira coluna mostra histogramas das realizações desses parâmetros. A segunda coluna mostra histogramas das distribuições marginais de e : elas são satisfatoriamente próximas de uniformes. A coluna mais à direita mostra um subconjunto aleatório dos 100.000 valores simulados, juntamente com uma estimativa de sua regressão (linha vermelha) e uma aproximação à regressão teórica (linha pontilhada preta): eles concordam estreitamente. A regressão estimada foi obtida calculando-se as médias deα(5,1)β(3,10)XYXe dentro das janelas do , depois suavizando o traço com Loess.YX

(A linha de regressão "teórica" ​​é apenas uma aproximação obtida substituindo e nas fórmulas de expectativa por suas expectativas. As fórmulas exatas são fáceis de resolver nesse caso, mas são longas e complicadas de codificar.)αβ

O Rcódigo que produziu essa figura pode ser facilmente usado para estudar outras famílias .G(;θ)

#
# Draw `n` variates from the mixture copula.
# `alpha` and `beta` are intended to be realizations of G(;theta).
#
runif.xy <- function(n, alpha=0, beta=1) {
  a <- pmin(alpha, beta)
  b <- pmax(alpha, beta)
  xy <- matrix(runif(2*n), nrow=2)              # Start with a uniform distribution
  i <- xy[2,] > a & xy[2,] < b                  # Select the middle rectangle
  xy[2, i] <- (xy[1,]*(beta - alpha) + alpha)[i]# Create perfect correlation
  return(xy)
}
#
# Specify the parameters ("theta").
#
a.alpha <- 5
b.alpha <- 1
a.beta <- 3
b.beta <- 10
#
# Draw the slope `beta` and intercept `alpha` from G(;theta).
#
n.sim <- 1e5
alpha <- rbeta(n.sim, a.alpha, b.alpha)
beta <- rbeta(n.sim, a.beta, b.beta)
#
# Draw (X,Y) from the mixture.
#
sim <- runif.xy(n.sim, alpha, beta)
#
# Plot histograms of alpha, beta, X, Y.
#
par(mfcol=c(2,3))
hist(alpha); abline(v=a.alpha/(a.alpha+b.alpha), col="Red", lwd=2)
hist(beta); abline(v=a.beta/(a.beta+b.beta), col="Red", lwd=2)
hist(sim[1,], main="X Marginal", xlab="X")
hist(sim[2,], main="Y Marginal", xlab="Y")
#
# Plot the simulation and its regression curve.
#
i <- sample.int(n.sim, min(5e3, n.sim)) # Limit how many points are shown
plot(t(sim[, i]), asp=1, pch=19, col="#00000002", main="Simulation",
     xlab="X", ylab="Y")

library(zoo)
i <- order(sim[1,])
x <- as.vector(rollapply(ts(sim[1, i]), ceiling(n.sim/100), mean))
y <- as.vector(rollapply(ts(sim[2, i]), ceiling(n.sim/100), mean))
lines(lowess(y ~ x), col="Red", lwd=2)
#
# Overplot the theoretical regression curve.
#
a <- a.alpha / (a.alpha + b.alpha) # Expectation of `alpha`
b <- a.beta / (a.beta + b.beta)    # Expectation of `beta`
intercept <- (1 + (b-a)^2)/2
slope <- (b - a)^2 * sign(b-a)
abline(c(intercept, slope), lty=3, lwd=3)
whuber
fonte