Estimador de James-Stein: Como Efron e Morris calcularam

18

Eu tenho uma pergunta sobre o cálculo do fator de encolhimento de James-Stein no artigo de 1977 da Scientific American por Bradley Efron e Carl Morris, "Paradoxo de Estatísticas de Stein" .

Reuni os dados para os jogadores de beisebol e eles são fornecidos abaixo:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45é a média após em morcegos e é denotada como no artigo. é o final da média da temporada.y45yavgSeason

O estimador de James-Stein para a média ( ) é dado por e o fator de retração é dado por (página 5 do artigo da Scientific American 1977 ) z = ˉ y + c ( y - ˉ y ) c c = 1 - ( k - 3 ) σ 2z

z=y¯+c(y-y¯)
c
c=1-(k-3)σ2(y-y¯)2,

onde é o número de meios desconhecidos. Aqui existem 18 jogadores, então . Eu posso calcular usando valores. Mas não sei calcular . Os autores dizem que para o conjunto de dados fornecido.k = 18 ( y - ˉ y ) 2 σ 2 c = 0,212kk=18(y-y¯)2avg45σ2c=0,212

Tentei usar e para mas eles não dão a resposta correta de σ 2 y σ 2 c = 0,212σx2σy2σ2c=0,212

Alguém pode ter a gentileza de me informar como calcular para esse conjunto de dados?σ2

Anand
fonte
1
Eu sei que MAD ( en.wikipedia.org/wiki/Median_absolute_deviation ) é muito usado para o encolhimento de wavelets.
Robin girard

Respostas:

19

O parâmetro é a variação comum (desconhecida) dos componentes do vetor, cada um dos quais assumimos estar normalmente distribuído. Para os dados de baseball temos 45 Y i ~ b i n o m ( 45 , p i ) , de modo que a aproximação normal para a distribuição binomial dá (tendo ^ p i = Y i )σ245YEubEunom(45,pEu)pEu^=YEu

p^Eunorm(meuman=pEu,vumar=pEu(1-pEu)/45).

Obviamente, neste caso, os desvios não são iguais, ainda se tivessem sido igual a um valor comum, depois, pode estimar-o com o estimador pool σ 2 = p ( 1 - P ) onde P é a grande média p =1

σ^2=p^(1-p^)45,
p^ Parece que foi isso que Efron e Morris fizeram (no artigo de 1977).
p^=11845Eu=11845YEu=Y¯.

Você pode verificar isso com o seguinte código R. Aqui estão os dados:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

e aqui está a estimativa para :σ2

s2 <- mean(y)*(1 - mean(y))/45

que é σ 20,004332392 . O fator de contração no papel é entãoσ^20,004332392

1 - 15*s2/(17*var(y))

c0.2123905k-2k-3


fonte
Excelente explicação, adoro a aproximação normal do binômio.
Chamberlain Foncha
14

c=0,212

Efron, B. & Morris, C. (1975). Análise de dados usando o estimador de Stein e suas generalizações. Jornal da Associação Estatística Americana, 70 (350), 311-319 (link para pdf)

ou mais detalhado

Efron, B. & Morris, C. (1974). Análise de dados usando o estimador de Stein e suas generalizações. R-1394-OEO, The RAND Corporation, março de 1974 (link para pdf) .

Na página 312, você verá que a Efron & Morris usa uma transformação de arco-pecado desses dados, para que a variação das médias de rebatidas seja aproximadamente de unidade:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

z

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

Portanto, esses são os valores do estimador de Stein. Para Clemente, obtivemos .290, bastante próximo do .294 do artigo de 1977.

Wolfgang
fonte