Quando não posso substituir uma variável aleatória por sua média?

10

Uma simplificação frequente na modelagem e simulação é substituir uma variável aleatória pelo seu valor médio.

Quando essa simplificação levaria à conclusão errada?

Ankit Goyal
fonte
2
"Var" significa variável ou variação ou Valor em risco ?
Henry
3
Seria divertido iniciar um serviço que paga pela assinatura do Netflix de seus membros. Cobramos apenas , ondeXé seleccionado aleatoriamente no domínio[-100,100], então, sabe, livre Netflix! Mais tarde, ofereceremos a alguns clientes a opção de pagarx2USD|x| USDmonthx[100,100] . x2 USDmonth
25417 Nat
3
Bem, em um caso muito simples, se levarmos ao extremo, podemos perder praticamente todas as informações importantes. Considere uma regressão de Y em X, onde substituímos Y e X pela média. Qualquer informação sobre a inclinação agora está perdida.
Dason 25/10
11
Você está perguntando sobre a substituição de valores ausentes ou uma substituição de uma variável aleatória em um contexto específico (por exemplo, fazer previsões baseadas em um modelo de efeitos aleatórios)?
IWS

Respostas:

20

Se você substituir um valor ausente por alguma estimativa pontual, desconsiderará toda a sua variabilidade. Portanto, você não propagará toda a variabilidade original para o seu modelo. Suas estimativas de parâmetros parecerão ter muito baixos . Se você fizer inferência, seus valores de p terão um viés baixo. Seu s será muito estreito. Se você fizer previsões, seus serão muito estreitos.

Geral: você terá certeza das suas conclusões.

Stephan Kolassa
fonte
2
Boa resposta! Pense desta maneira: Uma variável aleatória tem uma distribuição. Pode ser inclinado para a esquerda, para a direita. Posso ser bi-modal, etc. Ao reduzir a variável para o valor médio, você está removendo toda essa informação extra (incerteza) e substituindo uma distribuição (intervalos) por uma estimativa de ponto único.
Elevendollar
11
Se você substituir um valor ausente por alguma estimativa pontual, também estará assumindo que os dados estão ausentes aleatoriamente. O valor médio da variável aleatória pode não ser igual ao valor médio dos dados quando está ausente.
Neil G
@NeilG desculpe nitpick, mas substituir um valor ausente por sua média não significa diretamente supor que os dados estejam ausentes aleatoriamente. Especialmente porque a terminologia - um tanto confusa - em torno dos dados ausentes considera 'ausente aleatoriamente' como dados que estão ausentes aleatoriamente condicionais em outros, mas dados conhecidos ( en.wikipedia.org/wiki/Missing_data ). Na IMO, a maneira como os dados são substituídos não implica nada no raciocínio por trás deles. Esse raciocínio deve ser explicitado e levar à maneira apropriada de lidar com os dados ausentes. Dito isto, concordo plenamente com a resposta de Stephan.
IWS
@IWS É bom que os indicadores de falta estejam condicionados aos dados observados. Ausência aleatória significa que os indicadores de falta dependem dos dados não observados. Se você substituir a variável com seu valor médio condicional à observação, isso pode não ser o mesmo que seu valor médio incondicional - a menos que os dados estejam ausentes aleatoriamente.
Neil G.
@NeilG Você não quer dizer 'falta completamente ao acaso', quando escreve 'falta ao acaso' na frase final do seu último comentário? Nesse caso, estamos de acordo, mas eu estava apenas falando sobre terminologia. (veja a página de wiki eu coloquei no meu comentário acima, eu sempre fui ensinado, ler e usou essa terminologia)
IWS
13

Além dos pontos de Stephan:

  • Em quase qualquer aplicação em que você esteja interessado em funções não lineares da variável aleatória, a substituição da média geralmente introduzirá viés e possivelmente resultados contraditórios. A velocidade média e a massa média de uma partícula geralmente não serão consistentes com a energia cinética média, porque a energia escala com V ^ 2.
  • O valor médio pode até não ser um resultado possível para a variável aleatória. Se meus resultados possíveis são 0 "paciente morre" e 1 "paciente vive", provavelmente não é útil ter um modelo que descreva o paciente como 0,1 "quase morto, mas levemente vivo".
Geoffrey Brent
fonte
11
Obrigatório: youtube.com/watch?v=xbE8E1ez97M
Alexis
11
@ Alexis, mas é claro!
Geoffrey Brent
0

Um exemplo da vida real (relacionado às duas respostas que você obteve), nos mercados financeiros. O preço de uma opção é baseado na probabilidade de que o preço de um ativo fique acima (ou abaixo) de um determinado nível.

Por exemplo, o preço de uma opção para comprar um ativo a um preço 100 quando o valor esperado do ativo é 80. Se você substituir a variável aleatória (o preço do ativo) por sua média, obterá um preço zero (como você nunca compraria 100 por um ativo que custa 80). Quando você leva em consideração a estocástica do ativo (e é a maneira correta de fazê-lo), obtém um preço positivo, pois há alguma probabilidade de que o preço do ativo ultrapasse 100.

Juan Ignacio Gil
fonte