Como um estimador que minimiza uma soma ponderada de tendência e variação ao quadrado se encaixa na teoria da decisão?

10

Ok - minha mensagem original falhou em obter uma resposta; então, deixe-me colocar a questão de forma diferente. Começarei explicando meu entendimento sobre estimativa de uma perspectiva teórica da decisão. Não tenho treinamento formal e não me surpreenderia se meu pensamento fosse defeituoso de alguma forma.

Suponha que tenhamos alguma função de perda . A perda esperada é o risco (freqüentista):L(θ,θ^(x))

R(θ,θ^(x))=L(θ,θ^(x))L(θ,θ^(x))dx,

onde é a probabilidade; e o risco de Bayes é o risco freqüentista esperado:L(θ,θ^(x))

r(θ,θ^(x))=R(θ,θ^(x))π(θ)dxdθ,

onde π(θ) é o nosso prior.

Em geral, encontramos o θ^(x) que minimiza r tudo isso funciona bem; além disso, o teorema de Fubini se aplica e podemos reverter a ordem da integração, para que qualquer θ^(x) que minimiza r seja independente de todos os outros. Dessa forma, o princípio da probabilidade não é violado e podemos nos sentir bem por ser bayesiano e assim por diante.

Por exemplo, dada a perda de erro ao quadrado familiar, nosso risco freqüente é o erro quadrado médio ou a soma de viés e variância ao quadrado e o risco de Bayes é a soma esperada de viés e variância ao quadrado, dada a nossa anterior - ou seja, a perda esperada a posteriori.L(θ,θ^(x))=(θθ^(x))2,

Isso me parece sensato até agora (embora eu possa estar completamente errado); mas, de qualquer forma, as coisas fazem muito menos sentido para alguns outros objetivos. Por exemplo, suponha que, em vez de minimizar a soma do desvio e da variância ao quadrado igualmente ponderados , eu queira minimizar uma soma desigualmente ponderada - ou seja, eu quero o que minimize:θ^(x)

(E[θ^(x)]θ)2+kE[(θ^(x)E[θ^(x)])2],

onde é alguma constante real positiva (diferente de 1).k

Normalmente, refiro-me a uma soma como essa como uma "função objetivo", embora possa estar usando esse termo incorretamente. Minha pergunta não é sobre como encontrar uma solução - encontrar que minimiza essa função objetivo é factível numericamente - em vez disso, minha pergunta é dupla:θ^(x)

  1. Essa função objetiva pode se encaixar no paradigma da teoria da decisão? Caso contrário, existe outra estrutura na qual ela se encaixa? Se sim, como? Parece que a função de perda associada seria uma função de , e , que - por causa da expectativa - é ( Eu acho que) não é adequado.θ ( x ) E [ θ ( x ) ]θθ^(x)E[θ^(x)]

  2. Essa função objetivo viola o princípio da probabilidade, porque qualquer estimativa depende de todas as outras estimativas de (mesmo as hipotéticas). No entanto, há ocasiões em que é desejável negociar um aumento na variação de erro por uma redução no viés. Dado esse objetivo, existe uma maneira de conceituar o problema de forma que ele se enquadre no princípio da probabilidade? θ (xij)θ^(xj)θ^(xij)

Estou assumindo que não compreendi alguns conceitos fundamentais sobre teoria / estimativa / otimização da decisão. Agradecemos antecipadamente por todas as respostas e, por favor, assuma que não sei nada, pois não tenho treinamento nesta área ou matemática de maneira mais geral. Além disso, quaisquer referências sugeridas (para o leitor ingênuo) são apreciadas.

user153935
fonte

Respostas:

2

Esta é uma pergunta bastante interessante e nova! Em um nível formal, usando a função de risco freqüente significa usar (por exemplo) a função de perda definida como desde não há razão para proibir que expectativas como apareçam em uma função de perda. O fato de dependerem de toda a distribuição de é um recurso que pode parecer estranho, mas toda a distribuição é definida como uma função de e a perda resultante é, portanto, uma função deL ( θ , θ ) = ( E θ [ θ ( X ) ] - θ ) 2 +

(Eθ[θ^(X)]θ)2+kEθ[(θ^(X)E[θ^(X)])2],
E θ [ θ ( X ) ] θ ( X ) θ θ θ θ ( X )
L(θ,θ^)=(Eθ[θ^(X)]θ)2+k(θ^Eθ[θ^(X)])2
Eθ[θ^(X)]θ^(X)θθ , e a distribuição de .θ^θ^(X)

Posso prever perfeitamente uma objeção, considerando que uma função de perda é, em princípio, uma função de um estado da natureza, , e de uma ação, , ocorrendo, por exemplo, no espaço de parâmetros , portanto, sem nenhuma suposição distributiva. O que é correto do ponto de vista da teoria dos jogos. Mas, considerando que essa é uma teoria estatística da decisão, em que uma decisão dependerá da observação de uma variável aleatória , não vejo razão para que a generalização em que a função de perda dependa da distribuição de , indexada porθ δ Θ δ x X X θL(θ,δ)θδΘδxXXθ, não pôde ser considerado. O fato de poder violar o princípio da probabilidade não preocupa diretamente a teoria da decisão e não impede a derivação formal de um estimador de Bayes.

Xi'an
fonte