Por que estimamos a média usando o MLE quando já sabemos que a média é a média dos dados?

11

Encontrei um problema no livro didático para estimar a média. O problema do livro é o seguinte:

Suponha que pontos de dados, , ,. . . , x_N , foram gerados por um pdf gaussiano unidimensional de média desconhecida, mas de variação conhecida. Derivar a estimativa ML da média.x 1 x 2 x NNx1x2xN

Minha pergunta é: por que precisamos estimar a média usando o MLE quando já sabemos que a média é a média dos dados? A solução também diz que a estimativa do MLE é a média dos dados. Preciso executar todas as etapas cansativas de maximização do MLE para descobrir que a média não passa de média dos dados, ou seja, (x1+x2++xN)/N ?

Niranjan Kotha
fonte
10
Você pode ficar confuso com dois significados distintos da palavra "dizer". Nesta pergunta, você o utiliza para se referir a (a) um parâmetro de uma família de distribuições gaussianas e (b) uma estatística que pode ser calculada a partir de dados. Você pode explorar o que este site tem a dizer sobre o MLE e os parâmetros .
whuber
1
Que tal fornecer a referência para o livro que você cita?
Xian

Respostas:

13

Por que precisamos estimar a média usando o MLE quando já sabemos que a média é a média dos dados?

O problema do livro de texto afirma que é de Eles informam que é conhecido, mas precisa ser estimado. x 1x1,x2,,xN σμ

x12πσe(xμ)22σ2
σμ

É realmente óbvio que uma boa estimativa ?!μ^=x¯

Aqui, .x¯=1Ni=1Nxi

Não era óbvio para mim e fiquei bastante surpreso ao ver que, na verdade, é uma estimativa do MLE.

Além disso, considere o seguinte: e se fosse conhecido e desconhecido? Nesse caso, o estimador MLE éσ σ 2 = 1μσ

σ^2=1Ni=1N(xx¯)2

Observe como esse estimador não é o mesmo que um estimador de variação de amostra! "Já sabemos" que a variação da amostra é dada pela seguinte equação?

s2=1N1i(xx¯)2
Aksakal
fonte
nitpicky pet peeve: não é a variação da amostra, é. σ 2s2σ^2
Cliff AB
1
@CliffAB Acho que não há falta de suporte para chamar "a variação de amostra". Apenas como exemplo, a página da Wikipedia sobre a correção de Bessel chama assim. Muitos livros também. Eu preferiria me apoiar na sua terminologia, mas acho que provavelmente é muito forte dizer que não é a variação da amostra atualmente - a terminologia é muito difundida, provavelmente mais amplamente usada do que chamar com esse nome s 2 N - 1 s 2 NsN12sN12sN2
Glen_b -Reinstala Monica 9/02
1
@Glen_b Eu fui chamado para a "variação da amostra" (como em "variação da amostra, por si só") e a variação da população "(estimada)" (como em estimativa imparcial , pois, como demonstra este post, também é um estimador útil). Mas fiz uma "enquete" (não aleatória) de livros e manuais de calculadora há alguns anos e achei meu uso fortemente em minoria, embora tenha encontrado muitos exemplos de ambos. Não sei se isso é uma tendência. [Além disso, e simples e antigos são irritantemente ambíguos às vezes ... eu aprecio o e o !] s 2 N - 1 s N s σ N N - 1sN2sN12sNsσ^NN1
Silverfish
@CliffAB, vi usado muito em econometria para uma variação de amostra e para parâmetros populacionais, por exemplo, em Greene "Econometric Analysis". σ 2s2σ2
Aksakal
1
@CliffAB, eu não fiz a terminologia, mas talvez a lógica da econometria tenha sido a de que sempre há mais de um estimador de qualquer coisa, incluindo a variação. Portanto, não seria específico o suficiente, parece referir-se a qualquer número de estimador que alguém pudesse imaginar, enquanto tem um significado específico dos desvios médios ao quadrado. Agora, no contexto do OLS , em que é o número de parâmetros. Como você vê, nem sempre é , portanto, mesmo essa notação não é absolutamente específica, mas presume-se que ajustemos o número de parâmetros. s2s2=E'eσ^2s2 kN-1s2=eeNkkN1
Aksakal
8

Neste caso, a média de sua amostra acontece também ser o estimador de máxima verossimilhança. Portanto, ao fazer todo o trabalho, o MLE parece um exercício desnecessário, pois você volta à sua estimativa intuitiva da média que você usaria em primeiro lugar. Bem, isso não foi "apenas por acaso"; isso foi escolhido especificamente para mostrar que os estimadores de MLE geralmente levam a estimadores intuitivos.

Mas e se não houvesse um estimador intuitivo? Por exemplo, suponha que você tenha uma amostra de variáveis ​​aleatórias gama iid e esteja interessado em estimar a forma e os parâmetros de taxa. Talvez você possa tentar raciocinar um estimador a partir das propriedades que conhece sobre as distribuições Gamma. Mas qual seria a melhor maneira de fazer isso? Usando alguma combinação da média estimada e variância? Por que não usar a mediana estimada em vez da média? Ou o log-mean? Tudo isso pode ser usado para criar algum tipo de estimador, mas qual será um bom?

Como se vê, a teoria do MLE nos fornece uma ótima maneira de obter uma resposta sucinta a essa pergunta: pegue os valores dos parâmetros que maximizam a probabilidade dos dados observados (o que parece bastante intuitivo) e use isso como sua estimativa. De fato, temos uma teoria que afirma que, sob certas condições, esse será aproximadamente o melhor estimador. Isso é muito melhor do que tentar descobrir um estimador exclusivo para cada tipo de dados e, em seguida, dedicar muito tempo a se preocupar se é realmente a melhor escolha.

Em resumo: embora o MLE não forneça novas informações no caso de estimar a média dos dados normais , em geral é uma ferramenta muito, muito útil.

Cliff AB
fonte
2

É uma questão de vocabulário confuso, como ilustrado por essas citações, direto do google:


substantivo médio : média; substantivo plural: médias

  1. um número que expressa o valor central ou típico em um conjunto de dados, em particular o modo, mediana ou (mais comumente) a média, que é calculada dividindo a soma dos valores no conjunto pelo número. "a proporção de pessoas com mais de 60 anos está acima da média da UE de 19%" sinônimos: média, mediana, moda, ponto médio, centro

Não é a melhor definição, eu concordo! Especialmente quando sugerir significa como sinônimo. Eu acho que a média é mais apropriada para conjuntos de dados ou amostras como em e não deve ser usada para distribuições, como em . μN(μ,σ²)x¯μN(μ,σ²)

significar

Em matemática, a média tem várias definições diferentes, dependendo do contexto.

Em probabilidade e estatística, o valor médio e o esperado são usados ​​como sinônimos para se referir a uma medida da tendência central, seja de uma distribuição de probabilidade ou da variável aleatória caracterizada por essa distribuição. No caso de uma distribuição de probabilidade discreta de uma variável aleatória X, a média é igual à soma de todos os valores possíveis ponderados pela probabilidade desse valor; isto é, é calculado pegando o produto de cada valor possível x de X e sua probabilidade P (x) e adicionando todos esses produtos juntos, resultando em .μ=xP(x)

Para um conjunto de dados, os termos média aritmética, expectativa matemática e às vezes média são usados ​​como sinônimos para se referir a um valor central de um conjunto discreto de números: especificamente, a soma dos valores divididos pelo número de valores. A média aritmética de um conjunto de números é normalmente indicada por , pronunciada "x bar". Se o conjunto de dados se basear em uma série de observações obtidas por amostragem de uma população estatística, a média aritmética será denominada média da amostra (denotada ) para distingui-la da média da população (denotada ou ) .ˉ x ˉ x μ μ xx1,x2,...,xnx¯x¯μμx

Conforme sugerido por esta entrada da Wikipedia , mean se aplica a distribuições e amostras ou conjuntos de dados. A média de um conjunto de dados ou amostra também é a média da distribuição empírica associada a essa amostra. A entrada também exemplifica a possibilidade de confusão entre os termos, pois fornece a média e a expectativa como sinônimos.

expectativa substantivo: expectativa; substantivo plural: expectativas

  1. Matemática: outro termo para o valor esperado.

Eu restringiria o uso da expectativa a um objeto obtido por uma integral, como em mas a média de uma amostra é mais uma vez a expectativa associada à distribuição empírica derivada desta amostra.

E[X]=XxdP(x)
Xi'an
fonte