Qual é a diferença entre um estimador e uma estatística?

30

Aprendi que uma estatística é um atributo que você pode obter de amostras. Pegando muitas amostras do mesmo tamanho, calculando esse atributo para todas elas e plotando o pdf, obtemos a distribuição do atributo correspondente ou a distribuição das estatísticas correspondentes.

Também ouvi dizer que as estatísticas são feitas para serem estimadores. Como esses dois conceitos diferem?

gutto
fonte
2
Obrigado por todas as answears ... O conceito é muito mais claro para mim agora ..
Gutto

Respostas:

17

Definição

Da Wikipedia:

Uma estatística [...] é uma medida única de algum atributo de uma amostra (por exemplo, seu valor médio aritmético).

E

[A] n estimador é uma regra para calcular uma estimativa de uma dada quantidade [da distribuição subjacente] com base nos dados observados.

A diferença importante é:

  • Uma estatística é uma função de uma amostra.
  • Um estimador é uma função de uma amostra relacionada a alguma quantidade da distribuição .

(Para o que "Quantidade" significa, consulte a seção abaixo.)

Uma estatística não é um estimador

Um estimador é uma estatística com algo adicionado. Para transformar uma estatística em um estimador, basta especificar qual a quantidade alvo que deseja estimar. Isso é confuso, porque você não adiciona nada "real" à estatística, mas apenas alguns pretendem.

Para ver que a diferença é importante, você tem que perceber que você não pode calcular as propriedades de um estimador (eg preconceito , variância , etc.) para uma mera estatística. Para calcular o viés , você precisa encontrar a diferença entre o valor que sua estatística fornece e o valor verdadeiro. Somente um estimador vem com um "valor verdadeiro" que permite calcular um viés. Uma estatística é meramente uma função dos dados e não é certa nem errada.

Estimadores diferentes com base na mesma estatística

Você pode especificar quantidades-alvo diferentes para a mesma estatística, resultando em estimadores diferentes. Cada um desses estimadores tem seu próprio viés, embora todos sejam (com base no) mesmo valor, a mesma estatística.

  • Você pode usar a média da amostra como um estimador para a média da distribuição . Este estimador tem um viés zero .
  • Você também pode usar a média da amostra como um estimador para a variação da distribuição . Esse estimador é tendencioso para a maioria das distribuições.

Dizer "média da amostra é imparcial" não faz sentido. A média da amostra é imparcial quando você a usa para estimar a média da distribuição. Mas, ao mesmo tempo, é enviesado ao usá-lo para estimar a variação da distribuição.

Quantidades de distribuições e quantidades de amostras

Aqui, quantidade refere-se a alguma propriedade da distribuição, que geralmente é desconhecida e, portanto, precisa ser estimada. Isso contrasta com uma estatística , que é propriedade de uma amostra, por exemplo, a média da distribuição é uma quantidade da sua distribuição, enquanto a média da amostra é uma estatística (uma quantidade da sua amostra).

ziggystar
fonte
11
Não há nada manifestamente errado com essas citações, mas elas me deixam intrigado com o que exatamente se entende por "quantidade". Por exemplo, as cotações não parecem excluir a possibilidade de que uma "quantidade" seja outra estatística baseada nos mesmos dados ou talvez seja outra estatística baseada em um conjunto separado de dados semelhantes. (No último caso, a primeira estatística pode ser usada como preditor. No primeiro caso, não acho que exista um nome para ela, mas definitivamente não é "estimador".)
whuber
@whuber Ver edição. Inicialmente, eu gostaria de dar uma resposta curta ... :(
ziggystar 15/01
Presumivelmente, a mediana média e amostra de amostra só irá estimar o mesmo valor subjacente se a distribuição é aquele em que = mediana dizer ...
Stumpy Joe Pete
Minhas críticas fazem menos sentido à luz da sua edição. Eu estava apenas dizendo que em muitas distribuições mediana! = Média, para que a mediana da amostra e a média da amostra não convergam para o mesmo valor nesses casos (ou seja, não estime a mesma coisa).
Stumpy Joe Pete
11
@ Stumpy Eu acho que você tem um pequeno equívoco aqui. Não importa se a mediana e o significado "convergem" para a mesma coisa (ou para qualquer coisa). Para esclarecer isso, deixe-me ser um pouco ridículo: posso, se desejar, usar a variação da amostra para estimar a média. Não há absolutamente nenhuma restrição teórica - nem pode haver - que diga que eu não posso fazer isso. Meu procedimento atende a todas as partes da definição: a variação da amostra é realmente uma estatística e a média é uma propriedade da distribuição subjacente. Para as definições, é irrelevante que este seja (frequentemente) um procedimento terrível.
whuber
15

Esse tópico é um pouco antigo, mas parece que a Wikipedia pode ter alterado sua definição e, se for precisa, explica mais claramente para mim:

Um "estimador" ou "estimativa pontual" é uma estatística (ou seja, uma função dos dados) usada para inferir o valor de um parâmetro desconhecido em um modelo estatístico.

Portanto, uma estatística se refere aos dados em si e um cálculo com esses dados. Enquanto um estimador se refere a um parâmetro em um modelo.

Se eu entendi direito, a média é uma estatística e também pode ser um estimador. A média de uma amostra é uma estatística (soma da amostra dividida pelo tamanho da amostra). A média de uma amostra também é um estimador da média da população, assumindo que ela esteja normalmente distribuída.

Gostaria de perguntar ao @whuber e a outros que realmente conhecem esse material se a (nova?) Citação da Wikipedia é precisa.

Wayne
fonte
6
+1 Eu acho que você está basicamente certo. Você pode estar interessado em saber que o destino de um estimador não precisa necessariamente ser um "parâmetro" específico de um modelo: ele pode ser qualquer propriedade do modelo, como uma função de seus parâmetros. Por exemplo, não é um parâmetro para um modelo Normal ( µ , σ 2 ) , mas pode ser estimado. μ2(μ,σ2)
whuber
5

Como outras respostas dizendo que são iguais não dão nenhuma referência autorizada, deixe-me fazer duas citações do manual de inferência estatística de Casella e Berger:

Definição 5.2.1 Seja uma amostra aleatória de tamanho n de uma população e T ( x 1 , , x n ) seja uma função com valor real ou com valor vetorial cujo domínio inclua o espaço da amostra de ( X 1 , , X n ) . Então a variável aleatória ou o vetor aleatório Y = T ( X 1 , , X n ) é chamadoX1,,XnnT(x1,,xn)(X1,,Xn)Y=T(X1,,Xn)estatística . A distribuição de probabilidade estatística é chamada distribuição de amostragem de Y .YY

e

Definição 7.1.1 Um estimador de pontos é qualquer função de uma amostra; isto é, qualquer estatística é um estimador de pontos.W(X1,,Xn)

Estou não dizendo aqui que esta é a resposta definitiva para a questão, já que parecem concordar com as duas respostas mais upvoted que sugerem que há uma diferença, apenas dando uma referência que diz o contrário destacar que este não é um caso nítido.

Tim
fonte
4

"6" é um exemplo de um estimador. Diga que sua pergunta foi: "qual é a inclinação da melhor função linear que mapeia x para y?" Sua resposta pode ser "6". Ou pode ser . Ambos são estimadores. Qual é o melhor é deixado para você decidir. (XX)1XY

Um TA realmente bom uma vez me explicou o conceito de estimador dessa maneira.

Basicamente, um estimador é algo que você aplica aos dados para obter uma quantidade que você não conhece o valor. Você conhece o valor de uma estatística - é uma função dos dados sem "melhor" ou "ideal". Não existe o "melhor" meio. Existe apenas uma média.

Digamos que você tenha um conjunto de dados sobre o número de cabras pertencentes por pessoa e a felicidade de cada pessoa. Você está interessado em saber como a felicidade das pessoas muda com o número de cabras que elas possuem. Um estimador pode ajudá-lo a estimar esse relacionamento a partir de seus dados. Estatísticas são apenas funções dos dados que você possui. Por exemplo, a variação da propriedade da cabra pode ser igual a 7. A fórmula para calcular a variação seria idêntica entre cabras e torradeiras, ou se você está interessado em felicidade ou propensão a contrair câncer. Nesse sentido, todos os estimadores sensíveis são estatísticas.

generic_user
fonte
3

Pergunta interessante. Estimadores e estatísticas não precisam ser coisas diferentes. São conceitos diferentes.

Uma estatística é uma função (em termos gerais) na qual a entrada é dados (estatísticos). O efeito é que você obtém um resultado, geralmente um número, dessa estatística. Em um termo mais abstrato, uma estatística pode render mais de um número. A estatística depende dos dados, mas o procedimento é determinístico. Portanto, a estatística pode ser: "Soma todos os números e divida pela contagem" ou, no sentido mais amplo, "pegue os dados do PIB e prepare um relatório sobre ele".
No sentido estatístico, obviamente, estamos falando de uma função matemática como estatística.

O significado disso é que, se você conhece as propriedades dos dados inseridos (por exemplo, sendo uma variável aleatória), pode calcular as propriedades da sua estatística, sem realmente inserir dados empíricos.

Estimadores são estimadores por causa de sua intenção: estimar uma propriedade. Como se vê, algumas estatísticas são boas estimadoras.
Por exemplo, se você extrair pontos de dados de um conjunto de variáveis ​​iid, a média aritmética - uma estatística baseada nos dados que você extrai, provavelmente será um bom estimador para o valor esperado dessa distribuição. Mas, novamente, qualquer coisa que produza uma estimativa é um estimador.

Na prática, os estimadores que você usa serão estatísticas, mas há estatísticas que não são estimadores. Por exemplo, estatísticas de teste - embora se possa argumentar sobre a semântica dessa declaração e para piorar as coisas, uma estatística de teste pode não apenas ser, mas também incluir estimadores. Embora conceitualmente isso não tenha que ser o caso.

E, é claro, você pode ter estimadores que não são estatísticos, embora provavelmente não sejam muito bons em estimar.

EU SOU UM
fonte
11
2nnn+1
Sim, eu argumentaria que "escolher um valor" é a estatística determinística e tudo de antemão está relacionado à modificação da amostra que você escolheu. Então, novamente, como o "procedimento", se você quiser - é determinístico, posso apenas permitir elementos estocásticos como esse em minha definição de estatística ... É importante que os estimadores que não são estatísticos possam ser pelo menos aqueles que são independentes de qualquer dado. Por exemplo, o número "6" na resposta abaixo. Observe que eu não disse que os estimadores não estatísticos são necessariamente ruins.
IMA 17/01
11
Eu acho que talvez você esteja fazendo muitas distinções finas que são desnecessárias e, no final, complicam sua exposição. Por exemplo, "1/2" é um ótimo estimador do parâmetro de uma variável de Bernoulli (é minimax para perda quadrática); portanto, seria uma pena descartá-la apenas porque é independente dos dados. (Isso seria análogo a excluir quadrados como exemplos de retângulos na geometria euclidiana: você poderia fazer isso, mas isso dobraria o comprimento da maioria das declarações relativas às propriedades dos retângulos.) Da mesma forma, ajuda a não descartar estatísticas aleatórias.
whuber
Eu não acho que estamos realmente falando sobre a mesma coisa. Onde eu descarto alguma coisa? Se metade é um ótimo estimador, então é o caso. Eu simplesmente não acho que a maioria dos possíveis estimadores que não estão sendo estatísticos seja muito boa. Para uma variável Bernoulli "1/2" é boa. Mas - muitos outros estimadores da classe "Um número real" não são muito bons, você não concorda? No que diz respeito às estatísticas randomizadas ainda baseadas em dados - eu não descartei, pois ainda diria que você exigirá um procedimento determinístico. Mas admito que devo adicionar isso acima.
IMA
2

Eu acho que uma melhor compreensão sobre o que é uma amostra ajuda.

[Atualizado: Amostra é um conceito muito amplo, eu estava falando sobre "a amostra aleatória". Não sei se um estimador faz sentido ou não quando a amostra não é aleatória .]

da wikipedia :

Uma amostra aleatória é definida como uma amostra em que cada membro individual da população tem uma chance conhecida e diferente de zero de ser selecionado como parte da amostra.

nnnnn

Substituímos a amostra no estimador pelo valor da amostra. Nós obtemos um valor do estimador, esta é uma medida específica. E essa medida específica é uma estatística.

(Verifique este link para a definição de um estimador, a última frase revela por que estamos sempre confusos.)

alexyangfox
fonte
1

O objetivo deste artigo:

O que eu quero fazer aqui é fornecer as semelhanças e diferenças entre os dois conceitos intimamente relacionados, chamados "estatística" e "estimador". No entanto, não quero passar pelas diferenças entre um parâmetro e uma estatística, o que suponho que seja claro o suficiente para todos que estão lutando com as diferenças entre uma estatística e um estimador. Se não for o seu caso, primeiro você deve estudar as postagens anteriores e depois começar a estudá-las.

Relação:

Basicamente, qualquer função com valor real de variáveis ​​aleatórias observáveis ​​em uma amostra é chamada de estatística. Existem algumas estatísticas que, se forem bem projetadas e tiverem boas propriedades (por exemplo, consistência, ...), poderão ser usadas para estimar os parâmetros da distribuição subjacente da população. Portanto, as estatísticas são um conjunto grande e os estimadores são um subconjunto dentro do conjunto de estatísticas. Portanto, todo estimador é uma estatística, mas nem toda estatística é um estimador.

Semelhanças:

Falando das semelhanças, como mencionado anteriormente, ambas são funções de variáveis ​​aleatórias. Além disso, ambos têm distribuições chamadas "distribuições de amostragem".

Diferenças:

Falando das diferenças, elas são diferentes em termos de objetivos e tarefas. Os objetivos e as tarefas de uma estatística podem resumir as informações em uma amostra (usando estatísticas suficientes) e, algumas vezes, fazer testes de hipóteses etc. os parâmetros da população estudada. É importante mencionar que existe uma grande variedade de estimadores, cada um com sua própria lógica computacional, como MOMEs, MLEs, estimadores OLS e assim por diante. Outra diferença entre esses dois conceitos tem a ver com as propriedades desejadas. Enquanto uma das propriedades mais desejadas de uma estatística é "suficiência", as propriedades desejadas de um estimador são coisas como "consistência", "imparcialidade", "precisão" etc.

Cuidado:

Portanto, você precisa ter cuidado ao usar a terminologia corretamente ao lidar com estatísticas e estimadores. Por exemplo, não faz muito sentido falar sobre a parcialidade de uma mera estatística, o que não é de forma alguma um estimador, porque não há parâmetro envolvido nesse contexto para que possamos calcular o viés, e fale sobre isso. Portanto, você precisa ter cuidado com a terminologia!

A linha inferior:

Em resumo, qualquer função de variáveis ​​aleatórias observáveis ​​em uma amostra é uma estatística. Se uma estatística tem capacidade para estimar um parâmetro de uma população, então a chamamos de estimador (do parâmetro de interesse). No entanto, existem algumas estatísticas que não são projetadas para estimar parâmetros, portanto, essas estatísticas não são estimadoras, e aqui as chamamos de "meras estatísticas".

O que eu ofereci acima é a maneira como encaro e penso esses dois conceitos e tentei o meu melhor para colocá-lo em palavras simples. Espero que ajude!

Ali Zeytoon Nejad
fonte
0

Nova resposta para um Q antigo:

Definição 1. Uma estatística é uma função que mapeia cada amostra para um número real.

Todo estimador é uma estatística.

Mas tendemos a chamar apenas as estatísticas que são usadas para gerar estimativas ("suposições") algum parâmetro como estimador.

Assim, por exemplo, a estatística t e a média da amostra são AMBAS as estatísticas. A média da amostra também é um estimador (porque geralmente a usamos para estimar a verdadeira média da população).

Por outro lado, raramente / nunca chamamos a estatística t de estimador, porque raramente / nunca a usamos para estimar qualquer parâmetro.

PQ

Example_

θ

θ

Aqui está um método possível. Nós rolamos um dado 3 vezes.

s=(x1,x2,x3)x1x2x3

s1=(5,4,1)s2=(4,1,6)s3=(6,3,2)

PQPQs=(x1 1,x2,x3)

P(s)=x1 1em(x2+x3),
Q(s)=x1 1+x2+x33.

P

Qθ

Pθ

Kenny LJ
fonte
11
Esta resposta está indo em uma boa direção. "Definição 2", no entanto, não parece ser uma definição válida, devido à sua circularidade (define "estimador" em termos de "estimativa" sem explicar a última). Para que seja eficaz, você precisa explicar o que é uma "estimativa de um parâmetro" com detalhes e clareza suficientes para que as pessoas possam formular medidas quantitativas de quão bem um estimador funciona.
whuber
θθ5
2
Infelizmente, como eu estava tentando sugerir, algo essencial parece ter sido perdido na simplificação, porque sua segunda definição não distingue um estimador de nenhuma outra estatística.
whuber
@ whuber: Isso mesmo. Formalmente, um estimador é simplesmente uma estatística. Mas tendemos a usar a palavra "estimador" para nos referirmos a uma estatística se essa estatística for usada para estimar algum parâmetro de interesse. Eu editei minha resposta para esclarecer esse ponto.
Kenny LJ
-3

No teste de hipóteses :

Uma estatística de teste trata do teste de hipóteses. Uma estatística de teste é uma variável aleatória dada / sob a hipótese nula. Agora, alguns podem chamar uma estatística de valor / medida da estatística de teste, dada a amostra.

Com esses dois, você pode obter o valor-p, que é uma medida que ajuda a rejeitar ou não a hipótese nula. Em suma, uma estatística é uma estimativa de quão longe / próximo de sua hipótese.

Este link pode ser útil.

dfhgfh
fonte
2
Você parece estar abordando uma questão diferente, algo relacionado a testes de hipóteses em vez de estimativa. Sua definição de "estatística" é muito mais restrita em escopo do que as definições padrão: as estatísticas se aplicam a todas as formas de tomada de decisão, não apenas aos casos muito limitados de teste de hipóteses e hipóteses nulas. Além disso, os testes de hipóteses não são os mesmos que os estimadores e a maioria das estatísticas não é usada como estimador de proximidade de alguma hipótese.
whuber
Eu não diria que é uma pergunta diferente. Ele fornece uma imagem sobre o que é no contexto do teste de hipóteses, pelo menos!
precisa saber é
2
Como esta resposta se concentra em uma versão limitada e especializada da pergunta e usa os termos-chave "estimador" e "estatística" de maneiras não convencionais, sem alertar o leitor sobre esse fato, eu me preocupo que isso possa enganar ou confundir as pessoas.
whuber
Eu achava que o teste de hipóteses estava longe de ser um campo limitado e especializado de estatística.
precisa saber é