Esta questão está no âmago do que é estatística e como conduzir uma boa análise estatística. Isso levanta muitos problemas, alguns de terminologia e outros de teoria. Para esclarecê-los, vamos começar observando o contexto implícito da pergunta e, a partir daí, definir os termos-chave "parâmetro", "propriedade" e "estimador". As várias partes da pergunta são respondidas à medida que aparecem na discussão. A seção final final resume as idéias principais.
Espaços de Estado
Um uso estatístico comum de "a distribuição", como em "a distribuição Normal com PDF proporcional a "é na verdade um abuso (sério) do inglês, porque obviamente essa não é uma distribuição: é uma família inteira de distribuiçõesparametrizadaspelos símbolosμeσ. Uma notação padrão para esse é o "espaço de estado"Ωexp(−12(x−μ)/σ)2)dxμσΩ , um conjuntode distribuições. (Estou simplificando um pouco aqui por uma questão de exposição e continuarei a simplificar à medida que avançamos, mantendo-se o mais rigoroso possível.) Seu papel é delinear os possíveis alvos de nossos procedimentos estatísticos: quando estimamos algo, estamos escolhendo um (ou às vezes mais) elementos de .Ω
Às vezes, os espaços de estado são explicitamente parametrizados, como em . Nesta descrição, há uma correspondência individual entre o conjunto de tuplas { ( μ , σ ) } no plano superior e o conjunto de distribuições que usaremos para modelar nossos dados. Um valor dessa parametrização é que agora podemos nos referir concretamente às distribuições em Ω por meio de um par ordenado de números reais.Ω={N(μ,σ2)|μ∈R,σ>0}{(μ,σ)}Ω
Em outros casos, os espaços de estado não são explicitamente parametrizados. Um exemplo seria o conjunto de todas as distribuições contínuas unimodais. Abaixo, abordaremos a questão de saber se uma parametrização adequada pode ser encontrada em tais casos de qualquer maneira.
Parametrizações
Geralmente, uma parametrização de é uma correspondência (matemático função ) a partir de um subconjunto de R d (com d finita) para Ω . Ou seja, ele usa conjuntos ordenados de d- tples para rotular as distribuições. Mas não é apenas qualquer correspondência: deve ser "bem comportada". Para entender isso, considere o conjunto de todas as distribuições contínuas cujos PDFs têm expectativas finitas. Isso seria amplamente considerado como "não paramétrico" no sentido de que qualquer tentativa "natural" de parametrizar esse conjunto envolveria uma sequência contável de números reais (usando uma expansão em qualquer base ortogonal). No entanto, porque este conjunto tem cardinalidade ℵΩRddΩd , que é a cardinalidade dos reais, não deve existir alguma correspondência de um-para-um entre estas distribuições e R . Paradoxalmente, isso parece fazer deste umespaço de estadoparametrizadocom umúnicoparâmetro real!ℵ1R
O paradoxo é resolvido observando que um único número real não pode ter uma relação "agradável" com as distribuições: quando alteramos o valor desse número, a distribuição a que ele corresponde deve, em alguns casos, mudar de maneira radical. Excluímos essas parametrizações "patológicas" exigindo que as distribuições correspondentes aos valores próximos de seus parâmetros sejam elas mesmas "próximas" umas das outras. Discutir definições adequadas de "fechar" nos levaria muito longe, mas espero que essa descrição seja suficiente para demonstrar que há muito mais para ser um parâmetro do que apenas nomear uma distribuição específica.
Propriedades das distribuições
Através da aplicação repetida, nos acostumamos a pensar em uma "propriedade" de uma distribuição como uma quantidade inteligível que freqüentemente aparece em nosso trabalho, como expectativa, variação e assim por diante. O problema com isso como uma possível definição de "propriedade" é que é muito vago e não suficientemente geral. (Foi aqui que a matemática ocorreu em meados do século XVIII, onde "funções" eram pensadas como processos finitos aplicados a objetos.) Em vez disso, a única definição sensata de "propriedade" que sempre funcionará é pensar em uma propriedade como sendo um número atribuído exclusivamente a todas as distribuições em Ω. Isso inclui a média, a variância, qualquer momento, qualquer combinação algébrica de momentos, qualquer quantil e muito mais, incluindo coisas que nem sequer podem ser computadas. No entanto, não inclui coisas que não fariam sentido para alguns dos elementos de . Por exemplo, se Ω consiste em todas as distribuições de Student t, então a média não é uma propriedade válida para Ω (porque t 1 não tem média). Este impressiona-nos mais uma vez o quanto nossas idéias depender do que Ω realmente consiste.ΩΩΩt1Ω
Propriedades nem sempre são parâmetros
Uma propriedade pode ser uma função tão complicada que não serviria como parâmetro. Considere o caso da "distribuição normal". Podemos querer saber se a média da distribuição verdadeira, quando arredondada para o número inteiro mais próximo, é par. Isso é uma propriedade. Mas não servirá como parâmetro.
Parâmetros não são necessariamente propriedades
Quando parâmetros e distribuições estão em correspondência individual, obviamente qualquer parâmetro e qualquer função dos parâmetros nesse sentido é uma propriedade de acordo com nossa definição. Mas não é necessário haver uma correspondência individual entre parâmetros e distribuições: algumas vezes, algumas distribuições devem ser descritas por dois ou mais valores distintamente diferentes dos parâmetros. Por exemplo, um parâmetro de localização para pontos na esfera usaria naturalmente latitude e longitude. Tudo bem - exceto nos dois pólos, que correspondem a uma dada latitude e qualquer longitude válida. o localização(ponto na esfera) é de fato uma propriedade, mas sua longitude não é necessariamente uma propriedade. Embora existam vários desvios (apenas declare a longitude de um polo como zero, por exemplo), esta questão destaca a importante diferença conceitual entre uma propriedade (que está exclusivamente associada a uma distribuição) e um parâmetro (que é uma maneira de rotular a distribuição e pode não ser exclusivo).
Procedimentos estatísticos
O objetivo de uma estimativa é chamado de estimativa . É apenas uma propriedade. O estatístico não é livre para selecionar a estimativa: essa é a província de seu cliente. Quando alguém chega até você com uma amostra de uma população e pede para você estimar o percentil 99 da população, você provavelmente não se importa em fornecer um estimador da média! Seu trabalho, como estatístico, é identificar um bom procedimento para estimar a estimativa que você recebeu. (Às vezes, seu trabalho é convencer seu cliente de que ele selecionou a estimativa errada para seus objetivos científicos, mas isso é uma questão diferente ...)
Por definição, um procedimento é uma maneira de obter um número dos dados. Os procedimentos geralmente são dados como fórmulas a serem aplicadas aos dados, como "some todos eles e divida pela contagem". Literalmente, qualquer procedimento pode ser considerado um "estimador" de um determinado estimador. Por exemplo, poderia declarar que a média da amostra (uma fórmula aplicada aos dados) calcula a variância da população (uma propriedade da população, assumindo nosso cliente restringiu o conjunto de possíveis populações para incluir apenas aqueles que, na verdade, ter desvios).Ω
Estimadores
Um estimador não precisa ter nenhuma conexão óbvia com o estimador. Por exemplo, você vê alguma conexão entre a média da amostra e uma variação populacional? Nem eu. Mas, no entanto, a média da amostra na verdade é um estimador decente da variância da população com certeza Ω (como o conjunto de todas as distribuições de Poisson). Aqui está uma chave para entender os estimadores: suas qualidades dependem do conjunto de estados possíveis . Mas isso é apenas parte disso.Ω
Um estatístico competente desejará saber quão bem o procedimento que eles recomendam realmente executará. Vamos chamar o procedimento " " e deixar a estimativa ser θ . Sem saber qual distribuição é realmente verdadeira, ela contemplará o desempenho do procedimento para todas as distribuições possíveis F ∈ Ω . Dado tal F , e dados quaisquer resultados possíveis s (ou seja, um conjunto de dados), ela comparará t ( s ) (o que seu procedimento estima) com θ ( F ) (o valor da estimativa para Ftθ F∈ ΩFst ( s )θ ( F)F ). É responsabilidade do cliente dizer-lhe quão próximos ou distantes esses dois estão. (Isso geralmente é feito com a função "perda".) Ela pode então contemplar a expectativa da distância entre e θ ( F ) . Esse é o risco do procedimento dela. Como depende de F , o risco é uma função definida em Ω .t ( s )θ ( F)FΩ
Estatísticos (bons) recomendam procedimentos com base na comparação de riscos. Por exemplo, suponha que para cada , o risco do procedimento t 1 seja menor ou igual ao risco de t . Então, nunca há razão para usar t : é "inadmissível". Caso contrário, é "admissível".F∈ Ωt1tt
(Um estatístico "bayesiano" sempre comparará os riscos calculando a média de uma distribuição "anterior" de estados possíveis (geralmente fornecidos pelo cliente). Um estatístico "freqüentista" pode fazer isso, se esse prior existir, justificadamente, mas também estiver disposto a comparar riscos de outras maneiras que os bayesianos evitam.)
Conclusões
Temos o direito de dizer que qualquer admissível para θ é um estimador de θ . tθθ Devemos, para propósitos práticos (porque os procedimentos admissíveis podem ser difíceis de encontrar), inclinar isso para dizer que qualquer que tenha um risco aceitável pequeno (quando comparado a θ ) entre procedimentos praticáveis é um estimador de θ . tθθ "Aceitável" e "praticável" são determinados pelo cliente, é claro: "aceitável" refere-se ao risco e "praticável" reflete o custo (finalmente pago por eles) da implementação do procedimento.
Por trás dessa definição concisa estão todas as idéias discutidas: para entendê-la, precisamos ter em mente um específico (que é um modelo do problema, processo ou população em estudo), uma estimativa definitiva (fornecida pelo cliente), um função de perda específica (que conecta quantitativamente t à estimativa e também é fornecida pelo cliente), a ideia de risco (calculada pelo estatístico), algum procedimento para comparar funções de risco (responsabilidade do estatístico em consulta com o cliente), e uma noção de quais procedimentos realmente podem ser realizados (a questão da "praticabilidade"), mesmo que nenhum deles seja explicitamente mencionado na definição.Ωt
Assim como ocorre com muitas perguntas sobre definições, as respostas precisam estar de olho nos princípios subjacentes e na maneira como os termos são usados na prática, que geralmente podem ser pelo menos um pouco frouxos ou inconsistentes, mesmo por indivíduos bem informados e muito mais. importante, variável de comunidade para comunidade.
Um princípio comum é que uma estatística é uma propriedade de uma amostra e uma constante conhecida, e um parâmetro é a propriedade correspondente da população e, portanto, uma constante desconhecida. A palavra "correspondente" deve ser entendida como bastante elástica aqui. Aliás, precisamente essa distinção e precisamente essa terminologia têm menos de um século, tendo sido introduzidas por RA Fisher.
Mas
Uma configuração de amostra e população não caracteriza todos os nossos próprios problemas. As séries temporais são uma classe principal de exemplos em que a idéia é um processo de geração subjacente, e algo assim é sem dúvida a idéia mais profunda e geral.
Existem configurações nas quais os parâmetros mudam. Novamente, a análise de séries temporais fornece exemplos.
Até o ponto principal aqui, na prática, não pensamos em todas as propriedades de uma população ou processo como parâmetros. Se algum procedimento assume um modelo de distribuição normal, o mínimo e o máximo não são parâmetros. (De fato, de acordo com o modelo, o mínimo e o máximo são números negativos e positivos arbitrariamente grandes de qualquer maneira, não que isso deva nos preocupar.)
Eu diria que, pela primeira vez, a Wikipedia está apontando na direção certa aqui, e prática e princípio são respeitados se dissermos que um parâmetro é o que estamos estimando .
Isso também ajuda com outras questões que causaram perplexidade. Por exemplo, se calcularmos uma média aparada de 25%, o que estamos estimando? Uma resposta razoável é a propriedade correspondente da população, que na verdade é definida pelo método de estimativa. Uma terminologia é que um estimador tem uma estimativa, o que quer que esteja estimando. Começando com alguma idéia platônica de uma propriedade "lá fora" (digamos, o modo de uma distribuição) e pensando em como estimar isso é razoável, como é pensar em boas receitas para analisar dados e refletir sobre o que elas implicam quando consideradas como inferência.
Como frequentemente em matemática ou ciências aplicadas, há um aspecto duplo em um parâmetro. Muitas vezes pensamos nisso como algo real por aí que estamos descobrindo, mas também é verdade que é algo definido pelo nosso modelo de processo, de modo que não tem significado fora do contexto do modelo.
Dois pontos bastante diferentes:
Muitos cientistas usam a palavra "parâmetro" da maneira que os estatísticos usam variável. Eu tenho uma personalidade de cientista e estatística, e eu diria que é lamentável. Variáveis e propriedades são melhores palavras.
É notadamente comum no uso mais amplo do inglês que se acredita que parâmetro signifique limites ou limites, que podem resultar de alguma confusão original entre "parâmetro" e "perímetro".
Uma observação sobre o ponto de vista estimado
A posição clássica é que identificamos um parâmetro com antecedência e depois decidimos como estimar, e isso continua sendo a prática da maioria, mas reverter o processo não é absurdo e pode ser útil para alguns problemas. Eu chamo isso de ponto de vista estimado. Está na literatura há pelo menos 50 anos. Tukey (1962, p.60) insistia que
"Devemos dar ainda mais atenção ao começar com um estimador e descobrir o que é um estimador razoável, para descobrir o que é razoável pensar no estimador como uma estimativa".
Um ponto de vista semelhante foi elaborado formalmente em considerável detalhe e profundidade por Bickel e Lehmann (1975) e informalmente com considerável lucidez por Mosteller e Tukey (1977, pp.32-34).
Há também uma versão elementar. Usar (digamos) a média mediana ou geométrica da amostra para estimar o parâmetro populacional correspondente faz sentido, independentemente de a distribuição subjacente ser simétrica, e o mesmo ágio pode ser estendido para (por exemplo) médias aparadas da amostra, consideradas como estimadoras de seus equivalentes populacionais. .
Bickel, PJ e EL Lehmann. 1975. Estatística descritiva para modelos não paramétricos. II Localização . Annals of Statistics 3: 1045-1069.
Mosteller, F. e JW Tukey. 1977. Análise de dados e regressão. Reading, MA: Addison-Wesley.
Tukey, JW 1962. O futuro da análise de dados . Annals of Mathematics Statistics 33: 1-67.
fonte
(Tudo isso pressupõe, é claro, que meu modelo de distribuição populacional ou processo de geração de dados esteja correto. Como sempre, vale lembrar que "todos os modelos estão errados, mas alguns são úteis" - George Box .)
Para responder suas perguntas mais explicitamente, eu diria:
fonte
Houve ótimas respostas para essa pergunta, pensei em resumir uma referência interessante que fornece uma discussão bastante rigorosa dos estimadores.
A página de laboratórios virtuais sobre estimadores define
O conceito de função de uma distribuição é uma ideia muito geral. Assim, todos os exemplos fornecidos acima podem ser vistos como uma função de uma certa distribuição.
fonte