Qual é a diferença entre estatística descritiva e inferencial?

21

Meu entendimento era que a estatística descritiva descrevia quantitativamente características de uma amostra de dados, enquanto a estatística inferencial fazia inferências sobre as populações das quais as amostras foram coletadas.

No entanto, a página da Wikipedia para inferência estatística afirma:

Na maioria das vezes, a inferência estatística faz proposições sobre populações, usando dados extraídos da população de interesse por meio de alguma forma de amostragem aleatória.

O "na maior parte" me fez pensar que talvez eu não entenda corretamente esses conceitos. Existem exemplos de estatísticas inferenciais que não fazem proposições sobre populações?

user1205901 - Restabelecer Monica
fonte
Estatísticas descritivas: Uma moeda foi lançada dez vezes e caiu cara seis vezes. Inferência estatística: A estimativa da probabilidade máxima de probabilidade de Chefes é , ou, Esta informação é insuficiente para rejeitar a hipótese de que a moeda seja uma moeda justa. 0,6
precisa
2
Inferência sem o conceito de "população": suponha que seus dados sejam gerados por algum mecanismo / regra aleatória (parcialmente) desconhecida. Métodos inferenciais permitem avaliar propriedades desse mecanismo com base nos dados. Exemplo: você deseja verificar uma fórmula eletro-física com base em resultados que podem ser medidos apenas aproximadamente ou sob condições imperfeitas.
Michael M
1
@ Michael: Sim; ou, de fato, fazer com que seus dados sejam gerados por um mecanismo aleatório conhecido - atribuição aleatória de tratamentos experimentais.
Scortchi - Restabelece Monica

Respostas:

19

Vindo de uma experiência em ciências comportamentais, associo essa terminologia particularmente a livros introdutórios de estatística. Nesse contexto, a distinção é que:

  • Estatísticas descritivas são funções dos dados de amostra que são intrinsecamente interessantes na descrição de algum recurso dos dados. As estatísticas descritivas clássicas incluem média, min, max, desvio padrão, mediana, inclinação, curtose.
  • As estatísticas inferenciais são uma função dos dados de amostra que ajudam a desenhar uma inferência sobre uma hipótese sobre um parâmetro populacional. As estatísticas inferenciais clássicas incluem z, t, , razão F etc.χ2

O ponto importante é que qualquer estatística, inferencial ou descritiva, é uma função dos dados da amostra. Um parâmetro é uma função da população, em que o termo população é o mesmo que dizer o processo de geração de dados subjacente.

Nessa perspectiva, o status de uma determinada função dos dados como uma estatística descritiva ou inferencial depende da finalidade para a qual você está usando.

Dito isto, algumas estatísticas são claramente mais úteis na descrição de recursos relevantes dos dados, e algumas são adequadas para ajudar na inferência.

  • Estatísticas inferenciais: estatísticas de teste padrão como t e z, para um determinado processo de geração de dados, onde a hipótese nula é falsa, o valor esperado é fortemente influenciado pelo tamanho da amostra. A maioria dos pesquisadores não consideraria tais estatísticas estimar um parâmetro populacional de interesse intrínseco.
  • Estatísticas descritivas : em contraste, as estatísticas descritivas estimam parâmetros populacionais que normalmente são de interesse intrínseco. Por exemplo, a média da amostra e o desvio padrão fornecem estimativas dos parâmetros populacionais equivalentes. Mesmo estatísticas descritivas como a mínima e a máxima fornecem informações sobre parâmetros populacionais equivalentes ou similares, embora, é claro, nesse caso, seja necessário muito mais cuidado. Além disso, muitas estatísticas descritivas podem ser tendenciosas ou inferiores aos estimadores ideais. No entanto, eles ainda têm alguma utilidade na estimativa de um parâmetro de interesse da população.

Portanto, dessa perspectiva, as coisas importantes a entender são:

  • estatística : função dos dados da amostra
  • parâmetro : função da população (processo de geração de dados)
  • estimador : função dos dados da amostra usados ​​para fornecer uma estimativa de um parâmetro
  • inferência : processo para chegar a uma conclusão sobre um parâmetro

Assim, você pode definir a distinção entre descritivo e inferencial com base na intenção do pesquisador que usa a estatística, ou definir uma estatística com base em como ela é normalmente usada.

Jeromy Anglim
fonte
Como é que se justifica a chamada V ou F pontuação (em vez de, por exemplo t- testes ) estatística inferencial?
Jona
@jona O escore t é a "estatística" usada no teste t, portanto, pode-se descrever o escore t como uma estatística inferencial quando usada como parte de um processo inferencial. Acho que comecei com a suposição de que uma estatística é uma função dos dados. Mas talvez você esteja aludindo ao ponto de pensarmos frequentemente em estatística inferencial como o conjunto mais amplo de técnicas usadas para fazer inferência?
Jeromy Anglim
Deixe-me expressá-lo de maneira diferente - uma estatística t não é uma descrição de uma amostra, e não uma afirmação inferencial (como um valor-p)?
Jona
Bem, sim, uma função dos dados é equivalente a uma descrição de uma amostra. Acho que estava pensando que essas estatísticas são usadas em um processo inferencial (por exemplo, os pesquisadores relacionam a estatística t a uma distribuição t para obter um valor p e, em seguida, relacionam p com alfa para extrair uma inferência). Já vi livros didáticos usarem esses exemplos. Mas suponho que o valor p e a inferência binária em si possam ser vistos como estatísticas (isto é, funções dos dados da amostra). E a própria inferência binária pode ser vista como mais claramente alinhada à inferência. É nisso que você está chegando?
Jeromy Anglim
1
Por exemplo, você usa os dados para chegar a t que está relacionado a uma distribuição, o que fornece p , que por sua vez gera uma inferência binária sobre um parâmetro de população. Portanto, de uma perspectiva freqüentista, t, p e a inferência binária são todas variáveis ​​aleatórias. Todos estavam envolvidos no processo inferencial. Não sei ao certo quais são os prós e os contras de rotular todas ou apenas algumas estatísticas como inferenciais.
Jeromy Anglim
8

Uma forma de inferência é baseada na atribuição aleatória de tratamentos experimentais, e não na amostragem aleatória de uma população (mesmo hipoteticamente). Oscar Kempthorne foi um defensor.

O primeiro exemplo de Edgington (1995), Randomization Tests, ilustra bem a abordagem. Um pesquisador obtém dez sujeitos, os divide em dois grupos aleatoriamente, aloca o tratamento para um grupo e para o outro, mede suas respostas e calcula a estatística t de Student para a diferença na média de grupos. Em vez de usar a teoria da amostragem normal para avaliar a significância, ele calcula para todas as formas possíveis de os tratamentos terem sido atribuídos (existem 252); então, observando que cada permutação é igualmente provável sob a hipótese nula de nenhum efeito de tratamento, ele vê que nove fornecem um valor mais alto de do que o observado e calcula um valor de p deUMABtt10/252=0,04. "Obtém" aqui, com muita freqüência, poderia significar qualquer coisa - talvez os dez primeiros alunos de graduação em sua palestra a escolherem suas mãos foram escolhidos - mas com essa análise, não há necessidade de manter a pretensão de que os sujeitos foram amostrados aleatoriamente. a população de interesse (a desvantagem é que qualquer generalização além desses dez é extraestatística).

Previsão é outra área em que você não está necessariamente formulando proposições sobre populações. (Não sei se todos gostariam de chamar previsão de "inferência", mas há Geisser (1993), Predictive Inference: An Introduction ). Muitas vezes, a previsão segue um modelo populacional adequado, mas nem sempre; por exemplo, exemplo de classificação de @ Matt, média de modelo (bayesiana ou baseada em pesos de Akaike) ou algoritmos de previsão como suavização exponencial.

NB: Penso que "estatística inferencial x descritiva" se refere mais frequentemente à disciplina Estatística do que a quantidades calculadas a partir de amostras. Não há diferença essencial entre uma estatística inferencial e uma descritiva; como @Jeremy apontou, é uma questão de qual uso você está colocando.

Scortchi - Restabelecer Monica
fonte
2

Não tenho certeza de que a classificação faça necessariamente uma declaração sobre a (s) população (s) a partir da qual os pontos de dados são extraídos. A classificação, como você provavelmente sabe, usa dados de treinamento que consistem em alguns vetores de "recursos", cada um rotulado com uma classe específica, para prever os rótulos de classe pertencentes a outros vetores de recursos não rotulados. Por exemplo, podemos usar os sinais vitais do paciente e o diagnóstico médico para prever se outros pacientes estão saudáveis ​​ou doentes.

P(classe=c|características)c

No entanto, outros classificadores procuram diferenças entre as classes sem modelar as próprias classes; estes são chamados de classificadores discriminativos. Um exemplo clássico é o classificador de vizinho mais próximo, que atribui um exemplo não rotulado à classe de seu vizinho mais próximo (onde close é definido de alguma maneira sensata para o problema). Parece que não contém muitas informações, se houver alguma, sobre as populações das quais os pontos de dados foram extraídos.

t

Matt Krause
fonte
0

Em uma linha, dados os dados, as estatísticas descritivas tentam resumir o conteúdo dos seus dados com perda mínima de informações (dependendo de qual medida você usa). Você pode ver a geografia dos dados (algo como ver o gráfico de desempenho da classe e dizer quem está no topo, na parte inferior e assim por diante).

Em uma linha, dados os dados, você tenta estimar e inferir as propriedades da população hipotética da qual os dados provêm. (Algo como entender os alunos da 7ª série através da boa amostra da turma, supondo que a população subjacente seja grande o suficiente para que você não possa levá-los em consideração na totalidade)

Vani
fonte
3
Não acho que seja uma definição ou caracterização de estatística descritiva que eles visem à perda mínima de informações. É perfeitamente possível ter estatísticas descritivas que deixem de fora detalhes realmente importantes e isso costuma ser um problema.
Nick Cox
0

Em resumo

Estatística descritiva é a análise de dados que descrevem, mostram ou resumem dados de maneira significativa; é simplesmente uma maneira de descrever nossos dados / falar sobre toda a população. alguns deles são medidas de tendência central e medidas de dispersão

A estatística inferencial é uma técnica que nos permite usar amostras para fazer generalizações sobre as populações das quais as amostras foram coletadas.

Frehiwot Mulugeta
fonte
0

estatística descritiva é a análise de dados que descrevem, mostram ou resumem dados de maneira significativa; é simplesmente uma maneira de descrever nossos dados / falar sobre toda a população. alguns deles são medidas de tendência central e medidas de dispersão

A estatística inferencial é uma técnica que nos permite usar amostras para fazer generalizações sobre as populações das quais as amostras foram extraídas. Exemplo de teste de hipótese e compartilhar

NURU MUSTEFA
fonte
Bem-vindo ao Cross Validated ! Reserve um momento para ver o nosso passeio . Parece que você estava prestes a terminar uma boa resposta, mas algo aconteceu. fique à vontade para editar sua resposta para concluir seu pensamento. Você também pode melhorar sua resposta adicionando citações / referências que colaboram com o que você colocou aqui. Você também precisa responder à pergunta "Existem exemplos de estatísticas inferenciais que não fazem proposições sobre populações?"
Tavrock