Termos estatísticos mais confusos

47

Nós, estatísticos, usamos muitas palavras de maneiras ligeiramente diferentes da maneira como todo mundo as usa. Isso causa muitos problemas quando ensinamos ou explicamos o que estamos fazendo. Vou iniciar uma lista (e agora vou adicionar algumas definições, por comentários):

  • Poder é a capacidade de rejeitar corretamente uma hipótese nula falsa. Normalmente, isso significa dizer corretamente "algo está acontecendo".
  • Viés - uma estatística é tendenciosa se for sistematicamente diferente do parâmetro populacional associado a ela.
  • Significado - os resultados são estatisticamente significativos em algum percentual (geralmente 5%) na seguinte situação: Se a população da qual a amostra provém tem um efeito real de 0, uma estatística pelo menos tão extrema quanto a obtida na amostra só ocorreria. 5% do tempo.
  • Interação - Duas variáveis ​​independentes interagem se o relacionamento entre a variável dependente e uma variável independente for diferente em níveis diferentes da outra variável independente

Mas tem que haver muitos outros!

Peter Flom
fonte
5
Eu sugeriria que as pessoas adicionassem um contexto maior a suas respostas também. Os exemplos podem ser a mesma palavra usada de forma diferente em diferentes campos (efeitos fixos Gelman, 2005 ) ou palavras que têm significados diferentes em diferentes contextos (significância vs significância estatística Bushway et al., 2006 ).
Andy W
5
Seria bom que os respondentes pudessem explicar em uma ou duas frases o que o termo "técnico" realmente significa, ou o que poderia fazer com que fosse percebido como tendo um significado diferente.
chl 12/01
Vou concluir a minha resposta de acordo com os seus comentários mais tarde ;-)
Ocram
1
... e "correlação"!
Stéphane Laurent
1
Para "amostra", consulte os comentários em stats.stackexchange.com/questions/20945/… .
whuber

Respostas:

21

"Significativo" é o maior em que me deparo, porque ele tem um significado comum de uso em inglês e esse significado surgirá na discussão dos resultados da pesquisa. Eu até me pego misturando "significativo" para significar importante na mesma frase em que falei sobre resultados estatísticos.

Dessa maneira está a loucura.

Fomite
fonte
Certo, mas não há palavra melhor para "Tenho certeza absoluta de que é significativo, mas não fiz nenhum teste e não o farei, porque é óbvio / não pode ser feito / o que for"
naught101
17

Eu sugeriria adicionar Linear à lista.

Eu fiz uma pergunta sobre matemática. VE sobre o que eu, como engenheiro, considero como estimativa linear mínima do erro quadrático médio linear de uma variável aleatória dado o valor de uma variável aleatória (o que significa estimar como com e escolhidos de forma a minimizar ), e deu uma resposta parcial. Um dos comentários sobre a questão disseX Y Y = um X + b uma b E [ ( Y - um X - b ) 2 ]YXYY^=umaX+bumabE[(Y-umaX-b)2]

"Estou um pouco desconfortável com sua linguagem, já que temo que essa maneira de usar a palavra" linear "possa alimentar o mal-entendido popular de que a razão pela qual a regressão linear na chamada regressão linear é que alguém está ajustando uma linha. Pessoas que pensam isso então, é confuso quando um estatístico insiste em fazer uma regressão linear quando se encaixa em uma parábola ou onda senoidal etc. "

Então, o que significa regressão linear para um estatístico?

Dilip Sarwate
fonte
5
Pergunta relacionada no site, em referência a esta resposta, O que significa linear na regressão linear?
Andy W
1
@ AndyW Então você diria que Linear pertence à lista que Peter Flom começou, ou não?
precisa saber é o seguinte
1
sim, eu concordo que se encaixa na conta desta lista. (+1)
Andy W
4
Ele se encaixa na lista, mas por um motivo incomum: o significado do termo "linear" é bem estabelecido e usado de forma consistente em muitos campos matematicamente orientados. A confusão potencial diz respeito a qual parte da fórmula é linear.
whuber
Você pode dar um exemplo de como você ajusta uma parábola e ainda a chama de modelo linear?
Oneloop 27/03
14

probabilidade

Parece-me que a maioria dos problemas associados à interpretação de testes de hipóteses e intervalos de confiança decorre da aplicação de uma definição bayesiana de "probabilidade" quando o procedimento é baseado em um freqüentista. Por exemplo, o valor-p sendo a probabilidade que a hipótese nula é verdadeira, quando AFAICS nenhuma probabilidade pode ser associada à verdade de uma hipótese específica em um ambiente freqüentista.

Dikran Marsupial
fonte
4
Parece que a mesma consideração se aplicaria àqueles que estão acostumados a dizer que o parâmetro (true) tem 95% de chance de ficar entre xx e xx, ao falar / interpretar intervalos de confiança.
chl 12/01
1
sim absolutamente!
Dikran Marsupial
1
+1 No entanto, gostaria de expressar sua última frase de maneira um pouco diferente. Na configuração mais frequente, a probabilidade de que a hipótese nula seja verdadeira é 1 ou 0, mas você não sabe qual . (Estritamente falando, isso não está certo, porque 'probabilidade' é uma frequência relativa de longo prazo e 'frequência de longo prazo' realmente não se aplica. No entanto, quando formuladas dessa maneira, as pessoas podem entender o que está sendo dito / como entendemos a situação em que estamos. Por exemplo, as pessoas percebem que você não pode usar o valor p da hipótese nula como a probabilidade de que a hipótese nula seja verdadeira.)
gung - Reinstate Monica
2
"porque 'probabilidade' é uma frequência relativa de longo prazo" Muitos probabilistas contestam veementemente essa afirmação
Dilip Sarwate
14

"Confiança"

É muito difícil dissuadir os não estatísticos de que seu intervalo de confiança não é (diretamente) uma afirmação sobre a credibilidade de diferentes valores de parâmetros.

Para ter confiança, no significado técnico do termo, precisamos imaginar um conjunto de experimentos repetidos, cada um calculando um intervalo de alguma maneira pré-especificada. Para ser um intervalo de confiança de 95%, 95% desses usos da fórmula interceptam o parâmetro de interesse relevante.

umab

(É claro que existem situações em que as duas noções concordam, aproximadamente ou exatamente. Mas em geral elas não concordam, e o acordo numérico não remove o problema do uso indevido de termos técnicos.)

convidado
fonte
10

"Probabilidade" - é sinônimo de "probabilidade" no discurso cotidiano, mas em Estatística tem um significado especial: é uma função dos parâmetros de um modelo estatístico, cujo valor é a probabilidade do resultado observado assumindo que os parâmetros são iguais aos valores dos parâmetros.

xuexue
fonte
8

Erro.

Nas estatísticas, um "erro" é um desvio de um valor de dados real da previsão de um modelo.

Na vida real, um erro é um erro grave ou outra brincadeira.

Harvey Motulsky
fonte
Um erro de ortografia não é apenas um desvio do valor real (pretendido) do meio de comunicação? Realmente não vejo como essa palavra é diferente, apenas que é usada em um contexto diferente (mas não conflitante). Acho difícil acreditar que seria tão confuso para alguém novo no campo.
precisa saber é o seguinte
2
Uma razão pela qual um valor pode diferir de uma previsão é que o pesquisador errou. Isso é como um erro de ortografia. Mas por que seu peso é diferente do peso médio de todas as pessoas do seu sexo e idade? Por que sua renda é diferente da renda média? Nas estatísticas, esse desvio de uma média é um "erro", mas não é um erro, apenas uma variação.
Harvey Motulsky
É verdade, mas depende de como você olha para isso, eu acho. se você observar a ortografia de uma palavra em uma amostra de uma escola primária, obterá variações causadas por seres humanos, sim, mas nem causadas pelo pesquisador. Você pode ver a mesma coisa escrevendo inglês de diferentes idades. Eu acho que você encontraria que no início Inglês tinha muito maior variabilidade :)
naught101
@HarveyMotulsky: a química analítica usa o erro nos dois sentidos. Falamos de erro sistemático, erro aleatório e erros grosseiros. Livro didático: "erros graves podem ser evitados".
cbeleites apoia Monica
8

"Inferência"

βb

Outra parte importante sobre inferência é o teorema do limite central. Quando você percebe que está simplesmente amostrando de uma população - embora a amostragem seja outro recurso complicado semelhante à inferência -, entende que, mesmo que a média da amostra contenha um valor, esse valor não é necessariamente o mesmo que na população. .

Talvez eu tenha entendido relativamente sua pergunta, mas uma vez que alguém entenda a inferência ou as diferenças entre uma amostra e a população, a totalidade das estatísticas se abrirá para elas.

Adam
fonte
7

Para nós (ou pelo menos para mim), a "aleatoriedade" de uma "amostra" sugere que ela é representativa da "população".

Para outros, "aleatoriedade" às ​​vezes implica que uma pessoa / coisa é incomum.

Thomas Levine
fonte
1
Não me deparei com essa confusão sobre "aleatoriedade". Mas se você tem, então claramente existe.
Peter Flom - Restabelece Monica
3
Mais precisamente, ele existe #
Thomas Levine
1
O último uso de "aleatório" parece bastante recente para mim. Acho isso um pouco irritante por esse motivo (apenas torna as estatísticas mais difíceis para as pessoas entenderem). É ainda mais irritante quando ouço-me a usá-lo nesse sentido ..
naught101
5

Acho que devemos distinguir entre termos que confundem o público e termos que confundem estatísticos. As sugestões acima são principalmente termos bem compreendidos pelos estatísticos e (possivelmente) mal compreendidos pelo público. Desejo acrescentar à lista alguns termos que os estatísticos não entendem:

  • Bayesiano: Originalmente chamado de Bayes subjetivo (também conhecido como epistêmico, De-Finetti). Hoje, o termo será usado sempre que a regra de Bayes aparecer, raramente no contexto de crenças subjetivas, que é considerado teoria da decisão.
  • Bayes empírico: Originalmente, refere-se a uma configuração freqüentista com um prior não paramétrico . Hoje, normalmente significa que os parâmetros do parâmetro paramétrico (objetivo) são estimados e não são conhecidos a priori. Ou seja, o que antes era conhecido como probabilidade máxima do tipo II.
  • Não paramétrico: às vezes refere-se a "modelo livre". Às vezes, para "distribuição gratuita". Tornou-se praticamente pouco informativo nos dias em que os modelos "paramétricos" podem incluir milhões de parâmetros.
  • Erro tipo III: às vezes se refere a um erro de sinal. Algum tempo referindo-se a uma especificação incorreta do modelo.
JohnRos
fonte
Quando perguntei, pretendia "termos confusos para o público em geral", mas certamente termos confusos para estatísticos também merecem ser listados.
Peter Flom - Reinstate Monica
Provavelmente, isso deve ser dividido em respostas separadas.
precisa saber é o seguinte
4

Ecológico, comumente usado para se referir a sistemas biológicos, mas também uma falácia estatística. Da Wikipedia:

Uma falácia ecológica (ou falácia de inferência ecológica) é um erro na interpretação de dados estatísticos em um estudo ecológico, no qual inferências sobre a natureza de indivíduos específicos são baseadas apenas em estatísticas agregadas coletadas para o grupo ao qual esses indivíduos pertencem. Essa falácia supõe que membros individuais de um grupo tenham as características médias do grupo em geral.

zbicyclist
fonte
3

Uma "pesquisa" é um tipo de matemática ("amostra de pesquisa") ou um pedaço de papel ("questionário")?

Não conduzi uma pesquisa sobre isso, mas suspeito que grande parte do público considera uma "pesquisa" como a última. Suspeito ainda que eles não pensem no primeiro.

Thomas Levine
fonte
2
As pesquisas não são feitas por pesquisadores? ;)
zbicyclist
3

"Cargas", "Coeficientes" e "Pesos"; ao falar sobre análise de componentes principais.

Eu costumo achar pessoas sendo bastante ad-hoc ao usá-las, empregando-as de forma intercambiável, sem antes definir explicitamente o que elas significam e, de fato, deparei-me com artigos que se referem a "carregamento de vetores" e às vezes significam os próprios PCs e outras vezes os "pesos" associado a um PC específico.

Provavelmente, o fato de a excelente referência de Jollifee sobre os componentes principais declarar no final da seção 1.1 "Alguns autores distinguem entre os termos 'loadings' e 'coeficientes' ', dependendo da restrição de normalização usada, mas eles serão usados ​​de forma intercambiável neste livro." apenas fez as pessoas pensarem que têm um passe livre para misturar e combinar a terminologia ao seu gosto ...

usεr11852 diz Reinstate Monic
fonte
1

Modelo aditivo. Ainda não tenho certeza do que isso significa. Eu acho que se refere a um modelo sem termos de interação. Mas então, vou encontrar um artigo em que eles estão usando para se referir a outra coisa, ou seja, um modelo de spline.

Glen
fonte
0

Um dos termos que acho mais confusos é a "matriz de confusão". Obviamente, o termo usado em si é confuso, não o conceito.

Tentei acompanhar a história do termo e também é bastante interessante. A matriz de confusão foi inventada em 1904 por ( http://en.wikipedia.org/wiki/Karl_Pearson ). Ele usou o termo http://en.wikipedia.org/wiki/Contingency_table . Apareceu em Karl Pearson, FRS (1904). Contribuições matemáticas para a teoria da evolução (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003030488.pdf

Durante o War World 2, https: //en.wikipedia.org/wiki/Detection_theory foi desenvolvido como uma investigação das relações entre estímulo e resposta. A matriz de confusão foi usada lá.

Devido à teoria da detecção, o termo foi utilizado como psicologia. A partir daí, o termo chegou ao aprendizado de máquina.

Parece que, embora o conceito tenha sido inventado em estatística, um arquivo muito relacionado ao aprendizado de máquina, ele alcançou o aprendizado de máquina após um desvio durante um período de 100 anos.

Para algumas referências do uso do termo, consulte: Qual é a origem do termo matriz de confusão?

DaL
fonte
-4

"Estatisticas"

Para o público em geral, um substituto para "agora estou prestes a mentir para você e falar de uma maneira que você não entende".

John
fonte