Nós, estatísticos, usamos muitas palavras de maneiras ligeiramente diferentes da maneira como todo mundo as usa. Isso causa muitos problemas quando ensinamos ou explicamos o que estamos fazendo. Vou iniciar uma lista (e agora vou adicionar algumas definições, por comentários):
- Poder é a capacidade de rejeitar corretamente uma hipótese nula falsa. Normalmente, isso significa dizer corretamente "algo está acontecendo".
- Viés - uma estatística é tendenciosa se for sistematicamente diferente do parâmetro populacional associado a ela.
- Significado - os resultados são estatisticamente significativos em algum percentual (geralmente 5%) na seguinte situação: Se a população da qual a amostra provém tem um efeito real de 0, uma estatística pelo menos tão extrema quanto a obtida na amostra só ocorreria. 5% do tempo.
- Interação - Duas variáveis independentes interagem se o relacionamento entre a variável dependente e uma variável independente for diferente em níveis diferentes da outra variável independente
Mas tem que haver muitos outros!
terminology
communication
Peter Flom
fonte
fonte
Respostas:
"Significativo" é o maior em que me deparo, porque ele tem um significado comum de uso em inglês e esse significado surgirá na discussão dos resultados da pesquisa. Eu até me pego misturando "significativo" para significar importante na mesma frase em que falei sobre resultados estatísticos.
Dessa maneira está a loucura.
fonte
Eu sugeriria adicionar Linear à lista.
Eu fiz uma pergunta sobre matemática. VE sobre o que eu, como engenheiro, considero como estimativa linear mínima do erro quadrático médio linear de uma variável aleatória dado o valor de uma variável aleatória (o que significa estimar como com e escolhidos de forma a minimizar ), e deu uma resposta parcial. Um dos comentários sobre a questão disseX Y Y = um X + b uma b E [ ( Y - um X - b ) 2 ]Y X Y Y^= a X+ b uma b E[ ( Y- um X- b )2]
"Estou um pouco desconfortável com sua linguagem, já que temo que essa maneira de usar a palavra" linear "possa alimentar o mal-entendido popular de que a razão pela qual a regressão linear na chamada regressão linear é que alguém está ajustando uma linha. Pessoas que pensam isso então, é confuso quando um estatístico insiste em fazer uma regressão linear quando se encaixa em uma parábola ou onda senoidal etc. "
Então, o que significa regressão linear para um estatístico?
fonte
probabilidade
Parece-me que a maioria dos problemas associados à interpretação de testes de hipóteses e intervalos de confiança decorre da aplicação de uma definição bayesiana de "probabilidade" quando o procedimento é baseado em um freqüentista. Por exemplo, o valor-p sendo a probabilidade que a hipótese nula é verdadeira, quando AFAICS nenhuma probabilidade pode ser associada à verdade de uma hipótese específica em um ambiente freqüentista.
fonte
"Confiança"
É muito difícil dissuadir os não estatísticos de que seu intervalo de confiança não é (diretamente) uma afirmação sobre a credibilidade de diferentes valores de parâmetros.
Para ter confiança, no significado técnico do termo, precisamos imaginar um conjunto de experimentos repetidos, cada um calculando um intervalo de alguma maneira pré-especificada. Para ser um intervalo de confiança de 95%, 95% desses usos da fórmula interceptam o parâmetro de interesse relevante.
(É claro que existem situações em que as duas noções concordam, aproximadamente ou exatamente. Mas em geral elas não concordam, e o acordo numérico não remove o problema do uso indevido de termos técnicos.)
fonte
"Probabilidade" - é sinônimo de "probabilidade" no discurso cotidiano, mas em Estatística tem um significado especial: é uma função dos parâmetros de um modelo estatístico, cujo valor é a probabilidade do resultado observado assumindo que os parâmetros são iguais aos valores dos parâmetros.
fonte
Erro.
Nas estatísticas, um "erro" é um desvio de um valor de dados real da previsão de um modelo.
Na vida real, um erro é um erro grave ou outra brincadeira.
fonte
"Inferência"
Outra parte importante sobre inferência é o teorema do limite central. Quando você percebe que está simplesmente amostrando de uma população - embora a amostragem seja outro recurso complicado semelhante à inferência -, entende que, mesmo que a média da amostra contenha um valor, esse valor não é necessariamente o mesmo que na população. .
Talvez eu tenha entendido relativamente sua pergunta, mas uma vez que alguém entenda a inferência ou as diferenças entre uma amostra e a população, a totalidade das estatísticas se abrirá para elas.
fonte
Para nós (ou pelo menos para mim), a "aleatoriedade" de uma "amostra" sugere que ela é representativa da "população".
Para outros, "aleatoriedade" às vezes implica que uma pessoa / coisa é incomum.
fonte
Acho que devemos distinguir entre termos que confundem o público e termos que confundem estatísticos. As sugestões acima são principalmente termos bem compreendidos pelos estatísticos e (possivelmente) mal compreendidos pelo público. Desejo acrescentar à lista alguns termos que os estatísticos não entendem:
fonte
Ecológico, comumente usado para se referir a sistemas biológicos, mas também uma falácia estatística. Da Wikipedia:
Uma falácia ecológica (ou falácia de inferência ecológica) é um erro na interpretação de dados estatísticos em um estudo ecológico, no qual inferências sobre a natureza de indivíduos específicos são baseadas apenas em estatísticas agregadas coletadas para o grupo ao qual esses indivíduos pertencem. Essa falácia supõe que membros individuais de um grupo tenham as características médias do grupo em geral.
fonte
Uma "pesquisa" é um tipo de matemática ("amostra de pesquisa") ou um pedaço de papel ("questionário")?
Não conduzi uma pesquisa sobre isso, mas suspeito que grande parte do público considera uma "pesquisa" como a última. Suspeito ainda que eles não pensem no primeiro.
fonte
"Cargas", "Coeficientes" e "Pesos"; ao falar sobre análise de componentes principais.
Eu costumo achar pessoas sendo bastante ad-hoc ao usá-las, empregando-as de forma intercambiável, sem antes definir explicitamente o que elas significam e, de fato, deparei-me com artigos que se referem a "carregamento de vetores" e às vezes significam os próprios PCs e outras vezes os "pesos" associado a um PC específico.
Provavelmente, o fato de a excelente referência de Jollifee sobre os componentes principais declarar no final da seção 1.1 "Alguns autores distinguem entre os termos 'loadings' e 'coeficientes' ', dependendo da restrição de normalização usada, mas eles serão usados de forma intercambiável neste livro." apenas fez as pessoas pensarem que têm um passe livre para misturar e combinar a terminologia ao seu gosto ...
fonte
Modelo aditivo. Ainda não tenho certeza do que isso significa. Eu acho que se refere a um modelo sem termos de interação. Mas então, vou encontrar um artigo em que eles estão usando para se referir a outra coisa, ou seja, um modelo de spline.
fonte
Um dos termos que acho mais confusos é a "matriz de confusão". Obviamente, o termo usado em si é confuso, não o conceito.
Tentei acompanhar a história do termo e também é bastante interessante. A matriz de confusão foi inventada em 1904 por ( http://en.wikipedia.org/wiki/Karl_Pearson ). Ele usou o termo http://en.wikipedia.org/wiki/Contingency_table . Apareceu em Karl Pearson, FRS (1904). Contribuições matemáticas para a teoria da evolução (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003030488.pdf
Durante o War World 2, https: //en.wikipedia.org/wiki/Detection_theory foi desenvolvido como uma investigação das relações entre estímulo e resposta. A matriz de confusão foi usada lá.
Devido à teoria da detecção, o termo foi utilizado como psicologia. A partir daí, o termo chegou ao aprendizado de máquina.
Parece que, embora o conceito tenha sido inventado em estatística, um arquivo muito relacionado ao aprendizado de máquina, ele alcançou o aprendizado de máquina após um desvio durante um período de 100 anos.
Para algumas referências do uso do termo, consulte: Qual é a origem do termo matriz de confusão?
fonte
"Estatisticas"
Para o público em geral, um substituto para "agora estou prestes a mentir para você e falar de uma maneira que você não entende".
fonte