Palavras comuns que têm significados estatísticos específicos

12

Não sou estatístico, mas meu trabalho de pesquisa envolve estatística (análise de dados, leitura de literatura etc.). Lembrei-me novamente de um comentário em uma das minhas perguntas postadas aqui que existem algumas palavras comuns que têm significados ou conotações particularmente específicos para aqueles que são bem praticados no campo da estatística.

Será útil ter uma lista dessas palavras e pode haver frases e alguns comentários.

user4045
fonte
1
Parece um candidato ao Wiki da comunidade .
Glen_b -Reinstala Monica
@Glen_b Poderia se transformar em um termo particularmente grande, dado que praticamente qualquer termo em estatística ou matemática se qualificaria. Existe alguma maneira de restringir significativamente o escopo desta pergunta?
whuber
3
@whuber Sim, existe o perigo de se tornar excessivamente amplo. Algo como "que geralmente gera confusão" seria suficiente para restringir o escopo?
Glen_b -Reinstala Monica
Penso que estatísticos competentes normalmente têm um bom domínio de sua língua nativa e estariam bem cientes de quando estão usando jargões que precisam ser adequadamente explicados a um público leigo.
Robert Jones
@Glen_b não tenho certeza. Isso é tão amplo que mal posso começar uma lista de palavras que devem ser abordadas: precisão, preconceito, calibração, discriminação, contínua, distribuição, risco, sobrevivência, spline, modelo, resposta, autoinicialização, ajuste, cluster, condicional, confiança, densidade estimativa, variável, canônico, correlação, prever, inferência, censura, risco, concordância, logística, limite, cobertura, confusão, contingência, convergência, correspondência, liberdade, desvio, exponencial, extremo, alcance, normal, drop-in, manequim , explicou [variação], fator, falha, preenchimento, ajuste, ajuste, função, ...
whuber

Respostas:

12

" significativo " - aqui, o uso comum da palavra na linguagem deve significar algo como 'importante' ou 'significativo'. O significado estatístico está informalmente mais próximo de "pode ​​ser discernido a partir de variação aleatória sobre o nulo"; isso não significa que a diferença é grande o suficiente para importar.

Aqui estão alguns exemplos em que essa distinção pode ter sido a causa de alguma confusão: 1 2

" parâmetro " - muitas vezes parece acontecer - particularmente em experimentos científicos - que a palavra 'parâmetro' é usada da maneira que um estatístico usaria a palavra 'variável'. A Wikipedia coloca assim:

Um parâmetro estatístico é um parâmetro que indexa uma família de distribuições de probabilidade. Pode ser considerado como uma característica numérica de uma população ou modelo

Exemplo em que este pode ser um problema: 1 - presumivelmente o post que levou a essa pergunta. (Vi outra recentemente, mas não consigo localizá-la agora)

Glen_b
fonte
11

"Erro" - nas estatísticas, geralmente significa qualquer desvio entre um valor observado e o previsto. Na vida real, isso significa um erro.

Harvey Motulsky
fonte
11

Encontrei um artigo revisado de 2010 que analisa essa questão.

Anderson-Cook CM. Jargão oculto: Palavras cotidianas com significados específicos para estatísticas. ICOTS8, Conferência Internacional sobre Ensino de Estatística, Ljubljana, Eslovênia, 11 a 17 de julho de 2010.

O artigo está disponível gratuitamente on-line , por isso estou fornecendo apenas uma lista parcial dos termos discutidos pelo autor:

 confounding, control, factor, independent, random, uniform
user4045
fonte
10

Eu me deparei com o problema de usar "falsificação" como em "falsificar uma hipótese", enquanto outros pensavam que eu estava me referindo a "compor dados". Também " tendencioso " é quase impossível de mencionar sem causar confusão.

Frasco
fonte
6

"normal" - em linguagem comum, normal significa como esperado, não fora do comum. Nas estatísticas, se uma variável é normalmente distribuída, está se referindo à distribuição gaussiana. Não acredito que seja padrão colocar em maiúscula a palavra "normal" para distingui-la do significado comum da fala.

"normalização / padronização" - Nas estatísticas, normalizar uma variável significa subtrair a média e dividir pelo desvio padrão.

"desvio padrão versus erro padrão" - o desvio padrão geralmente é calculado usando toda a população, enquanto o erro padrão é calculado usando a amostra.

rocinante
fonte
1
Eu realmente duvido que "erro padrão" seja uma "palavra comum [convencional, não estatística]" com um significado estatístico especial que difere de outros usos dessa palavra (frase, na verdade). O mesmo vale para "normalização" e "desvio padrão".
whuber
Talvez não seja "normalização", mas "normal" seja um bom argumento e, portanto, seria "padronizado", que também é usado para descrever testes destinados a estabelecer padrões nacionais (por exemplo, na educação, como nos EUA depois que No Child Left) Atrás). Concordo que é improvável que o "desvio padrão" cause confusão, embora o "desvio" por si só na linguagem comum possa ter mais probabilidade de ter uma conotação negativa (especialmente como sinônimo de "desvio").
quer
Aqui está outra maneira de distinguir SD e SEM. O desvio padrão quantifica variação ou dispersão. Um erro padrão quantifica a precisão de um valor calculado.
Harvey Motulsky
@HarveyMotulsky Acho que a melhor maneira é pensar em um asteróide (formato irregular). Qual é o centro de massa do asteróide? É o ponto que é equidistante de todos os outros pontos. Essa é a média. Qual é o desvio padrão? É a distância "média" de cada ponto do centro, uma medida de tamanho. O que é o SEM? Ele mostra como você tem certeza da localização do centro do asteróide.
Flask
Acho que dizer que erro padrão é o desvio padrão calculado usando a "amostra" um pouco lamentável. Essa seria a raiz quadrada da variação da amostra para mim, enquanto o erro padrão é o desvio padrão de uma estatística de teste. Além disso, a partir dos termos acima, apenas "normal" parece realmente comum. Mas eu acho que isso é normal ...
significa-significado
2

"Paramétrico" versus "Não Paramétrico": categorias de testes que requerem dados "Normal" ou "não Normal". Os testes paramétricos são preferidos aos não paramétricos.

Testes comuns: teste T (emparelhado), Mann-Whitney U, ANOVA, Anderson-Darling, etc.

Outros termos incluem "significativo". É uma medida de se os dados indicam que sua hipótese é válida ou não. Quando você testa sua hipótese com um certo grau de probabilidade (normalmente 95%), um "valor-p" menor que 0,05 indicaria que você rejeitaria sua "hipótese nula" (ou seja, os conjuntos de dados não são diferentes) e aceitaria a sua " hipótese alternativa "(isto é, os conjuntos de dados são diferentes).

user36904
fonte
2

Inclinado nas estatísticas implica em distribuição assimétrica.

Na linguagem comum, e mesmo na ciência, a inclinação é frequentemente usada (e cada vez mais?) Para significar o que as pessoas estatísticas normalmente chamam de tendenciosa , como em "Os resultados para a altura média são distorcidos, incluindo tantos jogadores de basquete".

Nick Cox
fonte
2

Estimativa - nas estatísticas, é o resultado de um cálculo. Por exemplo, a média da amostra é uma estimativa da média da população e o intervalo de confiança de uma média é uma estimativa do intervalo da média da população. Ambos são resultados de cálculos exatos. A "estimativa" é uma generalização precisa de tentar fazer uma inferência sobre uma população a partir de dados em uma amostra.

No uso comum, a palavra estimativa significa um palpite ou palpite informado ou o resultado de um cálculo aproximado.

Harvey Motulsky
fonte
2

Probabilidade - na linguagem comum, o sinônimo de probabilidade , mas nas estatísticas que têm uma relação inversa específica com a probabilidade, em que, para qualquer conjunto de parâmetrosθ e conjunto de dados X, eu(θ|X)=Pr(X|θ).

Representante - tem vários significados às vezes conflitantes tanto na linguagem cotidiana quanto na científica. Consulte Kruskal & Mosteller 1979a , 1979b , 1979c e 1980 . A maioria dos estatísticos que conheço consideraria um representante da amostra se fosse amostrado com probabilidade conhecida; a maioria dos leigos que conheço consideraria representativo se as distribuições marginais fossem semelhantes à população.

abaumann
fonte
2
  • Amostra : enquanto nas estatísticas isso se refere a um conjunto de casos , em muitas outras disciplinas uma amostra é uma amostra física . Obviamente, o tamanho da amostra também é ambíguo, referindo-se ao número de casos na amostra estatística ou ao tamanho físico (massa, volume, ...) da amostra.

  • Sensibilidade : para diagnósticos médicos, a fração de casos de doenças reconhecida pelo teste. Em química analítica: a inclinação da curva de calibração (veja abaixo).

  • Especificidade : em diagnósticos médicos, a fração de casos não relacionados a doenças é corretamente reconhecida pelo teste. Na química analítica, um método é específico se não houver sensibilidades cruzadas.

  • Calibração : na verdade, dois significados já estão listados para estatísticas no artigo da Wiki. Em química e física, o significado da regressão reversa é o usual. Porém, surge uma confusão:

    • Em quimiometria, a calibração (direta) modela o sinal medido Eu dependente da concentração c: Eu=f(c). A previsão então resolve para a concentraçãoc: c=f-1(Eu). Modelos de calibração inversac=f(Eu). Assim, o modelo forward concorda com a causalidade (a concentração do analito causa sinal, e não o contrário), mas o inverso modela a direção que é usada para as previsões.
      (Na prática, muitas vezes é possível dizer que o erro noc ou o erro em Eu é muito maior que o outro, e a direção de modelagem apropriada é / deve ser escolhida a partir disso)
    • Eu já vi gráficos de probabilidade prevista sobre probabilidade verdadeira chamados "gráficos de calibração" (estatísticas de pessoas). Na química analítica, o gráfico de calibração correspondente seria a probabilidade prevista sobre o sinal medido (geralmente alguma outra unidade). O gráfico do predito sobre a variável dependente verdadeira seria normalmente chamado de curva de recuperação .
  • Conjunto de validação : aqui eu gostaria de chamar a atenção para um uso potencialmente confuso de termos que, acredito, já surgem nos diferentes campos relacionados a estatísticas, embora eu volte a contrastar. No contexto de validação aninhada / dupla ou otimização versus validação / teste, uma linha de terminologia divide o treinamento - validação - teste e usa o conjunto de "validação" para otimização de hiperparâmetros.
    Por exemplo, nos elementos de aprendizagem estatística, p. 222 na 2ª ed. :

    ... divida o conjunto de dados em três partes: um conjunto de treinamento, um conjunto de validação e um conjunto de testes. O conjunto de treinamento é usado para ajustar os modelos; o conjunto de validação é usado para estimar o erro de previsão para a seleção do modelo; o conjunto de testes é usado para avaliar o erro de generalização do modelo final escolhido.

    Por outro lado, por exemplo, na validação de química analítica é o procedimento que demonstra que o modelo (na verdade, a avaliação do modelo final é apenas parte da validação de um método analítico) funciona bem para a aplicação e mede seu desempenho, ver, por exemplo, John K. Taylor: Validação de métodos analíticos, Analytical Chemistry 1983 55 (6), 600A-608A ou diretrizes de instituições como a FDA. Isso seria "teste" na outra linha de terminologia, onde a "validação" é realmente usada para otimização.
    A diferença crucial é que os resultados da "validação de otimização" devem ser usados ​​para alterar (selecionar) o modelo, enquanto as alterações em um método analítico validado (incluindo o modelo analítico de dados) significam que você deve revalidar (ou seja, prove que o método ainda funciona como deveria funcionar).


Se você precisar conversar com químicos, uma boa referência à terminologia da química analítica é Danzer: Química Analítica - Fundamentos Teóricos e Metrológicos, DOI 10.1007 / b103950

cbeleites
fonte