Estatísticas estão em todo lugar; o uso comum de termos estatísticos é, no entanto, frequentemente incerto.
Os termos probabilidade e probabilidades são usados intercambiáveis no inglês leigo, apesar de suas expressões matemáticas bem definidas e diferentes.
Não separar o termo probabilidade de probabilidade confunde rotineiramente os médicos que tentam quantificar a probabilidade de câncer de mama, dada uma mamografia positiva: “Oh, que absurdo. Eu não posso fazer isso. Você deveria testar minha filha; ela está estudando medicina.
Igualmente espalhado é o uso de correlação em vez de associação . Ou correlação que implica causalidade .
No famoso documentário de Al Gore, An Inconvenient Truth , um slide ilustra a correlação do núcleo de gelo e temperaturas, deixando o trabalho mais técnico para provar a causa fora da discussão:
PERGUNTA: Quais termos estatísticos apresentam problemas de interpretação quando usados sem rigor matemático e, portanto, merecem correção?
fonte
Respostas:
Pode ser inútil lutar contra mudanças na linguagem. Mas
parâmetro não significa variável
Na estatística clássica, que neste caso começa precisamente com RA Fisher, que primeiro usou o termo com esse significado, um parâmetro é uma constante desconhecida a ser estimada, digamos, uma média ou correlação populacional. Em matemática, existem significados relacionados, mas não idênticos, como quando uma curva é dada parametricamente. Em muitas ciências, parâmetro é apenas outra palavra para uma medida (ela própria, um termo denso com significado matemático), propriedade ou variável, digamos comprimento ou condutividade, porosidade ou virtude, conforme o caso. Naturalmente, o comprimento ou a virtude de um indivíduo são desconhecidos antes de serem medidos. mas as pessoas de espírito estatístico podem ficar confusas com seu uso para um conjunto de tais medidas. Na linguagem comum ou vulgar, os parâmetros(quase sempre plural) geralmente significam os limites de algo, digamos, um relacionamento pessoal ou uma política política, talvez decorrente de alguma confusão original com o perímetro . Com alta probabilidade prévia, presume-se que os bayesianos falem por si mesmos em seus próprios usos (agradecimento a @conjugateprior).
inclinado não significa tendencioso
Por um século ou mais, a distorção teve um senso estatístico específico de se referir à assimetria das distribuições, avaliadas graficamente, medidas numericamente ou presumidas teoricamente como uma questão de fé ou esperança. Por muito mais tempo, ou pelo menos pode ser adivinhado, o viés significava estar errado, em média, que - desde que saibamos a verdade, significando um valor verdadeiro ou correto - pode ser quantificado como erro sistemático. Inclinado na linguagem comum tem o senso comum de ser distorcido e distorcido e, portanto, incorreto, errado e também tendencioso. Esse sentido (até onde eu notei, apenas muito recentemente) começou a voltar a discussões estatísticas, de modo que o significado original de assimetria corre o risco de ficar embaçado ou submerso.
correlação não significa concordância
A correlação atraiu vários sentidos precisos na estatística, que têm em comum a idéia de uma relação bivariada perfeita em um sentido preciso: os casos principais são a relação linear e monótona. Muitas vezes, é diluído, mesmo em discussões estatísticas, para significar quase qualquer tipo de relacionamento ou associação. O que correlação não significa, necessariamente, é concordância: assim, implica correlação de Pearson de ou , contanto que , mas a concordância requer a condição muito estrita .y=a+bx 1 −1 b≠0 y=x a=0,b=1
único não significa distinto
É bastante comum para falar sobre os valores distintos de dados como único , mas único ainda é idealmente melhor preservada no sentido de que ocorre apenas uma vez. Meu palpite é que parte da culpa deriva do utilitário Unix
uniq
e de seus imitadores, que reduzem possíveis valores repetidos a um conjunto em que cada valor é realmente único. O uso, nesse palpite, confunde a entrada e a saída de um programa. (Por outro lado, se falamos de duplicatas nos dados, raramente nos restringimos a dupletos que ocorrem precisamente duas vezes. O termo replicafaria mais sentido lingüístico, mas foi antecipado para replicação deliberada de controles em experimentos; os valores de resposta resultantes geralmente não são de todo idênticos, o que é muito importante.)amostras raramente são repetidas
Na estatística, uma amostra inclui vários valores, e a amostragem repetida é uma alta virtude teórica, mas raramente praticada, exceto por simulação, que é o nosso termo habitual para qualquer tipo de falsificação in silico . Em muitas ciências, uma amostra é um único objeto, consistindo em um pedaço, pedaço ou quantidade de água, solo, sedimento, rocha, sangue, tecido ou outras substâncias que variam de atrativas a benignas a repugnantes; longe de ser excepcional, coletar muitas amostras pode ser essencial para qualquer análise séria. Aqui, a terminologia de cada campo faz todo o sentido para o seu povo, mas às vezes é necessária tradução.
erro geralmente não significa erro; como Harold Jeffreys apontou, o sentido primário é errático, não errôneo.
No entanto, devemos ter cuidado com nossos próprios pecados ou peculiaridades de terminologia:
regressão não está indo para trás
estacionário não significa imóvel ou fixo
confiança não tem nada a ver com o estado mental ou psicológico de alguém
o significado tem apenas algumas vezes seu significado cotidiano
exato é geralmente um termo honorífico, referindo-se a uma solução ou cálculo convenientemente tratável, e não a um apropriado para o problema
distribuições inclinadas à direita para muitas parecem distorcidas à esquerda e vice-versa
o lognormal é assim chamado porque é um normal exponenciado
mas o lognormal é mais normal que o normal
o gaussiano foi descoberto por De Moivre
Poisson não descobriu o Poisson , muito menos a regressão de Poisson
o bootstrap não irá ajudá-lo com o seu calçado
o canivete não corta
curtose não é uma condição médica
parcelas de caule e folhas não se referem a plantas
uma variável fictícia é útil, não faz sentido ou é estúpida
quem na Terra (ou em qualquer outro lugar) pensa que heterocedasticidade é realmente um termo preferível à variabilidade desigual ?
O robusto agora tem pelo menos dois significados técnicos principais para grupos diferentes, nenhum dos quais inibe seu uso frequente, mesmo em discussões técnicas, para significar apenas algo como "afirmado para se comportar bem"
IV agora tem pelo menos dois significados principais para diferentes grupos
O fator agora tem pelo menos dois significados principais para diferentes grupos
normalizar e padronizar têm inúmeros significados (precisamos realmente padronizar lá)
versus descrever um gráfico significa variável vertical versus variável horizontal , a menos que signifique o oposto
e (por último, mas não menos importante, cunhar uma frase) as estatísticas têm pelo menos três significados principais.
Notas:
Apesar das aparências em contrário, acho que essa é uma pergunta boa e séria.
A moda muda. Bem no século XX, parece que muitas pessoas (sem nome, sem broca, mas Karl Pearson poderia ser mencionado) só podiam inventar termos buscando seus dicionários de grego e latim. (Seria injusto não lhe dar crédito pelo gráfico de dispersão .) Mas RA Fisher seqüestrou muitas palavras em inglês pré-existentes, incluindo variação , suficiência , eficiência e probabilidade . Mais recentemente, JW Tukey era um mestre no uso de termos caseiros, mas poucos deveriam sentir angústia que as espinhas e os maus mandamentos não entendiam .
Um comentário é baseado na lembrança de "A vida é [...] multiplicativa em vez de aditiva: a distribuição normal do log é mais normal que a normal". Anon. 1962. Regras de trabalho de Bloggins. Em Good, IJ (Ed.) O cientista especula: uma antologia de idéias parcialmente cozidas. Londres: Heinemann, 212-213 (citação na p.213).
fonte
Algumas das coisas que encontro:
Tratar o nível de significância e as probabilidades de cobertura de IC como intercambiáveis, para que as pessoas acabem fazendo coisas como falar em "95% de significância".
[O pior é que as pessoas que cometem tais erros apontam para as anotações das aulas - ou mesmo para os livros - como suporte para isso; em outras palavras, o erro não é deles, mas está sendo composto cem vezes ou milhares de vezes, e pior, mesmo que o entendam corretamente, talvez eles precisem repetir o erro de qualquer maneira, para passar o assunto.]
Há também uma tendência comum de pensar que "significado" existe de alguma forma fora de uma hipótese / pergunta específica (levando a perguntas como "meus dados são significativos" sem nenhuma noção clara de qual pergunta deve ser abordada). [Um problema relacionado é o "que teste devo usar para esses dados?" como se fossem os dados - e não a pergunta a ser respondida - esse é o motor da escolha da análise. (Embora o "design" do estudo possa impactar os testes específicos utilizados, a questão do interesse é mais importante - por exemplo, se você tiver três grupos disponíveis, mas a sua pergunta estiver relacionada apenas à comparação de dois deles, o o fato de você ter três não o força a fazer uma análise de tipo unidirecional, em vez de uma comparação direta dos dois grupos de interesse ... contanto que sua escolha de análise não derive do que os dados mostram. Idealmente, você planeja suas perguntas e análises antes de ter dados, em vez de jogar análises nos dados e ver quais paus, o que parece ser uma pergunta post-hoc de análise - incluindo "que teste devo usar para esses dados?" - tendem a levar a.)
Uma tendência ocasional de se referir ao complemento do valor-p como algum tipo de "confiança em" ou "probabilidade de" a alternativa.
"dados não paramétricos"; outro, infelizmente encontrado em alguns livros (e, infelizmente, em um artigo que pretende corrigir um erro comum), esse aparece com tanta frequência que está na minha pequena lista de comentários gerados automaticamente (que começa "Os dados não são paramétricos nem não paramétricos; são adjetivos que se aplicam a modelos ou técnicas ... ") (agradece a Nick Cox por me lembrar desse ursinho de bug em particular)
Normalmente, o que se pretende são "dados não normais", mas paramétricos não implicam normais e ter normalidade aproximada não implica que precisamos de procedimentos paramétricos. Da mesma forma, a não normalidade não implica que precisamos de procedimentos não paramétricos. Ocasionalmente, o que se pretende são "dados ordinais" ou "dados nominais", mas em nenhum dos casos isso implica que os modelos finito-paramétricos são inadequados.
Uma tendência comum de entender mal o significado de "linear" em "modelo linear" de uma maneira que seria inconsistente com o uso do termo "linear" em "modelo linear generalizado". Isso é parcialmente culpa da maneira como usamos a terminologia.
confluindo o tipo média-menos-mediana de assimetria com a distorção do terceiro momento, e confundindo um zero em (ou mesmo em ambos) com simetria. Ambos os erros são freqüentemente encontrados em textos básicos amplamente utilizados em algumas áreas de aplicação específicas. [Há um erro relacionado ao tratar assimetria zero e curtose zero em excesso como implicando normalidade]
esse é tão comum que está se tornando difícil chamá-lo de erro (devido em parte aos esforços de um programa em particular) - chamar a curtose excessiva simplesmente de "curtose"; um erro praticamente garantido para levar a problemas de comunicação.
fonte
" Dados " é plural . (O singular é "dado").
fonte
Embora não seja estritamente um termo estatístico, voto para retirar a endogeneidade . É usado para se referir a tudo, desde causalidade reversa até confusão e viés de seleção e colisão, quando todas as pessoas realmente querem fazer é dizer: "Esse efeito não é identificado".
fonte
"Regressão para a média" não significa que, se observarmos um certo número de amostras de IDI abaixo do valor esperado, é provável que as próximas amostras de IDI estejam acima do valor esperado.
fonte
Porcentagem vs. Pontos percentuais : se algo aumenta de 1% para 2%, aumenta em 100%. Ou: você pode dizer que aumentou 1 ponto percentual.
Afirmar que o aumento foi de 1% é muito enganador.
fonte
Acho que abreviações que não estão claramente indicadas são um problema real. Por exemplo, vejo coisas como GLM e em nenhum lugar é especificado se isso significa modelo linear geral ou modelo linear generalizado. Normalmente, uma vez é possível descobrir o que está sendo referenciado após a inserção no contexto, mas acho que isso é particularmente problemático para os alunos que estão começando a aprender sobre modelos estatísticos.
Outro exemplo disso é o IV. Isso significa variável instrumental ou variável independente? Muitas vezes, não fica claro até que você examine o contexto.
Outra coisa em que vejo confusão são "moderador" e "interação". Além disso, a população (como na população em geral) e a população de interesse parecem confundir novos alunos, a menos que isso seja esclarecido.
fonte
Um que é comum na linguagem cotidiana:
média
Para a pessoa média lá fora (amarga ironia totalmente planejada), a média, a mediana, o modo e o valor esperado de qualquer coisa parecem ser os mesmos. Eles têm uma tendência natural a fazer uma estimativa pontual, com a suposição inconsciente e inatacável de que existe uma distribuição normal subjacente. E a suposição igualmente inconsciente de uma variação muito pequena. A crença de que tal estimativa 1) existe e 2) será muito útil para eles, porque eles podem tomá-la como um preditor praticamente certo, é tão arraigada que é basicamente impossível convencê-los do contrário.
Para um exemplo do mundo real, tente conversar com um cozinheiro que está perguntando "qual é o tamanho médio da batata", absolutamente certo de que, se você contar um número, ele poderá usá-lo para qualquer receita que especifique um número de batatas, e ele sai perfeito o tempo todo. E ficar com raiva de você por tentar dizer a ele "não existe esse número". Infelizmente, isso acontece em situações com riscos muito maiores do que fazer sopa.
fonte
A curtose não mede "pico".
* Subtraia 3 ou não; não faz diferença a este ponto.
fonte
Linear significa:
Linear significa o oposto de dinâmico . Como em qualquer variável dependente é função de, ela não é função de seus próprios valores anteriores. Nesse aspecto, não linear significa coisas como e .y t - y t - 1 = a + b ( y t - 1 - x t - x ) + c ( x t - x t - 1 ) + d x t - 1yt=a+byt−1+cx yt−yt−1=a+b(yt−1−xt−x)+c(xt−xt−1)+dxt−1
Onde é uma variável dependente, é uma variável independente, e , e são parâmetros em todos os exemplos acima.x a , b , c , d θy x a,b,c,d θ
fonte
A questão era sobre o uso de termos estatísticos que devemos CUIDAR para corrigir. Venho corrigindo o uso do termo "aleatório" por meus filhos milenares para significar coisas que são o oposto de aleatório há 10 anos. Considerando-se quantos de meus estagiários lutam para produzir uma amostra aleatória de dados que é realmente aleatória, o que aconteceu mesmo antes desse uso da palavra, a ofuscação desse termo na gíria cotidiana é uma crise.
No OnlineSlangDictionary:
fonte
Já existem muitos ótimos exemplos mencionados por Glen e Nick ... não resta muito!
Alguns aspectos da regressão
termo de erro e residual (é um pouco engraçado quando as pessoas se orgulham de seus resíduos não estarem correlacionados com os regressores)
previsão e estimativa (devemos parar de fazer a distinção quando se trata dos efeitos aleatórios previstos?)
intervalo de previsão / previsão versus intervalo de confiança. Eu acho que existe uma probabilidade> 0,5 de citar a errada.
regressor (coluna na matriz de projeto) versus covariável et al. Especialmente em situações técnicas em que a distinção é essencial, muitas pessoas (inclusive eu) tendem a ser imprecisas.
fonte
Especialmente em ambientes de seguro, é comum usar variação para se referir a qualquer tipo de diferença, em vez da média das diferenças quadráticas entre cada ponto de dados e a média do conjunto de dados.
fonte
Bayesiano
Os alunos que aprendem isso podem não ter problemas para dizer se algo "parece" bayesiano, mas peça que eles resolvam um problema com uma abordagem freqüentista e bayesiana e provavelmente irão falhar.
Na minha experiência, os alunos acabam aprendendo que é apenas uma diferença filosófica, sem exemplo concreto que mostre o mesmo problema sendo atacado pelas duas abordagens.
Agora pergunte-lhes por que alguém pode adotar uma abordagem freqüentista em seu exemplo; as chances são de que a melhor explicação seria algo como "bem, antigamente, os computadores não existiam ..."
fonte
Risco
Risco não significa probabilidade
Risco é a soma dos custos de todos os resultados, cada um desses custos multiplicado pela probabilidade de ocorrerem.
O risco é geralmente pesado contra a recompensa, que é o ganho que estamos buscando alcançar.
Aqui está um exemplo: Quão mortal é o seu quilowatt . Aqui, os riscos - número de mortos para diferentes fontes de energia - são pesados contra a recompensa - terawatt-hora de energia produzida por essas fontes de energia.
Por exemplo: o risco de energia nuclear não é a probabilidade de um colapso acontecer; é a probabilidade de ocorrer um colapso, multiplicado pelo número de pessoas que morrem dele, somado ao número de pessoas que morrem de operações normais, multiplicado pela probabilidade de que as operações continuem normais.
fonte
Efeitos fixos e aleatórios podem significar coisas diferentes para pessoas diferentes. Na econometria, os efeitos fixos são realmente aleatórios e, quando você pensa sobre isso, todos os efeitos nas estatísticas são aleatórios; portanto, nomear algo aleatório não fornece nenhuma informação adicional significativa.
fonte