Quais termos estatísticos mal utilizados valem a pena corrigir?

103

Estatísticas estão em todo lugar; o uso comum de termos estatísticos é, no entanto, frequentemente incerto.

Os termos probabilidade e probabilidades são usados ​​intercambiáveis ​​no inglês leigo, apesar de suas expressões matemáticas bem definidas e diferentes.

Não separar o termo probabilidade de probabilidade confunde rotineiramente os médicos que tentam quantificar a probabilidade de câncer de mama, dada uma mamografia positiva: “Oh, que absurdo. Eu não posso fazer isso. Você deveria testar minha filha; ela está estudando medicina.

Igualmente espalhado é o uso de correlação em vez de associação . Ou correlação que implica causalidade .

No famoso documentário de Al Gore, An Inconvenient Truth , um slide ilustra a correlação do núcleo de gelo e temperaturas, deixando o trabalho mais técnico para provar a causa fora da discussão:CO2

insira a descrição da imagem aqui

PERGUNTA: Quais termos estatísticos apresentam problemas de interpretação quando usados ​​sem rigor matemático e, portanto, merecem correção?

Antoni Parellada
fonte
4
Probabilidades x probabilidade entre leigos não parecem ser um problema para mim, uma vez que os leigos não os calculariam de qualquer maneira, apenas estariam dizendo que os valores são baixos ou altos e os dois estão diretamente correlacionados.
Mehrdad 21/03
@Mehrdad eu concordo. Na verdade, esse é o ponto ... existe alguma situação em que o uso indevido dessas palavras, que tenha sido adotado e tecnificado dentro dos limites das estatísticas, resulte em problemas. Por exemplo, é claro que há um importante corpo de pesquisa por trás das mudanças climáticas, mas em muitas outras circunstâncias podem ser feitas alegações falsas sugerindo que a correlação é igual à causalidade. No caso de probabilidades e probabilidades, uma delas pode ser convertida na outra, portanto, o único risco é entender mal as suas apostas.
Antoni Parellada 22/03
3
@Mehrdad O ponto sobre as probabilidades é interessante, mas acho que é mais complicado do que aparenta. Quando leigos falam sobre probabilidades, geralmente significam probabilidades de jogos de azar, e são frequentemente expressas no formato "probabilidades contra". Portanto, no sistema com o qual a maioria das pessoas está familiarizada, um alto valor de probabilidade está associado a uma baixa probabilidade, embora, para um estatístico, altas chances estejam associadas a alta probabilidade. Portanto, isso é bastante propício para confusão: veja também nosso post sobre Odds Made Simple
Silverfish
5
Provavelmente, vale lembrar que alguns desses termos eram preexistentes no idioma inglês (com pouco significado), antes de serem apropriados pelas estatísticas e receber definições técnicas rigorosas. É um pouco complicado condensar a palavra, mudar o significado e depois culpar os outros por usá-la de maneira errada quando a usam apenas com a definição mais antiga e não técnica.
RM
Realmente não gosto de chamar os testes de "post hoc", mesmo quando planejados com antecedência. Eu acho que isso começou com algum pacote de estatísticas, mas agora é generalizado.
David Lane

Respostas:

101

Pode ser inútil lutar contra mudanças na linguagem. Mas

parâmetro não significa variável

Na estatística clássica, que neste caso começa precisamente com RA Fisher, que primeiro usou o termo com esse significado, um parâmetro é uma constante desconhecida a ser estimada, digamos, uma média ou correlação populacional. Em matemática, existem significados relacionados, mas não idênticos, como quando uma curva é dada parametricamente. Em muitas ciências, parâmetro é apenas outra palavra para uma medida (ela própria, um termo denso com significado matemático), propriedade ou variável, digamos comprimento ou condutividade, porosidade ou virtude, conforme o caso. Naturalmente, o comprimento ou a virtude de um indivíduo são desconhecidos antes de serem medidos. mas as pessoas de espírito estatístico podem ficar confusas com seu uso para um conjunto de tais medidas. Na linguagem comum ou vulgar, os parâmetros(quase sempre plural) geralmente significam os limites de algo, digamos, um relacionamento pessoal ou uma política política, talvez decorrente de alguma confusão original com o perímetro . Com alta probabilidade prévia, presume-se que os bayesianos falem por si mesmos em seus próprios usos (agradecimento a @conjugateprior).

inclinado não significa tendencioso

Por um século ou mais, a distorção teve um senso estatístico específico de se referir à assimetria das distribuições, avaliadas graficamente, medidas numericamente ou presumidas teoricamente como uma questão de fé ou esperança. Por muito mais tempo, ou pelo menos pode ser adivinhado, o viés significava estar errado, em média, que - desde que saibamos a verdade, significando um valor verdadeiro ou correto - pode ser quantificado como erro sistemático. Inclinado na linguagem comum tem o senso comum de ser distorcido e distorcido e, portanto, incorreto, errado e também tendencioso. Esse sentido (até onde eu notei, apenas muito recentemente) começou a voltar a discussões estatísticas, de modo que o significado original de assimetria corre o risco de ficar embaçado ou submerso.

correlação não significa concordância

A correlação atraiu vários sentidos precisos na estatística, que têm em comum a idéia de uma relação bivariada perfeita em um sentido preciso: os casos principais são a relação linear e monótona. Muitas vezes, é diluído, mesmo em discussões estatísticas, para significar quase qualquer tipo de relacionamento ou associação. O que correlação não significa, necessariamente, é concordância: assim, implica correlação de Pearson de ou , contanto que , mas a concordância requer a condição muito estrita .y=a+bx11b0y=xa=0,b=1

único não significa distinto

É bastante comum para falar sobre os valores distintos de dados como único , mas único ainda é idealmente melhor preservada no sentido de que ocorre apenas uma vez. Meu palpite é que parte da culpa deriva do utilitário Unix uniqe de seus imitadores, que reduzem possíveis valores repetidos a um conjunto em que cada valor é realmente único. O uso, nesse palpite, confunde a entrada e a saída de um programa. (Por outro lado, se falamos de duplicatas nos dados, raramente nos restringimos a dupletos que ocorrem precisamente duas vezes. O termo replicafaria mais sentido lingüístico, mas foi antecipado para replicação deliberada de controles em experimentos; os valores de resposta resultantes geralmente não são de todo idênticos, o que é muito importante.)

amostras raramente são repetidas

Na estatística, uma amostra inclui vários valores, e a amostragem repetida é uma alta virtude teórica, mas raramente praticada, exceto por simulação, que é o nosso termo habitual para qualquer tipo de falsificação in silico . Em muitas ciências, uma amostra é um único objeto, consistindo em um pedaço, pedaço ou quantidade de água, solo, sedimento, rocha, sangue, tecido ou outras substâncias que variam de atrativas a benignas a repugnantes; longe de ser excepcional, coletar muitas amostras pode ser essencial para qualquer análise séria. Aqui, a terminologia de cada campo faz todo o sentido para o seu povo, mas às vezes é necessária tradução.

erro geralmente não significa erro; como Harold Jeffreys apontou, o sentido primário é errático, não errôneo.

No entanto, devemos ter cuidado com nossos próprios pecados ou peculiaridades de terminologia:

regressão não está indo para trás

estacionário não significa imóvel ou fixo

confiança não tem nada a ver com o estado mental ou psicológico de alguém

o significado tem apenas algumas vezes seu significado cotidiano

exato é geralmente um termo honorífico, referindo-se a uma solução ou cálculo convenientemente tratável, e não a um apropriado para o problema

distribuições inclinadas à direita para muitas parecem distorcidas à esquerda e vice-versa

o lognormal é assim chamado porque é um normal exponenciado

mas o lognormal é mais normal que o normal

o gaussiano foi descoberto por De Moivre

Poisson não descobriu o Poisson , muito menos a regressão de Poisson

o bootstrap não irá ajudá-lo com o seu calçado

o canivete não corta

curtose não é uma condição médica

parcelas de caule e folhas não se referem a plantas

uma variável fictícia é útil, não faz sentido ou é estúpida

quem na Terra (ou em qualquer outro lugar) pensa que heterocedasticidade é realmente um termo preferível à variabilidade desigual ?

O robusto agora tem pelo menos dois significados técnicos principais para grupos diferentes, nenhum dos quais inibe seu uso frequente, mesmo em discussões técnicas, para significar apenas algo como "afirmado para se comportar bem"

IV agora tem pelo menos dois significados principais para diferentes grupos

O fator agora tem pelo menos dois significados principais para diferentes grupos

normalizar e padronizar têm inúmeros significados (precisamos realmente padronizar lá)

versus descrever um gráfico significa variável vertical versus variável horizontal , a menos que signifique o oposto

e (por último, mas não menos importante, cunhar uma frase) as estatísticas têm pelo menos três significados principais.

Notas:

  1. Apesar das aparências em contrário, acho que essa é uma pergunta boa e séria.

  2. A moda muda. Bem no século XX, parece que muitas pessoas (sem nome, sem broca, mas Karl Pearson poderia ser mencionado) só podiam inventar termos buscando seus dicionários de grego e latim. (Seria injusto não lhe dar crédito pelo gráfico de dispersão .) Mas RA Fisher seqüestrou muitas palavras em inglês pré-existentes, incluindo variação , suficiência , eficiência e probabilidade . Mais recentemente, JW Tukey era um mestre no uso de termos caseiros, mas poucos deveriam sentir angústia que as espinhas e os maus mandamentos não entendiam .

  3. Um comentário é baseado na lembrança de "A vida é [...] multiplicativa em vez de aditiva: a distribuição normal do log é mais normal que a normal". Anon. 1962. Regras de trabalho de Bloggins. Em Good, IJ (Ed.) O cientista especula: uma antologia de idéias parcialmente cozidas. Londres: Heinemann, 212-213 (citação na p.213).

Nick Cox
fonte
Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .
whuber
A heteroscedasticidade agita totalmente a caixa do gato! "Variabilidade desigual?" [Phuagh!]) (+1 muito bom de outra forma;) #
Alexis
1
Vale a pena acrescentar que o teste de regressão é frequentemente usado no contexto do desenvolvimento de software, onde, em termos gerais, refere-se a retroceder.
Konrad
@ Konrad Interessante, mas então (me corrija se estiver errado) (a) isso não seria um uso indevido da palavra eb) a palavra não tem um sentido estatístico.
Nick Cox
@NickCox Correct.
Konrad
33

Algumas das coisas que encontro:

  1. Tratar o nível de significância e as probabilidades de cobertura de IC como intercambiáveis, para que as pessoas acabem fazendo coisas como falar em "95% de significância".

    [O pior é que as pessoas que cometem tais erros apontam para as anotações das aulas - ou mesmo para os livros - como suporte para isso; em outras palavras, o erro não é deles, mas está sendo composto cem vezes ou milhares de vezes, e pior, mesmo que o entendam corretamente, talvez eles precisem repetir o erro de qualquer maneira, para passar o assunto.]

  2. Há também uma tendência comum de pensar que "significado" existe de alguma forma fora de uma hipótese / pergunta específica (levando a perguntas como "meus dados são significativos" sem nenhuma noção clara de qual pergunta deve ser abordada). [Um problema relacionado é o "que teste devo usar para esses dados?" como se fossem os dados - e não a pergunta a ser respondida - esse é o motor da escolha da análise. (Embora o "design" do estudo possa impactar os testes específicos utilizados, a questão do interesse é mais importante - por exemplo, se você tiver três grupos disponíveis, mas a sua pergunta estiver relacionada apenas à comparação de dois deles, o o fato de você ter três não o força a fazer uma análise de tipo unidirecional, em vez de uma comparação direta dos dois grupos de interesse ... contanto que sua escolha de análise não derive do que os dados mostram. Idealmente, você planeja suas perguntas e análises antes de ter dados, em vez de jogar análises nos dados e ver quais paus, o que parece ser uma pergunta post-hoc de análise - incluindo "que teste devo usar para esses dados?" - tendem a levar a.)

  3. Uma tendência ocasional de se referir ao complemento do valor-p como algum tipo de "confiança em" ou "probabilidade de" a alternativa.

  4. "dados não paramétricos"; outro, infelizmente encontrado em alguns livros (e, infelizmente, em um artigo que pretende corrigir um erro comum), esse aparece com tanta frequência que está na minha pequena lista de comentários gerados automaticamente (que começa "Os dados não são paramétricos nem não paramétricos; são adjetivos que se aplicam a modelos ou técnicas ... ") (agradece a Nick Cox por me lembrar desse ursinho de bug em particular)

    Normalmente, o que se pretende são "dados não normais", mas paramétricos não implicam normais e ter normalidade aproximada não implica que precisamos de procedimentos paramétricos. Da mesma forma, a não normalidade não implica que precisamos de procedimentos não paramétricos. Ocasionalmente, o que se pretende são "dados ordinais" ou "dados nominais", mas em nenhum dos casos isso implica que os modelos finito-paramétricos são inadequados.

  5. Uma tendência comum de entender mal o significado de "linear" em "modelo linear" de uma maneira que seria inconsistente com o uso do termo "linear" em "modelo linear generalizado". Isso é parcialmente culpa da maneira como usamos a terminologia.

  6. confluindo o tipo média-menos-mediana de assimetria com a distorção do terceiro momento, e confundindo um zero em (ou mesmo em ambos) com simetria. Ambos os erros são freqüentemente encontrados em textos básicos amplamente utilizados em algumas áreas de aplicação específicas. [Há um erro relacionado ao tratar assimetria zero e curtose zero em excesso como implicando normalidade]

  7. esse é tão comum que está se tornando difícil chamá-lo de erro (devido em parte aos esforços de um programa em particular) - chamar a curtose excessiva simplesmente de "curtose"; um erro praticamente garantido para levar a problemas de comunicação.

Glen_b
fonte
2
+1. Quero lembrá-lo dos grotescos "dados não paramétricos", que pertencem melhor a esta lista do que à minha. O excesso de curtose é um irmão feio de curtose crua.
Nick Cox
@ Nick Obrigado, eu tenho sentado aqui olhando para minha lista dizendo "há algo mais que realmente me irrita que eu sei que pertence aqui". Esse é esse.
22416 Glen_b
3
Outro é o "teste estatístico" expandido tão amplamente que se torna a pergunta inicial: que teste devo aplicar aos meus dados? freqüentemente na crença de que haverá uma resposta única na forma "t de Student", "Mann-Whitney" ou "qui-quadrado". Para qual minha resposta é mais geralmente, talvez nenhuma, ou temos que analisar cuidadosamente seus dados e discutir qual é sua verdadeira pergunta antes que possamos pensar sobre isso.
Nick Cox
@ Nick Esse se relaciona intimamente com o meu item 2. Gostaria de saber se existe uma boa maneira de expandir esse item.
Glen_b 22/03
1
Receio que muitos textos estatísticos (aparentemente) incentivem esse pensamento.
Nick Cox
31

" Dados " é plural . (O singular é "dado").

gung
fonte
2
Você realmente fala sobre um dado? Geralmente, esse ponto ... esse valor ..., essa observação ..., pelo menos a seguir.
Nick Cox
5
Data também é um andróide singular, que assimila dados sobre humanos que ele observa para chegar a conclusões baseadas em dados, muitas vezes com efeito humorístico.
Matthew Drury
2
Você teria que percorrer um longo caminho para ouvir isso.
Nick Cox
5
Dados plurais requerem não apenas concordância do verbo - "dados são" em vez de "dados são", mas quantificadores - "muitos dados" em vez de "muitos dados", "menos dados" em vez de "menos dados". Tão poucas pessoas conseguem ser consistentes que parece ser uma causa perdida.
Scortchi
5
Apesar de anos (ou décadas) lutando contra isso (meus professores de latim ficariam satisfeitos), cheguei a uma visão semelhante à do @ Scortchi. Mas tento usar a palavra conjunto de dados sempre que possível, influenciada principalmente pelas práticas da StataCorp. Isso resolve algumas das dificuldades.
22416 Nick Cox
14

Embora não seja estritamente um termo estatístico, voto para retirar a endogeneidade . É usado para se referir a tudo, desde causalidade reversa até confusão e viés de seleção e colisão, quando todas as pessoas realmente querem fazer é dizer: "Esse efeito não é identificado".

conjugado
fonte
Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .
Glen_b
13

"Regressão para a média" não significa que, se observarmos um certo número de amostras de IDI abaixo do valor esperado, é provável que as próximas amostras de IDI estejam acima do valor esperado.

Benjamin Lindqvist
fonte
3
+1 Isso é importante. Pessoas notáveis ​​ficaram extraordinariamente confusas com isso. Por exemplo, o popular livro de Peter Bernstein sobre análise de risco, Against the Gods . caracteriza a regressão à média de várias maneiras diferentes - nenhuma delas correta.
whuber
10

Porcentagem vs. Pontos percentuais : se algo aumenta de 1% para 2%, aumenta em 100%. Ou: você pode dizer que aumentou 1 ponto percentual.

Afirmar que o aumento foi de 1% é muito enganador.

SPhadler
fonte
7

Acho que abreviações que não estão claramente indicadas são um problema real. Por exemplo, vejo coisas como GLM e em nenhum lugar é especificado se isso significa modelo linear geral ou modelo linear generalizado. Normalmente, uma vez é possível descobrir o que está sendo referenciado após a inserção no contexto, mas acho que isso é particularmente problemático para os alunos que estão começando a aprender sobre modelos estatísticos.

Outro exemplo disso é o IV. Isso significa variável instrumental ou variável independente? Muitas vezes, não fica claro até que você examine o contexto.

Outra coisa em que vejo confusão são "moderador" e "interação". Além disso, a população (como na população em geral) e a população de interesse parecem confundir novos alunos, a menos que isso seja esclarecido.

StatsStudent
fonte
5
Eu também vi GLM significando "Modelos Lineares Globais" por alguns na multidão de aprendizado de máquina. Só para aumentar a confusão em um termo já sobrecarregado
Glen_b
1
Em parte, apoio esta resposta / observação. Eu acho que "Generalizado" (seja o que for) deve ser abreviado melhor para Gz, não para G. Como GzLM (modelo linear generalizado).
ttnphns
2
@ttnphns: alguns de nós escrevem generalizado com um s
Henry
Estou curioso @ttnphns, que parte desta resposta você não apoia e por quê? É bem possível que eu entenda algo errado, então gostaria de saber mais se você tiver algo a oferecer mais. Obrigado!
StatsStudent
1
Ah, eu pensei que IV significava in vitro. = P
Mehrdad 25/03
7

Um que é comum na linguagem cotidiana:

média

Para a pessoa média lá fora (amarga ironia totalmente planejada), a média, a mediana, o modo e o valor esperado de qualquer coisa parecem ser os mesmos. Eles têm uma tendência natural a fazer uma estimativa pontual, com a suposição inconsciente e inatacável de que existe uma distribuição normal subjacente. E a suposição igualmente inconsciente de uma variação muito pequena. A crença de que tal estimativa 1) existe e 2) será muito útil para eles, porque eles podem tomá-la como um preditor praticamente certo, é tão arraigada que é basicamente impossível convencê-los do contrário.

Para um exemplo do mundo real, tente conversar com um cozinheiro que está perguntando "qual é o tamanho médio da batata", absolutamente certo de que, se você contar um número, ele poderá usá-lo para qualquer receita que especifique um número de batatas, e ele sai perfeito o tempo todo. E ficar com raiva de você por tentar dizer a ele "não existe esse número". Infelizmente, isso acontece em situações com riscos muito maiores do que fazer sopa.

rumtscho
fonte
3
Eu acho que isso é um pouco exagerado. Por exemplo, milhões, senão bilhões, de pessoas parecem ter pouca dificuldade com as médias nos esportes.
Nick Cox
1
@NickCox certamente depende do contexto. Especialmente o cálculo de uma média aritmética para dados fornecidos é sem problemas. Vi o problema especificamente nos casos que descrevi, onde eles precisam de uma estimativa pontual e assumem que a "média" é muito precisa. Além disso, eles assumem que essa "média" seja calculada como média, mas se você pedir que explique o que eles significam por média, eles descrevem aproximadamente um modo.
rumtscho
@rumtscho, você está certo. Joe Average pode tender a pensar na média como sendo o modo, ou típico.
Mark L. Stone
Quando as pessoas falam sobre preços "médios" de casas no Reino Unido, não podem me dizer o tipo de média que estão usando ou se os contornos foram excluídos.
Ian Ringrose 23/03
1
Não há nada que diga que meios não podem ser computados para distribuições multimodais; é apenas com frequência que não é a melhor medida para descrever a distribuição. Além disso, não tenho certeza de que seja bom para a imagem dos estatísticos dizer a todos "Você não sabe o que significa a palavra média!" e quando eles apontam para uma definição de dicionário, respondemos "Bem, o dicionário também não!"
Cliff AB
7

A curtose não mede "pico".

Z4|Z||Z|

* Subtraia 3 ou não; não faz diferença a este ponto.

Peter Westfall
fonte
1
ZZ
1
Tive um professor de estatística cipriota grega, que nos ensinou que leptocúrtico, em grego, significa "ombros estreitos" ou "encurvados". Assim, uma distribuição leptocúrtica (por exemplo, um Laplace ou dupla exponencial) possui menos massa que a gaussiana (de igual variância) em suas áreas de "ombro" - e correspondentemente mais massa nas áreas de cabeça e cauda. Por outro lado, uma distribuição platykurtic (por exemplo, o uniforme) tem mais massa nos ombros e menos massa nas áreas da cabeça e cauda do que o normal.
Mico
2
Boa explicação das palavras, mas na realidade elas nada têm a ver com a estatística de curtose que Pearson desenvolveu. Pearson entendeu errado, mas ao usar aquelas palavras gregas que soavam chiques, ele fez os outros pensarem que ele estava envolvido em algo profundo. Infelizmente, seu erro prejudicou o ensino e a alfabetização estatística por mais de 100 anos. Veja meu artigo para distribuições pontudas ("lepto") em que a curtose é pequena e distribuições de topo plano ("platy") em que a curtose é quase infinita. A curtose de Pearson não diz nada sobre "lepto" ou "platy". ncbi.nlm.nih.gov/pmc/articles/PMC4321753
Peter Westfall
5

Linear significa:

  • y=a+bxy=a+bx+cx2y=axb

  • y=ea+bx1+ea+bxy=a+bx+xmax(xθ,0)

  • Linear significa o oposto de dinâmico . Como em qualquer variável dependente é função de, ela não é função de seus próprios valores anteriores. Nesse aspecto, não linear significa coisas como e .y t - y t - 1 = a + b ( y t - 1 - x t - x ) + c ( x t - x t - 1 ) + d x t - 1yt=a+byt1+cxytyt1=a+b(yt1xtx)+c(xtxt1)+dxt1

Onde é uma variável dependente, é uma variável independente, e , e são parâmetros em todos os exemplos acima.x a , b , c , d θyxa,b,c,dθ

Alexis
fonte
5

A questão era sobre o uso de termos estatísticos que devemos CUIDAR para corrigir. Venho corrigindo o uso do termo "aleatório" por meus filhos milenares para significar coisas que são o oposto de aleatório há 10 anos. Considerando-se quantos de meus estagiários lutam para produzir uma amostra aleatória de dados que é realmente aleatória, o que aconteceu mesmo antes desse uso da palavra, a ofuscação desse termo na gíria cotidiana é uma crise.

No OnlineSlangDictionary:

Definition of random


random

adjective
  • inesperado e surpreendente.
    All of the sudden this guy jumped out from behind the bushes, it was so random!
    The street cleaner never comes down our street. How random.
    
  • inesperadamente ótimo.
    The party was totally random.
    
SASmom
fonte
4

Já existem muitos ótimos exemplos mencionados por Glen e Nick ... não resta muito!

Alguns aspectos da regressão

  • termo de erro e residual (é um pouco engraçado quando as pessoas se orgulham de seus resíduos não estarem correlacionados com os regressores)

  • previsão e estimativa (devemos parar de fazer a distinção quando se trata dos efeitos aleatórios previstos?)

  • intervalo de previsão / previsão versus intervalo de confiança. Eu acho que existe uma probabilidade> 0,5 de citar a errada.

  • regressor (coluna na matriz de projeto) versus covariável et al. Especialmente em situações técnicas em que a distinção é essencial, muitas pessoas (inclusive eu) tendem a ser imprecisas.

Michael M
fonte
Desculpe, estou confuso. Existe uma diferença entre previsão e estimativa? Você poderia explicar mais sobre seus dois últimos pontos também? Obrigado!
Yuqian
3

Especialmente em ambientes de seguro, é comum usar variação para se referir a qualquer tipo de diferença, em vez da média das diferenças quadráticas entre cada ponto de dados e a média do conjunto de dados.

clarinetista
fonte
6
Eu também encontrei a variação usada nesse sentido diferente, mas note que a variação era uma palavra em inglês existente quando RA Fisher a sequestrou para esse fim em 1918. Portanto, esse é um uso diferente; as pessoas estatísticas não podem reivindicar a propriedade do verdadeiro significado.
Nick Cox
3

Bayesiano

Os alunos que aprendem isso podem não ter problemas para dizer se algo "parece" bayesiano, mas peça que eles resolvam um problema com uma abordagem freqüentista e bayesiana e provavelmente irão falhar.

Na minha experiência, os alunos acabam aprendendo que é apenas uma diferença filosófica, sem exemplo concreto que mostre o mesmo problema sendo atacado pelas duas abordagens.

Agora pergunte-lhes por que alguém pode adotar uma abordagem freqüentista em seu exemplo; as chances são de que a melhor explicação seria algo como "bem, antigamente, os computadores não existiam ..."

Mehrdad
fonte
Você poderia compartilhar sua explicação sobre por que alguém pode adotar uma abordagem freqüentista? Obrigado!
Yuqian
4
@yuqian: Sim. Para mim, a parte importante é que você faça isso quando quiser que as pessoas concordem objetivamente com você. As abordagens bayesianas exigem distribuições prévias, que são inerentemente subjetivas, e nos problemas do mundo real não existe um único objetivo objetivamente correto ... o que significa que duas pessoas podem calcular respostas diferentes para o mesmo problema, dependendo do que acham que seus anteriores devem ser. Com uma abordagem freqüentista, não existe essa ambiguidade e isso possibilita comparar seus resultados com os de outras pessoas de maneira objetiva.
Mehrdad
2

Risco

Risco não significa probabilidade

Risco é a soma dos custos de todos os resultados, cada um desses custos multiplicado pela probabilidade de ocorrerem.

O risco é geralmente pesado contra a recompensa, que é o ganho que estamos buscando alcançar.

Aqui está um exemplo: Quão mortal é o seu quilowatt . Aqui, os riscos - número de mortos para diferentes fontes de energia - são pesados ​​contra a recompensa - terawatt-hora de energia produzida por essas fontes de energia.

Por exemplo: o risco de energia nuclear não é a probabilidade de um colapso acontecer; é a probabilidade de ocorrer um colapso, multiplicado pelo número de pessoas que morrem dele, somado ao número de pessoas que morrem de operações normais, multiplicado pela probabilidade de que as operações continuem normais.

Michael Karnerfors
fonte
4
"Risco" não tem uma definição padrão universalmente aceita. Mas "a soma dos custos [perdas] de todos os resultados, cada um desses custos [perdas] multiplicados pela probabilidade de que eles aconteçam" é a definição de custo esperado [perda]. O risco, por outro lado, geralmente se refere a desvios (adversos) da perda esperada. Então, sua definição é expectativa, enquanto penso que definições típicas de risco tratam de dispersão.
A. Webb
Por exemplo, quando compramos seguros, o objetivo é reduzir o risco (reduzir o impacto de eventos improváveis), mas os custos reais esperados são mais altos para o segurado, com a diferença nas despesas e nos lucros da seguradora. As perdas extremas na cauda foram negociadas por um custo mais estável do prêmio.
A. Webb
3
@ A.Webb FWIW, a Sociedade (internacional) de Análise de Risco define risco como "O potencial para realização de conseqüências adversas indesejadas à vida humana, saúde, propriedade ou meio ambiente; a estimativa de risco geralmente é baseada no valor esperado de a probabilidade condicional do evento ocorrer vezes a consequência do evento, uma vez que ocorreu. " Portanto, o risco parece ter uma definição padrão - e mostra que você está certo em distinguir o risco de como ele pode ser estimado ou medido.
whuber
1
Risco, conforme usado por epidemiologistas, também significa a taxa na qual a probabilidade de um evento ocorre , ou . P(A)/t
Alexis
2

Efeitos fixos e aleatórios podem significar coisas diferentes para pessoas diferentes. Na econometria, os efeitos fixos são realmente aleatórios e, quando você pensa sobre isso, todos os efeitos nas estatísticas são aleatórios; portanto, nomear algo aleatório não fornece nenhuma informação adicional significativa.

mpiktas
fonte