Qual é a diferença entre probabilidade e estatística?

Respostas:

114

A resposta curta que ouvi de Persi Diaconis é a seguinte: os problemas considerados pela probabilidade e pelas estatísticas são inversos entre si. Na teoria das probabilidades, consideramos algum processo subjacente que possui alguma aleatoriedade ou incerteza modelada por variáveis ​​aleatórias e descobrimos o que acontece. Nas estatísticas, observamos algo que aconteceu e tentamos descobrir qual processo subjacente explicaria essas observações.

Mark Meckes
fonte
2
Portanto, a estatística observa o que acontece no mundo físico, teoriza sobre o processo subjacente e, depois de encontrar o processo, usa-o no sentido de probabilidade para prever o que acontecerá a seguir?
hSLC
Não sou estatístico, mas, pelo que entendi, eu diria que sim, essa parte do que a estatística faz.
MarkMeckes
16
Indução vs dedução?
Paolo
6
Como Paolo disse, a teoria da probabilidade se preocupa principalmente com a parte dedutiva, as estatísticas com a parte indutiva dos processos de modelagem com incerteza. Talvez seja interessante mencionar que, se alguém pensa que o raciocínio indutivo plausível deve ser consistente, na verdade o resultado é estatística bayesiana e, mais interessante, isso pode ser derivado da teoria da probabilidade. Portanto, a estatística bayesiana é basicamente a teoria da probabilidade aplicada, por assim dizer.
Thies Heidecke
1
@Paolo Statistical Inference é considerado "Estatísticas indutivos"
kervin
77

Eu gosto do exemplo de um pote de jujubas vermelhas e verdes.

Um probabilista começa conhecendo a proporção de cada um e pergunta a probabilidade de desenhar uma jujuba vermelha. Um estatístico deduz a proporção de jujubas vermelhas por amostragem no pote.

John D. Cook
fonte
Mas isso não é apenas formulação? Um probabilista pode perguntar "dado que eu desenhei três feijões vermelhos, qual é a probabilidade de a proporção ser cinquenta e cinquenta e cinquenta?"
Thomas Ahle 28/10
2
@ Thomasmasle: Essa não é uma pergunta de probabilidade bem definida, a menos que você assuma algum modelo probabilístico subjacente para a distribuição original de cores.
precisa saber é o seguinte
55

É enganoso dizer simplesmente que a estatística é simplesmente o inverso da probabilidade. Sim, questões estatísticas são questões de probabilidade inversa, mas são problemas inversos mal colocados , e isso faz uma grande diferença em termos de como elas são abordadas.

A probabilidade é um ramo da matemática pura - as perguntas de probabilidade podem ser colocadas e resolvidas usando o raciocínio axiomático e, portanto, existe uma resposta correta para qualquer pergunta de probabilidade.

As questões estatísticas podem ser convertidas em perguntas de probabilidade pelo uso de modelos de probabilidade . Uma vez que fazemos certas suposições sobre o mecanismo que gera os dados, podemos responder a perguntas estatísticas usando a teoria da probabilidade. No entanto, a formulação e a verificação adequadas desses modelos de probabilidade são tão importantes, ou até mais importantes, do que a análise subsequente do problema usando esses modelos.

Pode-se dizer que as estatísticas são compostas por duas partes. A primeira parte é a questão de como formular e avaliar modelos probabilísticos para o problema; esse esforço está dentro do domínio da "filosofia da ciência". A segunda parte é a questão de obter respostas depois que um determinado modelo foi assumido. Essa parte da estatística é realmente uma questão de teoria de probabilidade aplicada e, na prática, também contém uma boa quantidade de análises numéricas.

Veja: http://bactra.org/reviews/error/

charles.y.zheng
fonte
2
Eu te amo por esta resposta
badatmath
16

Gosto disso nas apostas calculadas de Steve Skienna (veja o link para uma discussão completa):

Em resumo, a teoria da probabilidade nos permite encontrar as conseqüências de um determinado mundo ideal, enquanto a teoria estatística nos permite medir até que ponto nosso mundo é ideal.

ars
fonte
13

Probabilidade é uma ciência pura (matemática), estatística é sobre dados. Eles estão conectados, pois a probabilidade forma algum tipo de fundamento para a estatística, fornecendo idéias básicas.


fonte
3
Então probabilidade é pura matemática e estatística é aplicada matemática?
hSLC
4
As estatísticas podem ser aplicadas e podem não ser; ainda o conceito de dados está sempre presente.
13

A Tabela 3.1 da Bioestatística intuitiva responde a essa pergunta com o diagrama mostrado abaixo. Observe que todas as setas apontam para a direita para probabilidade e para a esquerda para estatísticas.

PROBABILIDADE

Geral ---> Específico

População ---> Amostra

Modelo ---> Dados

ESTATISTICAS

Geral <--- Específico

População <--- Amostra

Modelo <--- Dados

Harvey Motulsky
fonte
1
Então estatística é sinônimo de análise de dados?
hSLC
3
Não vejo distinção.
26410 Harvey Motulsky
3
Algumas análises de dados não se baseiam em estatísticas freqüentes.
pe.
11

A probabilidade responde a perguntas sobre o que acontecerá, a estatística responde a perguntas sobre o que aconteceu.

Justin Bozonier
fonte
3
Por essa definição, no entanto, um intervalo de previsão é mais probabilidade do que estatística.
Glen_b
10

A probabilidade é quantificar a incerteza, enquanto as estatísticas explicam a variação de alguma medida de interesse (por exemplo, por que os níveis de renda variam?) Que observamos no mundo real.

Explicamos a variação usando alguns fatores observáveis ​​(por exemplo, sexo, nível de escolaridade, idade etc. para o exemplo de renda). No entanto, como não podemos levar em consideração todos os fatores possíveis que afetam a renda, deixamos qualquer variação inexplicável em erros aleatórios (que é onde entra a quantificação da incerteza).

Como atribuímos "Variação = Efeito de fatores observáveis ​​+ Efeito de erros aleatórios", precisamos das ferramentas fornecidas pela probabilidade para explicar o efeito de erros aleatórios na variação que observamos.

Alguns exemplos a seguir:

Quantificando a incerteza

Exemplo 1: Você joga um dado de 6 lados. Qual é a probabilidade de obter um 1?

Exemplo 2: Qual é a probabilidade de que a renda anual de uma pessoa adulta selecionada aleatoriamente nos Estados Unidos seja inferior a US $ 40.000?

Explicando a variação

Exemplo 1: Observamos que a renda anual de uma pessoa varia. Quais fatores explicam a variação na renda de uma pessoa?

Claramente, não podemos explicar todos os fatores. Assim, atribuímos a renda de uma pessoa a alguns fatores observáveis ​​(por exemplo, nível de educação, sexo, idade etc.) e deixamos qualquer variação restante à incerteza (ou no idioma da estatística: a erros aleatórios).

Exemplo 2: Observamos que alguns consumidores escolhem a maré na maioria das vezes que compram um detergente, enquanto outros optam pela marca de detergente xyz. O que explica a variação na escolha? Atribuímos a variação nas opções a alguns fatores observáveis, como preço, nome da marca, etc. e deixamos qualquer variação inexplicável em erros aleatórios (ou incertezas).

Alexis
fonte
1
E se os erros aleatórios se tornarem maiores que os fatores observáveis ​​ao longo do tempo?
hSLC
Nesse caso, você refaz seu modelo, pois ele não é mais consistente com a realidade.
8

A probabilidade é o abraço da incerteza, enquanto a estatística é uma busca empírica e voraz da verdade (mentirosos malditos excluídos, é claro).


fonte
Aqui estou pensando em todas as probabilidades freqüentistas / bayesianas e todas as estatísticas descritivas / exploratórias / inferenciais.
7

Semelhante ao que Mark disse, a Estatística foi chamada historicamente de Probabilidade Inversa , uma vez que a estatística tenta inferir as causas de um evento, dadas as observações, enquanto a probabilidade tende a ser o contrário.

raegtin
fonte
6

A probabilidade de um evento é sua frequência relativa de longo prazo. Então, basicamente, está lhe dizendo a chance de, por exemplo, obter uma 'cabeça' no próximo lançamento de uma moeda ou obter um '3' no próximo lançamento de um dado.

Uma estatística é qualquer medida numérica calculada a partir de uma amostra da população. Por exemplo, a amostra média. Usamos isso como uma estatística que estima a média da população, que é um parâmetro. Então, basicamente, está fornecendo algum tipo de resumo de uma amostra.

  • Você só pode obter uma estatística de uma amostra; caso contrário, se você calcular uma medida numérica em uma população, ela será chamada de parâmetro de população.
Tony Breyal
fonte
6

Estudos de probabilidade, bem, quão prováveis ​​são os eventos. Você sabe intuitivamente o que é probabilidade.

Estatística é o estudo de dados: mostrando-o (usando ferramentas como gráficos), resumindo-o (usando meios e desvios-padrão etc.), chegando a conclusões sobre o mundo a partir do qual esses dados foram extraídos (ajustando linhas aos dados etc.), e - isso é fundamental - quantificar quão seguros podemos ter sobre nossas conclusões.

Para quantificar quão seguros podemos ter sobre nossas conclusões, precisamos usar Probabilidade. Digamos que você tenha dados do ano passado sobre as chuvas na região onde você mora e onde eu moro. No ano passado, choveu uma média de 1/4 de polegada por semana onde você mora e 3/8 de polegada onde eu moro. Então, podemos dizer que as chuvas na minha região são, em média, 50% maiores do que onde você mora, certo? Não é tão rápido, Sparky. Pode ser uma coincidência: talvez tenha chovido muito no ano passado onde eu moro. Podemos usar o Probability para estimar quão confiantes podemos estar em nossa conclusão de que minha casa é 50% mais úmida que a sua.

Então, basicamente, você pode dizer que Probabilidade é o fundamento matemático da Teoria da Estatística.

Carlos Accioly
fonte
5

Na teoria da probabilidade, recebemos variáveis ​​aleatórias X1, X2, ... de alguma forma, e depois estudamos suas propriedades, ou seja, calculamos a probabilidade P {X1 \ in B1}, estudamos a convergência de X1, X2, ... etc .

Nas estatísticas matemáticas, recebemos n realizações de alguma variável aleatória X e conjunto de distribuições D; o problema é encontrar entre as distribuições de D uma que provavelmente gera os dados que observamos.


fonte
Então, só podemos encontrar padrões que estávamos procurando em primeiro lugar?
hSLC
4

Na probabilidade, a distribuição é conhecida e conhecível com antecedência - você começa com uma função de distribuição de probabilidade conhecida (ou similar) e faz uma amostra dela.

Nas estatísticas, a distribuição é desconhecida antecipadamente. Pode até ser incognoscível. São levantadas hipóteses sobre a distribuição de probabilidade por trás dos dados observados, para poder aplicar a teoria da probabilidade a esses dados, a fim de saber se uma hipótese nula sobre esses dados pode ser rejeitada ou não.

Há uma discussão filosófica sobre se existe uma probabilidade no mundo real ou se é uma invenção ideal de nossa imaginação matemática, e todas as nossas observações só podem ser estatísticas.

EnergyNumbers
fonte
3

Estatística é a busca da verdade diante da incerteza. A probabilidade é a ferramenta que nos permite quantificar a incerteza.

(Forneci outra resposta mais longa, que pressupunha que o que estava sendo perguntado era algo como "como você explicaria isso a sua avó?")

Carlos Accioly
fonte
3

(Ω,F,P)θ(Ω,F,Pθ)θ

θθ

Isenção de responsabilidade: as respostas acima são matemáticas. Na realidade, grande parte do Estatística também trata de projetar / descobrir modelos apropriados, questionar modelos existentes, projetar experimentos, lidar com dados imperfeitos etc. "Todos os modelos estão errados".

gusl
fonte
4
Analogamente, se perguntado "o que é química?" poderíamos responder que é um conjunto de equações diferenciais. Uma descrição da teoria matemática pode nos dar uma pequena idéia do que é um assunto, mas não é o próprio assunto.
whuber
3

Probabilidade : dados parâmetros conhecidos, encontre a probabilidade de observar um conjunto específico de dados.

Estatísticas : dado um conjunto específico de dados observados, faça uma inferência sobre quais podem ser os parâmetros.

A estatística é "mais subjetiva" e "mais arte do que ciência" (relativa à probabilidade).

Exemplo_

p

p=12HHH

18

HHHp

Estatísticos diferentes darão respostas diferentes, muitas vezes prolongadas.

Kenny LJ
fonte
3

A diferença entre probabilidades e estatísticas é que nas probabilidades não há erro. Temos certeza da probabilidade, porque sabemos exatamente quantos lados tem uma moeda ou quantos caramelos azuis estão no vaso. Mas, nas estatísticas, examinamos um pedaço de uma população do que quer que examinemos e, a partir disso, tentamos ver a verdade, mas sempre há um% de conclusões erradas. A única coisa verdadeira nas estatísticas é esse erro de%, que de fato é uma probabilidade.

TheodoreM
fonte
2

O texto de Savage, Foundations of Statistics, foi citado mais de 12000 vezes no Google Scholar. [3] Diz o seguinte.

É unânime que as estatísticas dependem de alguma forma da probabilidade. Mas, quanto ao que é probabilidade e como ele está relacionado às estatísticas, raramente houve discordância e quebra de comunicação tão completas desde a Torre de Babel. Sem dúvida, grande parte da discordância é meramente terminológica e desapareceria sob análise suficientemente nítida.

https://en.wikipedia.org/wiki/Foundations_of_statistics

Portanto, dificilmente se discute o argumento de que a Teoria da Probabilidade é uma Fundação da Estatística. Tudo o resto é jogo justo.

Mas, ao tentar ser mais útil, prático com uma resposta ...

No entanto, a teoria da probabilidade contém muito do que é principalmente de interesse matemático e não diretamente relevante para a estatística. Além disso, muitos tópicos em estatística são independentes da teoria da probabilidade

https://en.wikipedia.org/wiki/Probability_and_statistics

O exposto acima não é exaustivo ou autoritário de forma alguma, mas acredito que seja útil.

Geralmente isso me ajudou a ver coisas como ...

Matemática Descritiva >> Teoria das Probabilidades >> Estatísticas

Com cada um sendo muito utilizado, em média, nas fundações do próximo. Ou seja, existem grandes interseções em como estudamos as fundações do próximo.

PS. Existem estatísticas indutivas e dedutivas, então não é aí que está a diferença.

Kervin
fonte
0

Muitas pessoas e matemáticos dizem que 'ESTATÍSTICAS é o inverso da PROBABILIDADE', mas não é particularmente certo. A maneira de abordar ou o método de resolver esses 2 são completamente diferentes, mas estão INTERCONECTADOS .

eu gostaria de me referir ao meu amigo John D Cook .....

"Gosto do exemplo de um pote de jujubas vermelhas e verdes.

Um probabilista começa por conhecer a proporção de cada um e, digamos, encontra a probabilidade de desenhar uma jujuba vermelha. Um estatístico deduz a proporção de jujubas vermelhas por amostragem no pote ".

Agora, a proporção da gelatina vermelha obtida por amostragem no pote é usada pelo probabilista para encontrar a probabilidade de desenhar um feijão vermelho do pote

Considere este exemplo ---- >>>

Em um exame, 30% dos estudantes falharam em física, 25% falharam em matemática, 12% falharam tanto em física quanto em matemática. Um aluno é selecionado aleatoriamente para encontrar a probabilidade de que o aluno tenha falhado em Física, se for sabido que ele falhou em matemática.

A soma acima é um problema de probabilidade, mas se observarmos com atenção, descobriremos que a soma é fornecida com alguns dados estatísticos

30% dos alunos falharam em física, 25% "" "matemática '' 'São basicamente frequências se as porcentagens forem calculadas. Portanto, estamos recebendo dados estatísticos que, por sua vez, nos ajudam a encontrar a probabilidade

ASSIM A PROBABILIDADE E ESTATÍSTICAS SÃO MUITO INTERLIGADAS OU MAIS, PODEMOS DIZER QUE A PROBABILIDADE DEPENDE MUITO DE ESTATÍSTICAS

Hirak Mondal
fonte
0

O termo "estatística" é maravilhosamente explicado por JC Maxwell no artigo Molecules (na Nature 8, 1873, pp. 437-441). Deixe-me citar a passagem relevante:

Quando os membros trabalhadores da Seção F obtêm um Relatório do Censo, ou qualquer outro documento que contenha os dados numéricos das Ciências Econômicas e Sociais, eles começam distribuindo toda a população em grupos, de acordo com a idade, imposto de renda, educação, crença religiosa ou condenações criminais. O número de indivíduos é grande demais para permitir rastrear a história de cada um separadamente, de modo que, para reduzir seu trabalho dentro dos limites humanos, eles concentram sua atenção em um pequeno número de grupos artificiais. O número variável de indivíduos em cada grupo, e não o estado variável de cada indivíduo, é o dado principal no qual eles trabalham.

Este, é claro, não é o único método de estudar a natureza humana. Podemos observar a conduta de homens individuais e compará-la com a conduta que seu caráter anterior e suas circunstâncias presentes, de acordo com a melhor teoria existente, nos levariam a esperar. Aqueles que praticam esse método procuram melhorar seu conhecimento dos elementos da natureza humana, da mesma maneira que um astrônomo corrige os elementos de um planeta comparando sua posição real com a deduzida dos elementos recebidos. O estudo da natureza humana por pais e diretores de escola, por historiadores e estadistas, deve, portanto, ser diferenciado daquele realizado por registradores e tabuladores, e por aqueles estadistas que confiam nas figuras. Um pode ser chamado de histórico e o outro, método estatístico.

As equações da dinâmica expressam completamente as leis do método histórico aplicado à matéria, mas a aplicação dessas equações implica um conhecimento perfeito de todos os dados. Mas a menor porção de matéria que podemos sujeitar a experimentos consiste em milhões de moléculas, e nenhuma delas se torna individualmente sensível a nós. Não podemos, portanto, determinar o movimento real de qualquer uma dessas moléculas, de modo que somos obrigados a abandonar o método histórico estrito e a adotar o método estatístico de lidar com grandes grupos de moléculas.

Ele dá essa explicação do método estatístico em vários outros trabalhos. Por exemplo: "No método estatístico de investigação, não seguimos o sistema durante seu movimento, mas fixamos nossa atenção em uma fase específica e verificamos se o sistema está nessa fase ou não, e também quando ele entra na fase. e quando o deixa "(Trans. Cambridge Philos. Soc. 12, 1879, pp. 547-570).

Há outra passagem bonita de Maxwell sobre "probabilidade" (de uma carta a Campbell, 1850, reimpressa em The Life of James Clerk Maxwell , p. 143):

atualmente, a ciência real da lógica só conhece coisas certas, impossíveis ou totalmente duvidosas, nenhuma das quais (felizmente) temos que raciocinar. Portanto, a verdadeira lógica para este mundo é o Cálculo de Probabilidades, que leva em conta a magnitude da probabilidade (que é, ou que deveria estar na mente de um homem razoável).

Então podemos dizer:

- Nas estatísticas , estamos "concentrando nossa atenção em um pequeno número de grupos artificiais" ou em quantidades; estamos fazendo uma espécie de catalogação ou censo.

- Provavelmente , estamos calculando nossa incerteza sobre alguns eventos ou quantidades.

Os dois são distintos, e podemos fazer um sem o outro.

Por exemplo, se fizermos um censo completo de toda a população de uma nação e contarmos o número exato de pessoas pertencentes a grupos específicos, como idade, sexo etc., estaremos fazendo estatísticas. Não há incerteza - probabilidade - envolvida, porque os números que encontramos são exatos e conhecidos.

Por outro lado, imagine alguém passando na nossa frente na rua e nos perguntamos sobre a idade deles. Nesse caso, somos incertos e usamos a probabilidade, mas não há estatísticas envolvidas, pois não estamos fazendo algum tipo de censo ou catálogo.

Mas os dois também podem ocorrer juntos. Se não podemos fazer um censo completo de uma população, temos que adivinhar quantas pessoas estão em grupos específicos de idade e sexo. Portanto, estamos usando probabilidade ao fazer estatísticas. Vice-versa, podemos considerar dados estatísticos exatos sobre a idade das pessoas e, a partir desses dados, tentar adivinhar melhor a pessoa que passa na nossa frente. Portanto, estamos usando estatísticas enquanto decidimos sobre uma probabilidade.

pglpm
fonte
Obrigado pela sua contribuição. Embora interessante, ele não está de acordo com o que os estatísticos acreditam ser estatístico nem com o que eles realmente fazem, como mostrado em stats.stackexchange.com/questions/140547/… .
whuber
É um ponto discutível. Conheço estatísticos profissionais que discordam da definição da ASA (que é terrivelmente vaga) e concordam com Maxwell.
pglpm