A página da wikipedia afirma que probabilidade e probabilidade são conceitos distintos.
Na linguagem não técnica, "probabilidade" é geralmente sinônimo de "probabilidade", mas no uso estatístico há uma clara distinção de perspectiva: o número que é a probabilidade de alguns resultados observados, dado um conjunto de valores de parâmetros, é considerado o probabilidade do conjunto de valores de parâmetros, dados os resultados observados.
Alguém pode dar uma descrição mais realista do que isso significa? Além disso, alguns exemplos de como "probabilidade" e "probabilidade" discordam seriam bons.
probability
likelihood
Douglas S. Stones
fonte
fonte
Respostas:
A resposta depende se você está lidando com variáveis aleatórias discretas ou contínuas. Então, dividirei minha resposta de acordo. Assumirei que você deseja alguns detalhes técnicos e não necessariamente uma explicação em inglês simples.
Variáveis aleatórias discretas
Suponha que você tenha um processo estocástico que aceite valores discretos (por exemplo, resultados de jogar uma moeda 10 vezes, número de clientes que chegam a uma loja em 10 minutos, etc.). Nesses casos, podemos calcular a probabilidade de observar um conjunto específico de resultados, fazendo suposições adequadas sobre o processo estocástico subjacente (por exemplo, a probabilidade de cabeças de aterrissagem de moedas ép e que o lançamento da moeda é independente).
Indique os resultados observados porO e o conjunto de parâmetros que descrevem o processo estocástico como θ . Assim, quando falamos em probabilidade, queremos calcular P( O | θ ) . Em outras palavras, dado valores específicos para θ , P( O | θ ) é a probabilidade de que iríamos observar os resultados representados por O .
No entanto, quando modelamos um processo estocástico da vida real, geralmente não sabemosθ . Nós simplesmente observar O eo objetivo é, então, para chegar a uma estimativa para θ que seria uma escolha plausível dada a resultados observados O . Sabemos que, dado um valor de θ a probabilidade de observar O é P( O | θ ) . Assim, um processo de estimação 'natural' é escolher esse valor de θ que maximizaria a probabilidade de que nós realmente observar O . Em outras palavras, encontramos os valores de parâmetros θ que maximizam a seguinte função:
Variáveis aleatórias contínuas
No caso contínuo, a situação é semelhante, com uma diferença importante. Não podemos mais falar sobre a probabilidade de termos observadoO dado θ porque no caso contínuo P( O | θ ) = 0 . Sem entrar em detalhes técnicos, a idéia básica é a seguinte:
Denote a função de densidade de probabilidade (pdf) associada aos resultadosO como: f( O | θ ) . Assim, no caso contínuo, estimamos θ dados os resultados observados O maximizando a seguinte função:
Nesta situação, não podemos afirmar que tecnicamente estamos percebendo o valor do parâmetro que maximiza a probabilidade de que observemosO que nós maximizar o PDF associado ao resultado observado O .
fonte
Esse é o tipo de pergunta que quase todo mundo vai responder e eu esperaria que todas as respostas fossem boas. Mas você é um matemático, Douglas, então deixe-me oferecer uma resposta matemática.
Um modelo estatístico precisa conectar duas entidades conceituais distintas: dados , que são elementosx de algum conjunto (como um espaço vetorial) e um possível modelo quantitativo do comportamento dos dados. Os modelos são geralmente representados por pontos θ em uma variedade dimensional finita, uma variedade com limite ou um espaço funcional (o último é denominado um problema "não paramétrico").
Os dadosx são conectados aos possíveis modelos θ por meio de uma função Λ(x,θ) . Para qualquer θ , Λ(x,θ) deve ser a probabilidade (ou densidade de probabilidade) de x . Por qualquer x dado , por outro lado, Λ(x,θ) pode ser visto como uma função de θ e geralmente é assumido como tendo certas propriedades agradáveis, como ser continuamente diferenciável em segundo. A intenção de ver Λ desta forma e para invocar estes pressupostos é anunciado chamando Λ a "probabilidade".
É bem parecido com a distinção entre variáveis e parâmetros em uma equação diferencial: às vezes queremos estudar a solução (ou seja, focamos nas variáveis como argumento) e às vezes queremos estudar como a solução varia com os parâmetros. A principal distinção é que, em estatística, raramente precisamos estudar a variação simultânea de ambos os conjuntos de argumentos; não existe um objeto estatístico que corresponda naturalmente à alteração dos dadosx e dos parâmetros do modelo θ . É por isso que você ouve mais sobre essa dicotomia do que em ambientes matemáticos análogos.
fonte
Vou tentar minimizar a matemática na minha explicação, pois já existem algumas boas explicações matemáticas.
Como Robin Girand aponta, a diferença entre probabilidade e probabilidade está intimamente relacionada à diferença entre probabilidade e estatística . Em certo sentido, a probabilidade e as estatísticas preocupam-se com problemas opostos ou inversos entre si.
Considere um sorteio. (Minha resposta será semelhante ao Exemplo 1 na Wikipedia .) Se sabemos que a moeda é justa ( ), uma pergunta típica de probabilidade é: Qual é a probabilidade de obter duas cabeças seguidas. A resposta é P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25 .p=0.5 P(HH)=P(H)×P(H)=0.5×0.5=0.25
Uma pergunta estatística típica é: a moeda é justa? Para responder a isso, precisamos perguntar: Até que ponto nossa amostra suporta a hipótese de que ?P(H)=P(T)=0.5
O primeiro ponto a ser observado é que a direção da pergunta se inverteu. Em probabilidade que iniciar com um parâmetro assumido ( ) e estimar a probabilidade de uma dada amostra (duas cabeças em uma fileira). Nas estatísticas, começamos com a observação (duas cabeças seguidas) e fazemos INFERENCE sobre o nosso parâmetro ( p = P ( H ) = 1 - P ( T ) = 1 - q ).P(head) p=P(H)=1−P(T)=1−q
O exemplo 1 da Wikipedia mostra que a estimativa de probabilidade máxima de após 2 cabeças seguidas é p M L E = 1 . Mas os dados de maneira alguma descartam o valor real do parâmetro p ( H ) = 0,5 (não vamos nos preocupar com os detalhes no momento). De fato, apenas valores muito pequenos de p ( H ) e particularmente de p ( H ) = 0 podem ser razoavelmente eliminados após n = 2P(H) pMLE=1 p(H)=0.5 p(H) p(H)=0 n=2 (dois lances da moeda). Após o terceiro arremesso , podemos agora eliminar a possibilidade de que (ou seja, não é uma moeda de duas cabeças), mas a maioria dos valores intermediários pode ser razoavelmente suportada pelos dados . (Um intervalo binomial exato de confiança de 95% para p ( H ) é de 0,094 a 0,992.P(H)=1.0 p(H)
Após 100 lançamentos de moedas e (digamos) 70 cabeças, agora temos uma base razoável para a suspeita de que a moeda não seja de fato justa. Um IC exato de 95% em agora é de 0,600 a 0,787 e a probabilidade de observar um resultado tão extremo quanto 70 ou mais caras (ou caudas) de 100 lançamentos dados p ( H ) = 0,5 é 0,0000785.p(H) p(H)=0.5
Embora eu não tenha usado explicitamente cálculos de probabilidade, este exemplo captura o conceito de probabilidade: Probabilidade é uma medida da medida em que uma amostra fornece suporte para valores específicos de um parâmetro em um modelo paramétrico .
fonte
Vou dar-lhe a perspectiva da visão da Teoria da Verossimilhança que se originou com Fisher - e é a base para a definição estatística no artigo citado da Wikipedia.
Embora pareça que simplesmente reescrevemos a função de probabilidade, uma conseqüência essencial disso é que a função de probabilidade não obedece às leis da probabilidade (por exemplo, não está vinculada ao intervalo [0, 1]). No entanto, a função de probabilidade é proporcional à probabilidade dos dados observados.
Esse conceito de probabilidade na verdade leva a uma escola de pensamento diferente, os "verossimilhantes" (distintos de frequentista e bayesiano) e você pode pesquisar no Google por todos os vários debates históricos. A pedra angular é o Princípio da Verossimilhança, que diz essencialmente que podemos realizar inferência diretamente da função de verossimilhança (nem os bayesianos nem os freqüentadores aceitam isso, pois não é uma inferência baseada em probabilidade). Atualmente, muito do que é ensinado como "freqüentista" nas escolas é na verdade uma amálgama de pensamento freqüentista e de probabilidade.
Para uma visão mais profunda, um bom começo e referência histórica é a Probabilidade de Edwards . Para uma versão moderna, eu recomendaria a maravilhosa monografia de Richard Royall, Statistical Evidence: A Likelihood Paradigm .
fonte
Dadas todas as excelentes respostas técnicas acima, deixe-me voltar à linguagem: probabilidade quantifica antecipação (de resultado), probabilidade quantifica confiança (no modelo).
Suponha que alguém nos desafie a um 'jogo de apostas lucrativo'. Então, as probabilidades nos servirão para calcular coisas como o perfil esperado de seus ganhos e perdas (média, modo, mediana, variação, proporção de informações, valor em risco, arruinação dos jogadores e assim por diante). Por outro lado, a probabilidade nos servirá para quantificar se confiamos nessas probabilidades em primeiro lugar; ou se "cheiramos um rato".
Aliás - já que alguém mencionou as religiões da estatística - acredito que a razão de probabilidade seja parte integrante do mundo bayesiano e também do mundo freqüentista: no mundo bayesiano, a fórmula de Bayes apenas combina anterior com probabilidade de produzir posterior.
fonte
fonte
Se eu tiver uma moeda justa (valor do parâmetro), a probabilidade de ela aparecer cara é 0,5. Se eu jogar uma moeda 100 vezes e aparecer 52 vezes, há uma alta probabilidade de ser justa (o valor numérico da probabilidade potencialmente assumindo várias formas).
fonte
Freqüentemente, essa expressão ainda é uma função de ambos os seus argumentos, portanto é uma questão de ênfase.
fonte
fonte
você conhece o piloto da série "num3ers" na qual o FBI tenta localizar a base de um criminoso em série que parece escolher suas vítimas aleatoriamente?
fonte