Tenho enfrentado dificuldades para entender o significado de "amostra aleatória" e "variável aleatória iid". Tentei descobrir o significado de várias fontes, mas fiquei cada vez mais confuso. Estou postando aqui o que tentei e conheci:
A Probabilidade e Estatísticas de Degroot diz:
Amostras aleatórias / iid / tamanho da amostra: considere uma distribuição de probabilidade dada na linha real que pode ser representada por um pf ou um pdf . Diz-se que variáveis aleatórias formará uma amostra aleatória dessa distribuição se essas variáveis aleatórias forem independentes e o marginal pf ou pdf de cada uma delas for . Também se diz que essas variáveis aleatórias são independentes e identicamente distribuídas, abreviadas iid. Referimos-se ao número n de variáveis aleatórias como o tamanho da amostra.
Mas um dos outros livros de estatísticas que tenho diz:
Em uma amostragem aleatória, garantimos que cada unidade individual da população tenha a mesma chance (probabilidade) de ser selecionada.
Então, sinto que os iids são elementos que constroem amostra aleatória, e o procedimento para obter amostra aleatória é amostragem aleatória. Estou certo?
PS: Estou muito confuso sobre esse tópico, então aprecio uma resposta elaborada. Obrigado.
fonte
Respostas:
Você não diz qual é o outro livro de estatísticas, mas eu acho que é um livro (ou seção) sobre amostragem de população finita .
Ao amostrar variáveis aleatórias, ou seja, quando você considera um conjunto de n variáveis aleatórias, você sabe que se elas são independentes, f ( x 1 , … , x n ) = f ( x 1 ) ⋯ f ( x n ) e distribuídos de forma idêntica , em particular E ( X i ) = μ e Var ( X i )X1,…,Xn n f( x1, … , Xn) = f( x1) ⋯ f( xn) E( XEu) = μ para todos os i , então:
¯ X = Σ i X iVar ( XEu) = σ2 Eu
ondeσ2é o segundo momento central.
A amostragem de uma população finita é um pouco diferente. Se a população é do tamanho , na amostragem sem substituição existem ( NN possível, as amostrasside tamanhone eles são equiprovável:
p(si)=1( Nn) sEu n
Por exemplo, seN=5eN=3, o espaço de amostragem é{s1,...,s10}
e as amostras possibile são:
s 1 ={1,2,3}, s 2 ={1,2,4}, s 3 ={1,2,5}, s 4
Este é um exemplo rápido de como uma amostra aleatória iid (variável aleatória) e uma amostra aleatória (população finita) podem diferir. A inferência estatística é principalmente sobre amostragem aleatória de variáveis, a teoria da amostragem é sobre amostragem finita de população.
fonte
Não vou aborrecê-lo com definições e fórmulas probabilísticas, que você pode facilmente encontrar em qualquer livro (ou aqui é um bom lugar para começar)
nãoi . i . d. exemplo: Agora faça a mesma coisa, mas sem devolver a carta ao baralho (espero que você preencha a diferença agora). Novamente, você terá 5 valores realizados (cartões) depois de fazer isso. Mas claramente eles são dependentes (o fato de você empatar o ás de espadas no primeiro sorteio significa que você não terá chance de entrar no segundo sorteio).
fonte
Uma variável aleatória normalmente escrita X é uma variável cujos valores possíveis são resultados numéricos de um fenômeno aleatório. O fenômeno aleatório pode produzir resultados que tenham valores numéricos capturados pela variável aleatória - número de cabeças em 10 lançamentos de uma moeda ou renda / altura etc. em uma amostra - mas isso não é necessário.
Geralmente, uma variável aleatória é uma função que mapeia resultados aleatórios para valores numéricos. Por exemplo, cada dia pode estar ensolarado, nublado ou chuvoso. Podemos definir uma variável aleatória que assume o valor 1 se estiver chuvoso, 2 se estiver nublado e 3 se estiver ensolarado. O domínio de uma variável aleatória é o conjunto de resultados possíveis.
Para estabelecer uma variável aleatória, deve haver um processo ou experimento associado a possíveis resultados que não podem ser previstos com certeza.
Chegando agora à questão da independência. Duas variáveis aleatórias são independentes se o valor de uma delas não afetar o PDF da outra. Não revisamos nossas previsões em relação às probabilidades de diferentes valores de uma variável quando sabemos algo sobre a outra variável. Portanto, no caso de independência, os PDFs posteriores são idênticos aos PDFs anteriores. Por exemplo, quando jogamos uma moeda imparcial repetidamente, as informações que temos sobre o resultado dos 5 lançamentos anteriores não afetam nossa previsão sobre o lançamento atual, sempre será 0,5. No entanto, se o viés da moeda é desconhecido e é modelado como uma Variável aleatória, o resultado dos 5 lançamentos anteriores afeta nossas previsões sobre o sorteio atual, pois permite fazer inferências sobre o viés desconhecido da moeda.
Chegando agora à questão da amostragem. O objetivo do Sampling é nos informar sobre as propriedades de uma distribuição subjacente que não é conhecida e deve ser inferida. Lembre-se de que uma Distribuição se refere à probabilidade relativa de possíveis resultados no Espaço de Amostra (que também pode ser um Universo Condicional). Portanto, quando amostramos, escolhemos um número finito de resultados no espaço Amostra e reproduzimos o Espaço amostral em uma escala menor e mais gerenciável. Probabilidade igual refere-se ao processo de amostragem e não à probabilidade dos resultados da amostra. A amostragem com probabilidade igual implica que a amostra refletirá as proporções dos resultados no espaço amostral original. Por exemplo, se perguntarmos 10, 000 pessoas, se alguma vez foram presas, é provável que a amostra que acabamos não seja representativa da População - o Espaço da Amostra - já que as pessoas que teriam sido presas podem se recusar a responder, portanto, a proporção de possíveis resultados (preso - não preso) diferirá entre nossa amostra e a população por razões sistemáticas. Ou, se escolhermos um bairro específico para realizar uma pesquisa, os resultados não serão representativos da cidade como um todo. Uma amostragem com igual probabilidade implica que não há razões sistemáticas - além da pura aleatoriedade - que nos fazem acreditar que as proporções de resultados possíveis em nossa amostra são diferentes das proporções de resultados no Espaço Populacional / Amostra. portanto, a proporção de possíveis resultados (presos - não presos) diferirá entre nossa amostra e a população por razões sistemáticas. Ou, se escolhermos um bairro específico para realizar uma pesquisa, os resultados não serão representativos da cidade como um todo. Uma amostragem com igual probabilidade implica que não há razões sistemáticas - além da pura aleatoriedade - que nos fazem acreditar que as proporções de resultados possíveis em nossa amostra são diferentes das proporções de resultados no Espaço Populacional / Amostra. portanto, a proporção de possíveis resultados (presos - não presos) diferirá entre nossa amostra e a população por razões sistemáticas. Ou, se escolhermos um bairro específico para realizar uma pesquisa, os resultados não serão representativos da cidade como um todo. Uma amostragem com igual probabilidade implica que não há razões sistemáticas - além da pura aleatoriedade - que nos fazem acreditar que as proporções de resultados possíveis em nossa amostra são diferentes das proporções de resultados no Espaço Populacional / Amostra.
fonte
Uma amostra aleatória é a realização de uma sequência de variáveis aleatórias. Essas variáveis aleatórias podem ser iid ou não.
fonte