Estive analisando várias perguntas neste site sobre intervalos de inicialização e confiança, mas ainda estou confuso. Parte do motivo da minha confusão é provavelmente o fato de eu não ter avançado o suficiente em meus conhecimentos estatísticos para entender muitas respostas. Eu estou na metade do curso introdutório de estatística e meu nível de matemática é apenas no meio da álgebra II, então qualquer coisa além desse nível me confunde. Se uma das pessoas com conhecimento neste site pudesse explicar esse problema no meu nível, seria extremamente útil.
Estávamos aprendendo em sala de aula como tirar novas amostras usando o método de autoinicialização e usá-las para criar um intervalo de confiança para algumas estatísticas que gostaríamos de medir. Por exemplo, digamos que coloquemos uma amostra de uma grande população e constatemos que 40% dizem que votarão no candidato A. Supomos que essa amostra seja um reflexo bastante preciso da população original; nesse caso, podemos obter novas amostras de para descobrir algo sobre a população. Então, fazemos uma nova amostra e descobrimos (usando um nível de confiança de 95%) que o intervalo de confiança resultante varia de 35% a 45%.
Minha pergunta é: o que esse intervalo de confiança realmente significa ?
Eu continuo lendo que há uma diferença entre Intervalos de Confiança (Frequentistas) e Intervalos Credíveis (Bayesianos). Se eu entendi corretamente, um intervalo credível diria que há uma chance de 95% de que, em nossa situação, o parâmetro true esteja dentro do intervalo determinado (35% -45%), enquanto um intervalo de confiança diria que há 95% nesse tipo de situação (mas não necessariamente em nossa situação especificamente), o método que estamos usando informaria com precisão que o parâmetro true está dentro do intervalo especificado.
Supondo que essa definição esteja correta, minha pergunta é: Qual é o "parâmetro verdadeiro" sobre o qual estamos falando ao usar intervalos de confiança criados usando o método de autoinicialização? Estamos nos referindo a (a) parâmetro verdadeiro da população original ou (b) parâmetro verdadeiro da amostra ? Se (a), estaríamos dizendo que 95% das vezes o método de autoinicialização relatará com precisão declarações verdadeiras sobre a população original. Mas como poderíamos saber disso? Todo o método de inicialização não se baseia na suposiçãoque a amostra original é um reflexo preciso da população da qual foi retirada? Se (b), então eu não entendo o significado do intervalo de confiança. Já não sabemos o verdadeiro parâmetro da amostra? É uma medida direta!
Eu discuti isso com minha professora e ela foi bastante útil. Mas ainda estou confuso.
fonte
O que você está dizendo é que não há necessidade de encontrar intervalo de confiança a partir de reamostragens inicializadas. Se você estiver satisfeito com a estatística (média da amostra ou proporção da amostra) obtida a partir de reamostragens com bootstrap, não encontre nenhum intervalo de confiança e, portanto, nenhuma questão de interpretação. Mas se você não estiver satisfeito com a estatística obtida a partir de reamostragens inicializadas ou satisfeito, mas ainda desejar encontrar o intervalo de confiança, a interpretação para esse intervalo de confiança será a mesma que qualquer outro intervalo de confiança. Isso ocorre porque, quando as novas amostras de bootstrap representam exatamente (ou supõe-se que sejam) a população original, então onde está a necessidade de intervalo de confiança? A estatística das reamostragens inicializadas é o próprio parâmetro de população original, mas quando você não considera a estatística como o parâmetro de população original, é necessário encontrar o intervalo de confiança. Então, é tudo sobre como você considera. Digamos que você calculou um intervalo de confiança de 95% a partir de reamostragens inicializadas. Agora a interpretação é: "95% das vezes, esse método de inicialização resulta com precisão em um intervalo de confiança que contém o verdadeiro parâmetro populacional".
(Isto é o que eu penso. Corrija-me se houver algum erro).
fonte
Estamos nos referindo ao verdadeiro parâmetro da população original. É possível fazer isso assumindo que os dados foram retirados aleatoriamente da população original - nesse caso, existem argumentos matemáticos que mostram que os procedimentos de autoinicialização fornecerão um intervalo de confiança válido, pelo menos quando o tamanho do conjunto de dados se tornar suficientemente grande .
fonte