Como interpretar o Bootstrap?

Eu sou um novato de verdade quando se trata de estatística, por favor, não me julgue e minha pergunta;)

Estou fazendo uma análise de regressão linear com o SPSS e, como meus dados não são normalmente distribuídos nem mostram homoscedasticidade, decidi usar o bootstrap.

Agora, estou realmente confuso quando se trata da interpretação da saída. O SPSS me oferece o resumo e os coeficientes "normais" do modelo, bem como o resumo e os coeficientes do bootstrap. Agora, apenas interpreto a parte do bootstrap? Ou o valor F, por exemplo, ainda é relevante, o que significa que, se F não for significativo, também não posso interpretar o intervalo de auto-inicialização, mesmo que seja significativo?

regression spss bootstrap user143853
fonte

Respostas:

A idéia intuitiva por trás do bootstrap é a seguinte: se seu conjunto de dados original foi um sorteio aleatório da população completa, se você tirar uma subamostra da amostra (com substituição), isso também representa um empate da população completa. Você pode estimar seu modelo em todos esses conjuntos de dados inicializados. Isso fornece um grande número de estimativas e, portanto, é possível, por exemplo, observar os desvios padrão de suas estimativas - acontece que, muitas vezes, isso dá uma boa estimativa do erro padrão das estimativas. Na verdade, o erro padrão das estimativas pode ser considerado exatamente como esse se você coletar os muitos conjuntos de dados da verdadeira população.

Suponha, por exemplo, que haja um erro externo no seu conjunto de dados: em muitos dos seus conjuntos de dados iniciados por inicialização, essa observação não é incluída e, para esses conjuntos de dados, você vê os coeficientes estimados mudarem muito.

Da mesma forma, você pode examinar a estatística F para cada um dos conjuntos de dados de autoinicialização. Você pode, por exemplo, ver quantas vezes o modelo foi rejeitado. Mas não estou suficientemente familiarizado com o SPSS para saber o que ele relata como a estatística F: é a estatística F média?

Superpronker
fonte

Como o @Superpronker mencionou, isso realmente depende do que o SPSS está fazendo com o bootstrap. Incluir seu código e a saída ajudaria bastante. Além disso, o bootstrap é um assunto com uma vasta quantidade de literatura. Você pode ver isso simplesmente olhando a bibliografia na minha edição de 2007 do Bootstrap Methods, publicada por Wiley. Então eu acho que você também precisa de pelo menos um tutorial básico sobre o bootstrap. Às vezes, ir à Wikipedia ajuda com esse tipo de coisa.

Na regressão, existem várias maneiras de lidar com questões como heterocedasticidade e não normalidade. Se o teste F a que você se refere for da solução OLS para a regressão linear, em que a normalidade e a homocedasticidade são ignoradas e por não significância, você quer dizer que o teste F não pode dizer que qualquer um dos coeficientes de regressão é diferente de 0, pode ser você deve ignorá-lo e aplicar uma abordagem diferente.

O bootstrap pode ser uma abordagem para lidar com o problema. Na regressão, existem duas abordagens comuns de inicialização. Um é chamado de resíduos de inicialização e o outro é chamado de vetores de inicialização . Você deve descobrir qual SPSS está usando. Existe alguma literatura que diz que os vetores de inicialização são mais robustos no sentido de exigir menos suposições. O vetor é o conjunto de valores observados de $(Y, X_1, X_2, \ldots, X_k)$ Onde $Y$ é a variável dependente e o $X_j$ são as $k$ variáveis preditoras em seu modelo. Na descrição do seu problema, não sabemos se $k$ é $1$ ou $>1$ . Para cada $j$ está associado a $X_j$ um parâmetro de regressão $b_j$ isso é estimado.

O método de resíduos de inicialização inicia o $n$ resíduos, onde $n$ é o tamanho da sua amostra e ela é substituída por esse conjunto de resíduos. No programa de computador, isso é feito pelo método Monte Carlo.

O modelo é $Y=b_1 X_1 + b_2 X_2 + \ldots + b_k X_k +e$ Onde $e$ é um termo de erro. Você inicialmente recebe n resíduos tomando $y_i - \hat{b}_1 x_{1i} - \hat{b}_2 x_{2i}- \ldots -\hat{b}_k x_{ki}$ ser o $i$ th residual. Aqui $\hat{b}_j$ denota a estimativa do parâmetro de regressão $b_j$ . Usamos a notação $y_i$ e $x_{ji}$ para representar o $i$ o valor observado da variável dependente e o valor $i$ th valor observado do $j$ variável preditora, respectivamente.

Como isso se complica, sugiro que você procure uma referência sobre os resíduos de bootstrap. O texto de 1993 de Chapman e Hall de Efron e Tibshirani é uma possibilidade. Os resultados finais são distribuições de autoinicialização para cada parâmetro de regressão e um dos vários possíveis intervalos de confiança da autoinicialização pode ser usado. O método percentual de Efron é a possibilidade mais provável. Se o intervalo de confiança não contiver 0, o parâmetro de regressão é considerado significativo.

Michael R. Chernick
fonte

Como um resumo rápido, a inicialização geral do SPSS Statistics é descrita dessa maneira na ajuda.

O método Simples é a reamostragem de caso com substituição do conjunto de dados original. O método Stratified é uma reamostragem de caso com substituição do conjunto de dados original, dentro dos estratos definidos pela classificação cruzada de variáveis de estratos.

Alguns procedimentos têm outras opções.

O manual de algoritmos, disponível on-line, aborda detalhes de reamostragem de canivete, estojo, estratificado, residual e selvagem.

Quanto à pergunta original do usuário, a pergunta diz "meus dados não são normalmente distribuídos nem mostram homoscedasticidade", o que poderia refletir um equívoco sobre o que a suposição de normalidade significa em regressão. É sobre o termo do erro, não sobre as variáveis da equação.

E uma pergunta para Michael: seus livros sobre bootstrapping custam na Amazon para Kindle de 107 a 237 dólares! Por quê? Eu adoraria ler um desses, mas o custo é fenomenal. Infelizmente, não tenho uma boa biblioteca como alternativa à compra.

JKP
fonte

Se você quiser comprar o livro, não vá lá. Isso é muito caro. Verifique o site Wiley para ver o que eles estão vendendo para eles. No que diz respeito à Amazon, eles costumam agir como intermediários para um vendedor. O livro pode ou não ser usado e o preço é definido pelo vendedor. Também alguns sites como a amazon fazem leilões de livros. Esses vendedores estão tentando tirar proveito de pessoas que não conhecem o valor real do livro. Por outro lado, às vezes você pode encontrar livros novos ou usados que são pechinchas. Pesquise na rede se você realmente deseja comprar um.

Michael R. Chernick 31/12/16

Obrigado pela explicação sobre o SPSS. Estou certo de que isso ajuda o OP. Estou votando sua resposta. Também a reamostragem de caso é a mesma que eu chamei de vetores de inicialização.

Michael R. Chernick 31/12/16

Acho que alguns dos nossos comentários foram excluídos por um monitor. Pode ser que não devamos mencionar preços no site. Eu só quero dizer que verifiquei Wiley e amazon. Infelizmente, novos livros estão ficando mais caros o tempo todo. No site Wiley, vi a primeira edição do meu livro de inicialização a um preço muito baixo. O livro está esgotado, portanto, apenas disponível é usado e não é procurado desde que a segunda edição foi lançada. Se você der uma olhada em outros livros técnicos comparáveis vendidos de novo, provavelmente verá que meus novos livros estão alinhados com os outros.

Michael R. Chernick 31/12/16

AFAIK nada foi excluído. A discussão acima sobre preços de livros não é realmente pertinente à pergunta e provavelmente será excluída depois de um tempo por esse motivo, mas não temos uma política específica de não permitir a menção de preços de livros.

Scortchi - Restabelece Monica

Como o livro em questão foi recomendado na resposta, parece-me que as discussões sobre preços são pertinentes.

JKP