Sou formado em ciências e meu conhecimento de estatística é bastante superficial.
Problema
Eu tive que encontrar um conjunto de dados e analisá-lo da melhor maneira possível, como tarefa para o meu curso de estatística. Isso não é mais uma tarefa, só preciso de ajuda para interpretar por que fiz mal minha análise e o que deveria ter feito.
Usei um conjunto de dados categóricos de taxas de emprego na Nova Zelândia, planejando organizá-lo em uma tabela de contingência 2x2 e use o teste do qui-quadrado de Pearson e o teste exato de Fisher para testar se o gênero se correlaciona com o emprego.
O que eu quero responder
- Entenda por que não posso usar o teste do qui-quadrado e o teste exato de Fisher para esse problema e aprenda o que eu deveria ter usado. "Odds-ratio em função do tempo", presumo? Algum link útil sobre como fazer isso, perfeitamente em R?
- Entenda o comentário de "correlação sequencial" referente à primeira parte da tarefa e o que exatamente eu deveria ter feito.
Maneira de me ajudar # 1 (mais curto)
É assim que nossos dados são exibidos (com base em um censo):
Male Female
Employed 1201600 1060200
Unemployed 73300 75000
Fiz um teste do qui-quadrado e um teste exato de Fisher em R, assumindo que o valor p obtido me diga a probabilidade de tal distribuição de empregos (ou mais um extremo), uma vez que o nulo é verdadeiro (homens e mulheres) têm chances iguais de conseguir um emprego). Eu obtive um valor p muito pequeno, e o teste de Fisher me deu uma razão de chances de 1,16, o que significa que há uma correlação, e especificamente os homens têm 16% mais chances de encontrar um emprego na Nova Zelândia.
No entanto, de acordo com meu professor, usei esses testes de forma inadequada. Eu não entendi direito o porquê, mas acho que ele estava dizendo que esses testes assumem independência e, como há uma certa quantidade de empregos disponíveis na Nova Zelândia, nossas amostras não são independentes ... Mas não tenho certeza. pode ver seus comentários citados abaixo).
Maneira de me ajudar # 2 (mais)
Se você tiver algum tempo livre, eu apreciaria muito se você pudesse examinar toda a tarefa. Também fornecerei o feedback do professor, portanto, se você pudesse interpretá-lo para mim, seria ótimo! A tarefa é muito fácil para um matemático / estatístico, há apenas duas perguntas, é apenas preenchimento, onde tentei demonstrar que sei o que estou fazendo, você pode pular a maior parte.
Aqui está o link para um arquivo PDF com a tarefa na qual não obtive sucesso: statistics assignment.pdf .
Feedback do professor
Sua figura 1 exibe correlação sequencial, que é a verdadeira razão pela qual a regressão linear não funciona. Nem o teste de Fisher nem o chi ao quadrado são bons para a sua mesa 2x2. Isso ocorre porque você deseja testar a homogeneidade, mas está rejeitando o nulo devido à não independência (o que não é interessante). A distinção entre os dois é irrelevante aqui (eles são assintoticamente idênticos em qualquer caso). Você poderia ter plotado o odds ratio em função do tempo.
Respostas:
Algumas respostas imediatas:
1) Seu professor significa que os dados mostram autocorrelação. Isso leva a estimativas ineficientes de coeficientes de regressão na regressão linear simples. Dependendo se foi abordado no seu curso, isso é um erro.
2) Talvez eu não entenda completamente o problema, mas no IMAO o teste de independência do qui-quadrado é usado corretamente aqui, exceto por duas outras questões:
3) Seu teste do qui-quadrado possui um poder imenso, devido ao tamanho da amostra. É difícil não ser significativo, mesmo que os efeitos sejam muito pequenos. Além disso, parece que você tem um censo da população. Nesta situação, a inferência estatística é desnecessária, porque você observa todas as unidades populacionais. Mas não é isso que o palestrante observa.
4) Você parece agregar os dados entre os pontos no tempo. Na verdade, você deve testar uma vez por ponto no tempo, pois, de outra forma, agrega efeitos ao longo do tempo (conta unidades várias vezes). Mas também não é isso que o palestrante observa.
O palestrante realmente observa que você deseja testar o nulo de homogeneidade, onde você testa o nulo de independência. Então, o que ele quer dizer com homogeneidade?
Suponho que ele se refira ao teste de homogeneidade marginal em dados de teste emparelhados. Este teste é usado para avaliar se houve uma mudança ao longo do tempo (medidas repetidas). No entanto, não é isso que você deseja avaliar. Meu palpite é que ele não entendeu que você deseja testar se sexo e emprego no momento x estão relacionados. Talvez ele também tenha tentado sugerir que o que você deve testar é a mudança ao longo do tempo (ou nenhuma mudança, caso em que a contingência múltipla repetida seria chamada de fato homogênea).
fonte
É um feedback muito opaco - parece-me que eles estão dizendo "você não fez bem desta vez - tente mais da próxima vez". A única maneira de entender isso é ser corajoso e pedir ao seu palestrante uma reunião para discutir mais as coisas.
Seu professor parece estar decepcionado com a sua escolha de perguntas de pesquisa, talvez? Eu acho que eles podem estar procurando por algumas "palavras da moda", como "séries automáticas / seriais / de correlação" "séries temporais" "efeitos / ajustes sazonais" "ciclos de negócios" "tendência". Não sei o que você deveria saber ao fazer a tarefa.
Enfim, aqui está o que eu acho.
Sua tarefa mostra uma boa capacidade de executar um teste estatístico, mas, de uma perspectiva de análise de dados , mostra uma estranha escolha de exemplos. A análise deve ser sobre contar uma história. Pessoalmente, gostei da escolha do emprego masculino versus feminino como tema. No entanto, eu teria colocado o "segundo exemplo" em primeiro lugar, pois é uma pergunta mais simples "existe uma diferença de gênero agoraDepois de mostrar que claramente há uma diferença (como você faz), você poderia ter ido para a questão mais complexa de "houve uma diferença consistente de gênero ao longo do tempo?" É claro que essa questão pode estar além do escopo de sua "caixa de ferramentas estatísticas" para responder de uma maneira formal.Uma maneira de fazer isso com a regressão linear é modelar as chances de estar empregado versus desempregado (ou log-odds, se isso der um melhor ajuste) para homens e mulheres. tem um modelo simples de ols
Onde é a razão "empregado" / "desempregado" e é uma variável dummy igual a um se a proporção for para homens e zero, caso contrário, e é o resíduo. Você então testará se . Você pode levar o modelo adiante e incluir uma covariável de tempo, bem como uma interação entre tempo e gênero. Isso tudo faz parte da construção do seu trabalho de análise como uma história ("o enredo engrossa", por assim dizer). É claro que isso depende do conhecimento sobre a regressão múltipla (que pode estar fora do conteúdo do curso).x i e i β 1 = 0yi xi ei β1=0
Eu não teria usado esse primeiro exemplo, é claro que a regressão linear era inadequada. Seu professor (provavelmente) deseja ver um exemplo de um bom uso da regressão linear. Obviamente, o exemplo que dei acima também pode não ser apropriado - isso depende da avaliação do modelo.
fonte