Atualmente, estou trabalhando em um trabalho de pesquisa quase experimental. Eu só tenho um tamanho de amostra de 15 devido à baixa população na área escolhida e que apenas 15 se enquadram nos meus critérios. 15 é o tamanho mínimo da amostra para calcular para o teste t e o teste F? Em caso afirmativo, onde posso obter um artigo ou livro para apoiar esse pequeno tamanho de amostra?
Este artigo já foi defendido na segunda-feira passada e um dos membros do painel pediu uma referência de suporte porque meu tamanho da amostra é muito baixo. Ele disse que deveria ter sido pelo menos 40 entrevistados.
t-test
sample-size
assumptions
power
Czarina Francoise
fonte
fonte
Respostas:
Não há tamanho mínimo de amostra para o teste t ser válido. A validade exige que as suposições para a estatística de teste sejam mantidas aproximadamente. Essas suposições estão no caso de uma amostra de que os dados são normais (ou aproximadamente normais) com média 0 sob a hipótese nula e uma variação desconhecida, mas estimada a partir da amostra. No caso de duas amostras, é que ambas as amostras são independentes uma da outra e cada amostra consiste em variáveis normais de iid, com as duas amostras tendo a mesma média e uma variação desconhecida comum sob a hipótese nula. Uma estimativa combinada de variância é usada para a estatística.
No caso de uma amostra, a distribuição sob a hipótese nula é um t central com n-1 graus de liberdade. Nos dois casos de amostra com tamanhos de amostra n e m não necessariamente iguais, a distribuição nula da estatística de teste é t com n + m-2 graus de liberdade. A maior variabilidade devido ao baixo tamanho da amostra é explicada na distribuição que tem caudas mais pesadas quando o grau de liberdade é baixo, o que corresponde a um tamanho baixo da amostra. Portanto, é possível encontrar valores críticos para a estatística de teste ter um determinado nível de significância para qualquer tamanho de amostra (bem, pelo menos, tamanho 2 ou maior).
O problema com o tamanho reduzido da amostra está relacionado ao poder do teste. O revisor pode ter sentido que 15 por grupo não era um tamanho de amostra grande o suficiente para ter alto poder de detectar uma diferença significativa, digamos, delta entre as duas médias ou uma média maior que delta em valor absoluto para um problema de uma amostra. A necessidade de 40 exigiria uma especificação de uma certa potência em um delta específico que seria alcançado com n igual a 40, mas não inferior a 40.
Devo acrescentar que, para que o teste t seja realizado, a amostra deve ser grande o suficiente para estimar a variação ou as variações.
fonte
Com toda a deferência para ele, ele não sabe do que está falando. O teste t foi projetado para trabalhar com pequenas amostras. Não há realmente um mínimo (talvez você possa dizer um mínimo de 3 para um teste t de uma amostra, IDK), mas você tem uma preocupação em relação à energia adequada com amostras pequenas. Você pode estar interessado em ler sobre as idéias por trás da análise de poder de comprometimento quando o tamanho da amostra possível for altamente restrito, como no seu caso.
Quanto a uma referência que prova que você pode usar o teste t com amostras pequenas, não conheço uma e duvido que exista. Por que alguém tentaria provar isso? A ideia é simplesmente boba.
fonte
Como mencionado nas respostas existentes, o principal problema com um pequeno tamanho de amostra é o baixo poder estatístico. Existem várias regras práticas sobre o que é poder estatístico aceitável. Algumas pessoas dizem que 80% do poder estatístico é razoável, mas, finalmente, mais é melhor. Geralmente, também há uma troca entre o custo de obter mais participantes e o benefício de obter mais poder estatístico.
Você pode avaliar o poder estatístico de no teste usando uma função simples em R
power.t.test
,.Assim, podemos ver que, se o tamanho do efeito populacional fosse "pequeno" ou "médio", você teria baixo poder estatístico (11% e 44%, respectivamente). No entanto, se o tamanho do efeito for grande na população, você teria o que alguns descreveriam como poder "razoável" (82%).
O site Quick-r fornece mais informações sobre análise de poder usar R .
fonte
O teste t de duas amostras é válido se as duas amostras forem amostras aleatórias simples independentes de distribuições normais com a mesma variação e cada tamanho de amostra for pelo menos dois (para que a variação populacional possa ser estimada). irrelevante para a questão da validade do teste. Dependendo do tamanho do efeito que se deseja detectar, um tamanho pequeno de amostra pode ser imprudente, mas um tamanho pequeno de amostra não invalida o teste. Observe também que, para qualquer tamanho de amostra, a distribuição amostral da média é Normal se a distribuição pai for Normal. Obviamente, amostras maiores são sempre melhores porque fornecem estimativas mais precisas dos parâmetros. O Teorema do Limite Central nos diz que as médias das amostras são mais normalmente distribuídas que os valores individuais, mas, como apontado por Casella e Berger, é de utilidade limitada, uma vez que a taxa de abordagem da Normalidade deve ser verificada para qualquer caso específico. Confiar em regras práticas é imprudente. Veja os resultados relatados nos livros de Rand Wilcox.
fonte
Embora seja verdade que a distribuição t leva em consideração o pequeno tamanho da amostra, eu assumiria que seu árbitro estava pensando na dificuldade de estabelecer que a população é normalmente distribuída, quando a única informação que você tem é uma amostra relativamente pequena? Isso pode não ser um grande problema para uma amostra de tamanho 15, já que, esperamos, a amostra seja grande o suficiente para mostrar alguns sinais de distribuição vagamente normal? Se isso for verdade, espero que a população também esteja em algum lugar perto do normal e, combinada com o Teorema do Limite Central, isso deva fornecer exemplos de meios que sejam bem comportados.
Mas tenho dúvidas quanto às recomendações para o uso de testes t para amostras minúsculas (como o tamanho quatro), a menos que a normalidade da população possa ser estabelecida por alguma informação externa ou entendimento mecânico? Certamente não pode haver informações próximas de uma amostra do tamanho quatro em quantidade suficiente para ter alguma idéia do formato da distribuição da população.
fonte
Considere o seguinte nas páginas 254-256 de Sauro, J., & Lewis, JR (2016). Quantificando a Experiência do Usuário: Estatísticas Práticas para Pesquisa do Usuário, 2ª Ed. Cambridge, MA: Morgan-Kaufmann (você pode conferir em https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).
VOCÊ PRECISA TESTAR PELO MENOS 30 USUÁRIOS?
POR UM LADO
Provavelmente, a maioria de nós que cursou uma aula de estatística introdutória (ou conhece alguém que cursou essa classe) ouviu a regra geral de que, para estimar ou comparar médias, o tamanho da sua amostra deve ser pelo menos 30. De acordo com o teorema do limite central, À medida que o tamanho da amostra aumenta, a distribuição da média se torna cada vez mais normal, independentemente da normalidade da distribuição subjacente. Alguns estudos de simulação mostraram que, para uma ampla variedade de distribuições (mas não todas - ver Bradley, 1978), a distribuição da média fica quase normal quando n = 30.
Outra consideração é que é um pouco mais simples usar os escores z em vez dos escores t porque os escores z não exigem o uso de graus de liberdade. Conforme mostrado na Tabela 9.1 e na Fig. 9.2, quando você tem cerca de 30 graus de liberdade, o valor de t fica bem próximo do valor de z. Consequentemente, pode haver um sentimento de que você não precisa lidar com pequenas amostras que requerem estatísticas de pequenas amostras (Cohen, 1990). ...
POR OUTRO LADO
Quando o custo de uma amostra é caro, como normalmente ocorre em muitos tipos de pesquisa de usuários (por exemplo, testes de usabilidade moderados), é importante estimar o tamanho da amostra necessário com a maior precisão possível, com o entendimento de que é uma estimativa. A probabilidade de 30 ser exatamente a amostra certa para um determinado conjunto de circunstâncias é muito baixa. Como mostrado em nossos capítulos sobre estimativa de tamanho de amostra, uma abordagem mais apropriada é usar as fórmulas para calcular os níveis de significância de um teste estatístico e, usando a álgebra para resolver n, convertê-los em fórmulas de estimativa de tamanho de amostra. Essas fórmulas fornecem orientações específicas sobre o que você precisa saber ou estimar para uma determinada situação para estimar o tamanho da amostra necessário.
A ideia de que, mesmo com a distribuição t (em oposição à distribuição z), você precisa ter um tamanho de amostra de pelo menos 30 é inconsistente com o histórico do desenvolvimento da distribuição. Em 1899, William S. Gossett, recém-formado no New College, em Oxford, formado em química e matemática, tornou-se um dos primeiros cientistas a ingressar na cervejaria Guinness. “Comparado com os gigantes de sua época, ele publicou muito pouco, mas sua contribuição é de importância crítica. … A natureza do processo de fabricação de cerveja, com sua variabilidade de temperatura e ingredientes, significa que não é possível coletar grandes amostras a longo prazo ”(Cowles, 1989, p. 108-109).
Isso significava que Gossett não poderia usar z-scores em seu trabalho - eles simplesmente não funcionam bem com pequenas amostras. Após analisar as deficiências da distribuição z para testes estatísticos com pequenas amostras, ele realizou os ajustes necessários em função dos graus de liberdade para produzir suas tabelas t, publicadas sob o pseudônimo de "Student" devido às políticas do Guinness que proíbem a publicação. pelos funcionários (Salsburg, 2001). No trabalho que levou à publicação das tabelas, Gossett realizou uma versão inicial das simulações de Monte Carlo (Stigler, 1999). Ele preparou 3000 cartões rotulados com medições físicas feitas em criminosos, embaralhou-os e distribuiu-os em 750 grupos de tamanho 4 - um tamanho de amostra muito menor que 30.
NOSSA RECOMENDAÇÃO
Essa controvérsia é semelhante ao argumento “cinco é suficiente” versus “oito não é suficiente”, abordado no capítulo 6, mas aplicado à pesquisa sumativa e não formativa. Para qualquer pesquisa, o número de usuários a serem testados depende da finalidade do teste e do tipo de dados que você planeja coletar. O “número mágico” 30 tem alguma lógica empírica, mas, em nossa opinião, é muito fraco. Como você pode ver nos inúmeros exemplos deste livro que têm tamanhos de amostra diferentes de 30 (às vezes menos, às vezes mais), não mantemos essa regra de ouro em uma consideração muito alta. Conforme descrito em nosso capítulo sobre tamanho da amostra para pesquisa sumativa, o tamanho apropriado da amostra para um estudo depende do tipo de distribuição, da variabilidade esperada dos dados, dos níveis desejados de confiança e poder,
Como ilustrado na Fig. 9.2, ao usar a distribuição t com amostras muito pequenas (por exemplo, com graus de liberdade inferiores a 5), os valores muito grandes de t compensam tamanhos de amostra pequenos no que diz respeito ao controle de erros do tipo I ( alegar uma diferença é significativo quando realmente não é). Com tamanhos de amostra tão pequenos, seus intervalos de confiança serão muito maiores do que os obtidos com amostras maiores. Mas quando você lida com mais de 5 graus de liberdade, há muito pouca diferença absoluta entre o valor de z e o valor de t. Da perspectiva da abordagem de t a z, há muito pouco ganho após 10 graus de liberdade.
Não é muito mais complicado usar a distribuição t do que a distribuição z (você só precisa ter certeza de usar o valor correto para os graus de liberdade), e o motivo do desenvolvimento da distribuição t era permitir a análise de pequenas amostras. Essa é apenas uma das maneiras menos óbvias pelas quais os profissionais de usabilidade se beneficiam da ciência e prática da fabricação de cerveja. Os historiadores das estatísticas consideram amplamente a publicação de Gossett do teste t de Student como um evento marcante (Box, 1984; Cowles, 1989; Stigler, 1999). Em uma carta a Ronald A. Fisher (um dos pais da estatística moderna) contendo uma cópia inicial das tabelas t, Gossett escreveu: "Você provavelmente é o único homem que jamais as usará" (Box, 1978). Gossett acertou muitas coisas, mas certamente entendeu errado.
REFERÊNCIAS
Box, GEP (1984). A importância da prática no desenvolvimento de estatísticas. Technometrics, 26 (1), 1-8.
Box, JF (1978). Fisher, a vida de um cientista. Nova York, NY: John Wiley.
Bradley, JV (1978). Robustez? Jornal britânico de psicologia matemática e estatística, 31, 144-152.
Cohen, J. (1990). Coisas que aprendi (até agora). American Psychologist, 45 (12), 1304-1312.
Cowles, M. (1989). Estatística em psicologia: uma perspectiva histórica. Hillsdale, NJ: Lawrence Erlbaum.
Salsburg, D. (2001). A senhora que prova o chá: como as estatísticas revolucionaram a ciência no século XX. Nova York, NY: WH Freeman.
Stigler, SM (1999). Estatísticas na tabela: A história dos conceitos e métodos estatísticos. Cambridge, MA: Harvard University Press.
fonte
Czarina pode achar interessante comparar os resultados de seu teste t paramétrico com os resultados obtidos por um teste t de autoinicialização. O código a seguir para o Stata 13/1 imita um exemplo fictício referente a um teste t de duas amostras com variações desiguais (teste t paramétrico: valor-p = 0,1493; teste t de autoinicialização: valor-p = 0,1553).
fonte
Existem duas maneiras diferentes de justificar o uso do teste t.
Se um desses casos persistir, o teste t será considerado válido. Portanto, se você estiver disposto a assumir que seus dados são normalmente distribuídos (como são muitos pesquisadores que coletam pequenas amostras), não precisa se preocupar com nada.
No entanto, alguém pode objetar razoavelmente que você está confiando nessa suposição para obter seus resultados, especialmente se se sabe que seus dados estão distorcidos. Então, a questão do tamanho da amostra necessária para inferência válida é muito razoável.
Quanto ao tamanho de amostra necessário, infelizmente não há uma resposta realmente sólida para isso; quanto mais distorcidos seus dados, maior o tamanho da amostra necessário para tornar a aproximação razoável. Geralmente, 15-20 por grupo é considerado razoavelmente grande, mas, como na maioria das regras básicas, existem exemplos contrários: por exemplo, em devoluções de bilhetes de loteria (onde 1 em, digamos, 10.000.000 de observações é um EXTREME EXTERNO), você precisaria literalmente algo em torno de 100.000.000 de observações antes que esses testes fossem apropriados.
fonte
Concordo em relação à utilidade de um teste t invertido. Eu também recomendaria, como comparação, uma olhada no método bayesiano oferecido por Kruschke em http://www.indiana.edu/~kruschke/BEST/BEST.pdf . Em geral, perguntas de "Quantos assuntos?" não pode ser respondido, a menos que você tenha em mãos uma idéia do tamanho significativo do efeito em termos de solução do problema. Ou seja, e por exemplo, se o teste fosse um estudo hipotético sobre a eficácia de um novo medicamento, o tamanho do efeito poderia ser o tamanho mínimo necessário para justificar o novo medicamento em comparação com o antigo pela Food and Drug Administration dos EUA.
O que é estranho nesta e em muitas outras discussões é a disposição geral de postular que alguns dados têm apenas uma distribuição teórica, como ser gaussiana. Primeiro, não precisamos postar, podemos verificar, mesmo com pequenas amostras. Segundo, por que postular alguma distribuição teórica específica? Por que não considerar os dados como uma distribuição empírica?
Certamente, no caso de amostras pequenas, postular que os dados provêm de alguma distribuição é altamente útil para análise. Mas, para parafrasear Bradley Efron, você acabou de criar uma quantidade infinita de dados. Às vezes, isso pode ser bom se o seu problema for apropriado. Algumas vezes não é.
fonte
No que diz respeito aos pressupostos, para o caso de duas amostras; é que ambas as amostras são independentes uma da outra e cada amostra consiste em variáveis normais de iid, com as duas amostras tendo a mesma média e uma variação desconhecida comum sob a hipótese nula.
Há também o teste t de Welch, utilizando a aproximação Satterwaite para o erro padrão. Este é um teste t de 2 amostras, assumindo variações desiguais.
Teste t de Welch
fonte