Em muitos trabalhos que consideram tratamentos e resultados, vejo tabelas (geralmente "tabela 1") do que poderia ser chamado de variáveis incômodas (geralmente demográficas, às vezes condições médicas) com testes de significância e texto como "os grupos eram amplamente semelhantes, não houve diferenças significativas em XXXXX, consulte a Tabela ". Portanto, o objetivo claro é mostrar que os grupos designados para diferentes tratamentos são semelhantes.
No entanto, isso me parece como "aceitar o nulo" e que o que devemos fazer (ou exigir que seja feito) são testes de equivalência.
Isso pode se aplicar a estudos randomizados ou a estudos observacionais. Estou faltando alguma coisa aqui?
equivalence
controlling-for-a-variable
Peter Flom - Restabelece Monica
fonte
fonte
Respostas:
Essa é uma questão complicada que apresenta muitas questões relacionadas a: 1) especificar claramente uma hipótese, 2) entender quais mecanismos causais (podem) estão subjacentes a um efeito hipotético e 3) escolha / estilo de apresentação.
Você está certo que, se aplicarmos boas práticas estatísticas, afirmar que "grupos são semelhantes", seria necessário realizar um teste de equivalência. No entanto, testes de equivalência sofrem os mesmos problemas que os do NHST: o poder é apenas um reflexo do tamanho da amostra e do número de comparações: esperamos diferenças, mas sua extensão e efeito em uma análise principal são muito mais importantes.
Quando confrontadas por essas situações, as comparações de linha de base são quase sempre uma loucura. Melhores métodos (de ciência e estatística) podem ser aplicados. Tenho alguns conceitos / respostas de ações que considero ao responder a perguntas como esta.
Uma coluna "total" é mais importante que as colunas divididas por tratamento; uma discussão é justificada sobre esses valores.
Em ensaios clínicos, a amostra de segurança é geralmente analisada. Esse é o subconjunto daqueles que foram abordados primeiro, depois consentiram, randomizaram e finalmente expostos a pelo menos uma iteração de controle ou tratamento. Nesse processo, enfrentamos vários graus de viés de participação.
Provavelmente, o aspecto mais importante e omitido desses estudos é apresentar os resultados da Tabela 1 de forma agregada . Isso alcança o objetivo mais importante de uma tabela 1: demonstrar a outros pesquisadores como a amostra do estudo é generalizável para a população em geral na qual os resultados se aplicam.
Acho surpreendente como investigadores, leitores e revisores fixos estão sobre as tendências tangenciais nas características dos pacientes quando há uma total desconsideração dos critérios de inclusão / exclusão e da generalização da amostra.
Tenho vergonha de dizer que fui analista de um estudo que ignorou isso como um problema. Recrutamos pacientes e, em decorrência de problemas logísticos, esperamos quase um ano antes de implementar a intervenção. Não apenas o diagrama do consorte mostrou uma enorme queda entre esses períodos, mas a amostra mudou. O resultado foi em grande parte sub / subempregado, mais velho e mais saudável do que as pessoas que pretendíamos alcançar. Eu tinha profundas preocupações com a generalização do estudo, mas era difícil fazer lobby para que essas preocupações fossem divulgadas.
A potência e o erro tipo I dos testes para detectar desequilíbrio nas características da linha de base dependem do número real de características
O objetivo de apresentar uma lista tão detalhada das variáveis de linha de base, como mencionado anteriormente, é fornecer um instantâneo completo da amostra; histórico de pacientes, laboratórios, medicamentos e dados demográficos. Esses são todos os aspectos que os médicos usam para recomendar tratamento aos pacientes. Todos eles são acreditados para prever o resultado. Mas o número de tais fatores é impressionante. Até 30 variáveis diferentes podem ser comparadas. O risco bruto de erro do tipo I é 1- (1-0,05) ^ 30 = 0,79. Bonferroni ou correções de permutação são recomendáveis se o teste deve ser realizado.
O teste estatístico em sua forma mais pura deve ser imparcial e deve ser pré-especificado. No entanto, a escolha e a apresentação das características da linha de base geralmente são relativas. Eu acho que a última abordagem é apropriada: se descobrimos, como no meu julgamento, características interessantes que descrevem a amostra efetivamente, devemos ter a liberdade de optar por apresentar esses valores ad hoc . O teste pode ser realizado se tiver algum valor, mas as advertências usuais se aplicam: elas não são hipóteses de interesse, há um alto risco de confusão quanto ao significado de resultados significativos e não significativos, e os resultados refletem mais tamanho da amostra e considerações de apresentação do que qualquer verdade.
A rerandomização pode ser feita, mas somente antes dos pacientes serem expostos ao tratamento
Como mencionei, a amostra analisada é tipicamente a amostra de segurança. No entanto, a rerandomização é uma abordagem fortemente defendida e teoricamente consistente para pacientes que não foram expostos ao tratamento do estudo. Isso se aplica apenas às configurações nas quais a inscrição em lote é realizada. Aqui, 100 participantes são recrutados e randomizados. Se, por exemplo, a probabilidade atribuir uma alta proporção de pessoas idosas a um grupo, a amostra poderá ser re-aleatória para equilibrar a idade. Isso não pode ser feito com a inscrição sequencial ou escalonada, que é o cenário em que a maioria dos ensaios é realizada. Isso ocorre porque o momento da inscrição tende a prever o status do paciente por "viés" prevalente nos casos (incidente confuso e critérios prevalecentes de elegibilidade).
Projeto balanceado não é um requisito para inferência válida
O pressuposto de randomização diz que, teoricamente, todos os participantes terão distribuições médias iguais de covariáveis. No entanto, como mencionado anteriormente, ao comparar 30 ou mais níveis, a probabilidade cumulativa de desequilíbrio não é desprezível. De fato, o desequilíbrio das covariáveis pode ser irrelevante quando se considera o todo.
Se a randomização for justa, podemos ver que a idade é elevada no grupo de tratamento, mas o tabagismo é elevado no grupo de controle: ambos contribuem individualmente para o risco do resultado. O que é necessário para uma inferência eficiente e válida é que o escore de propensão seja equilibrado entre os grupos. Esta é uma condição muito mais fraca. Infelizmente, a propensão não pode ser inspecionada quanto ao equilíbrio sem um modelo de risco. No entanto, é fácil ver que essa propensão depende de uma combinação de covariáveis, e a probabilidade de um desequilíbrio nas propensões em uma amostra aleatória é muito menos provável, apesar de ser impossível mostrar exatamente.
Se um modelo de risco for conhecido ou se houver fortes preditores do resultado, ECRs mais eficientes e válidos serão feitos simplesmente ajustando-se a esses fatores, independentemente de serem equilibrados entre os grupos de tratamento.
Um dos meus artigos favoritos, 7 mitos de ensaios clínicos randomizados , discute isso. O ajuste melhora a eficiência quando a variável de ajuste é fortemente preditiva do resultado. Acontece que, mesmo com um equilíbrio perfeito de 50/50, usando a randomização bloqueada, ou mesmo como uma coincidência de como a randomização foi realizada, o ajuste reduzirá os ICs, exigindo que menos participantes tenham um estudo com igual poder; isso reduz custos e riscos. É chocante que isso não seja feito com mais frequência.
Estudos observacionais requerem controle para confusão, independentemente do que a Tabela 1 mostra
A suposição de randomização elimina a confusão. Com o tratamento não randomizado, há confusão. Um fator de confusão é uma variável que é causal do resultado e prevê o recebimento do tratamento quase experimental. Não há teste para determinar quais variáveis são / são fatores de confusão. O risco de espreitar os dados para responder a essas perguntas é que os fatores de confusão são praticamente indistinguíveis dos mediadores ou colisadores sem uma medição totalmente perfeita dos valores longitudinais (e mesmo assim ...). O ajuste para mediadores atenua qualquer efeito, o ajuste do colisor pode causar qualquer tipo de viés. Além disso, não é necessário ajustar um conjunto total de fatores de confusão, mas sim remover o critério de backdoor.
Por exemplo, em um estudo da função pulmonar e do tabagismo em adolescentes: crianças mais velhas têm maior probabilidade de fumar, mas, como são mais altas, sua função pulmonar é maior. Acontece que o ajuste somente da altura é suficiente para remover confusões, uma vez que satisfaz o critério da porta traseira. Novos ajustes para a idade simplesmente perdem a eficiência. No entanto, apenas inspecionar o "equilíbrio" de uma tabela 1 em fumantes e não fumantes sugere que a idade e a altura estão "desequilibradas" e, portanto, devem ser controladas. Isso está incorreto.
fonte