Temos um potencial biomarcador para prever se um paciente tem câncer ou não. O resultado do teste de biomarcador é binário sendo positivo ou negativo. Queremos ter uma noção da quantidade de pacientes que precisam ser testados para determinar se esse biomarcador é um bom preditor ou não.
Pela leitura na internet, parece que o caminho a seguir é examinar a sensibilidade (para o número de casos) e a especificidade (para o número de controles). Sugere-se que você trate essa situação como um teste de proporção de uma amostra, mas ainda não está claro como você deve estimar qual é a sensibilidade e o intervalo para o qual está preparado. Se, digamos, eu considero "bom" qualquer biomarcador com uma sensibilidade maior que 0,8, como você configuraria as duas variáveis? Eu gostaria que minha hipótese nula fosse o biomarcador não é melhor que uma atribuição aleatória, ou seja, uma sensibilidade de 0,5. Alguém poderia dar um exemplo da melhor maneira de fazer isso (especialmente se estiver em R).
Respostas:
Vamos falar sobre sensibilidade (que iremos denotar por ), a especificidade é semelhante. A seguir, é apresentada uma abordagem freqüentista; seria ótimo se um dos bayesianos aqui pudesse adicionar outra resposta para discutir uma maneira alternativa de fazer isso.p
Suponha que você tenha recrutado pessoas com câncer. Você aplica seu teste de biomarcador a cada um deles, para obter uma sequência de 0 e 1 que chamaremos . As entradas de terão uma distribuição de Bernoulli com probabilidade de sucesso p . A estimativa de p é p = Σ x / n . Esperemos que p é "grande", e você pode julgar a precisão da sua estimativa através de um intervalo de confiança para p .n p p p^= ∑ x / n p^ p
x
x
Existem pelo menos duas abordagens - analítica e simulação. O
pwr
pacoteR
já existe para ajudar nesse design - você precisa instalá-lo primeiro. Em seguida, você precisará de um tamanho de efeito, e a função que você deseja serápwr.p.test
.Depois de obter seus dados, a maneira de executar o teste é (simularemos dados por razões de argumento).
EDIT: Se você gosta mais da abordagem de simulação, pode fazê-lo desta maneira:
e deixe
runTest
serentão a estimativa de poder é
fonte