Se calculei corretamente, a regressão logística assintoticamente tem o mesmo poder que o teste t. Para ver isso, anote sua probabilidade logarítmica e calcule a expectativa de seu Hessian no seu máximo global (suas estimativas negativas são a matriz de variância-covariância da solução ML). Não se preocupe com a parametrização logística usual: é mais simples parametrizar com as duas probabilidades em questão. Os detalhes dependerão exatamente de como você testa a importância de um coeficiente de regressão logística (existem vários métodos).
O fato de esses testes terem poderes semelhantes não deve ser muito surpreendente, porque a teoria do qui-quadrado para estimativas de ML é baseada em uma aproximação normal da probabilidade logarítmica, e o teste t é baseado em uma aproximação normal das distribuições de proporções. O cerne da questão é que ambos os métodos fazem as mesmas estimativas das duas proporções e ambas as estimativas têm os mesmos erros padrão.
Uma análise real pode ser mais convincente. Vamos adotar uma terminologia geral para os valores em um determinado grupo (A ou B):
- é a probabilidade de um 1.p
- é o tamanho de cada conjunto de empates.n
- é o número de conjuntos de empates.m
- é a quantidade de dados.N= m n
- (igual a 0 ou 1 ) é o valor do j- ésimo resultado no i- ésimo conjunto de empates.keu j0 01jºEuº
- é o número total de unidades no i- ésimo conjunto de empates.kEuEuº
- é o número total de unidades.k
A regressão logística é essencialmente o estimador de ML de . Seu logaritmo é dado porp
registro( L ) = k log( p ) + ( N- k ) log( 1 - p ) .
Suas derivadas em relação ao parâmetro sãop
∂registro( L )∂p= kp- N- k1 - p e
- ∂2registro( L )∂p2= kp2+ N- k( 1 - p )2.
Configurando os rendimentos primeiro a zero o ML estimativa P = k / N e entupimento em que o recroco da segunda expressão produz a variância p ( 1 - P ) / N , que é o quadrado do erro padrão.p^= k / Np^( 1 - p^) / N
A estatística t será obtida dos estimadores com base nos dados agrupados por conjuntos de sorteios; ou seja, como a diferença das médias (uma do grupo A e outra do grupo B) dividida pelo erro padrão dessa diferença, que é obtido a partir dos desvios padrão das médias. Vamos examinar a média e o desvio padrão para um determinado grupo, então. As médias iguais , que é idêntico ao ML estimador p . O desvio padrão em questão é o desvio padrão dos meios de tração; isto é, é o desvio padrão do conjunto de k i / n . Aqui está o cerne da questão, então vamos explorar algumas possibilidades.k / Np^ki/n
n=1m=NkiN/(N−1)p^(1−p^)N/(N−1)−−−−−−−−−√1N=1800
ki/np(1−p)/nkinpp(1−p)mp(1−p)/n/m=p(1−p)/N
mnmn=N
p=0.70p=0.74m=900,n=1m=n=30m=2,n=450α=0.05p=0.50p=0.52
A moral dessa análise é:
- Nm
- mn
- N
Aqui está o código em R que ilustra a simulação da resposta do whuber . Comentários sobre como melhorar meu código R são bem-vindos.
fonte
replicate()
rbinom()
{*}apply()