A estatística de teste para o teste Hosmer-Lemeshow (HLT) para qualidade de ajuste (GOF) de um modelo de regressão logística é definida da seguinte forma:
A amostra é então dividida em deciles , D_1, D_2, \ dots, D_ {d} , por decil, um calcula as seguintes quantidades:
- , ie o número observado de casos positivos no decil ;
- , ou seja, o número observado de casos negativos no decil ;
- , isto é, o número estimado de casos positivos no decil ;
- , ou seja, o número estimado de casos negativos no decil ;
onde é o resultado binário observado para a ésima observação e a probabilidade estimada para essa observação.
A estatística de teste é então definida como:
onde é a probabilidade média estimada no decil e seja o número de empresas no decil.
De acordo com Hosmer- Lemeshow (ver esta ligação ) esta estatística tem (sob certas premissas) um distribuição com graus de liberdade .
Por outro lado , se eu definisse uma tabela de contingência com linhas (correspondentes aos deciles) e 2 colunas (correspondentes ao resultado binário verdadeiro / falso), a estatística de teste para o para esta tabela de contingência seria o mesmo que o definido acima, no entanto, no caso da tabela de contingência, esta estatística de teste é com graus de liberdade . Então, um grau de liberdade a mais !
Como alguém pode explicar essa diferença no número de graus de liberdade?
EDIT: adições após a leitura dos comentários:
@whuber
Eles dizem (ver Hosmer DW, Lemeshow S. (1980), Um teste de qualidade do ajuste para o modelo de regressão logística múltipla. Communications in Statistics, A10, 1043-1069 ) que existe um teorema demonstrado por Moore e Spruill a partir do qual segue-se que se (1) os parâmetros são estimados usando funções de probabilidade para dados não agrupados e (2) as frequências na tabela 2xg dependem dos parâmetros estimados, ou seja, as células são aleatórias, não fixas, que, em condições de regularidade apropriadas, A estatística da qualidade do ajuste em (1) e (2) é a de um qui-quadrado central com a redução usual de graus de liberdade devido a parâmetros estimados mais uma soma das variáveis ponderadas de qui-quadrado.
Então, se eu entendo bem o trabalho deles, eles tentam encontrar uma aproximação para esse 'termo de correção' que, se eu o entendo bem, é essa soma ponderada de variáveis aleatórias qui-quadrado e o faz fazendo simulações, mas eu devo admitir que não compreendo completamente o que eles dizem lá, daí a minha pergunta; por que essas células são aleatórias, como isso influencia os graus de liberdade? Seria diferente se eu fixasse as bordas das células e depois classificasse as observações em células fixas com base na pontuação estimada; nesse caso, as células não são aleatórias, embora o 'conteúdo' da célula seja?
@Frank Harell: não poderia ser que as 'deficiências' do teste de Hosmer-Lemeshow que você mencionou em seus comentários abaixo sejam apenas uma consequência da aproximação da soma ponderada de qui-quadrados ?
rms
pacoteresiduals.lrm
e asval.prob
funções do R.Respostas:
Hosmer DW, Lemeshow S. (1980), Um teste de qualidade do ajuste para o modelo de regressão logística múltipla. Comunicações em estatística, A10, 1043-1069 mostram que:
(Nota: as condições necessárias não estão explicitamente no Teorema 2 na página 1052, mas se alguém ler atentamente o artigo e a prova, elas serão exibidas)
O segundo termo resulta do fato de que o agrupamento é baseado em quantidades estimadas - isto é, aleatórias - (Hosmer, Lemeshow, 1980, p. 1051)∑p + 1i = 1λEuχ2Eu( 1 )
Usando simulações, eles mostraram que o segundo termo pode ser (nos casos usados na simulação) aproximado por a (Hosmer, Lemeshow, 1980, p.1060)χ2( p - 1 )
Veja também Artigo de Hosmer Lemeshow (1980) - Teorema 2
fonte
O teorema ao qual você se refere (a parte usual da redução "redução usual dos graus de liberdade devido a parâmetros estimados") foi amplamente defendido por RA Fisher. Em 'Sobre a interpretação de Chi Square a partir de Tabelas de Contingência e o Cálculo de P' (1922), ele argumentou usar a regra e em 'A bondade de ajuste das fórmulas de regressão' ( 1922) ele argumenta para reduzir os graus de liberdade pelo número de parâmetros usados na regressão para obter valores esperados dos dados. (É interessante notar que as pessoas usaram mal o teste do qui-quadrado, com graus incorretos de liberdade, por mais de vinte anos desde sua introdução em 1900)(R−1)∗(C−1)
Seu caso é do segundo tipo (regressão) e não do tipo anterior (tabela de contingência), embora os dois estejam relacionados, pois são restrições lineares nos parâmetros.
Como você modela os valores esperados, com base nos valores observados, e o faz com um modelo que possui dois parâmetros, a redução "usual" nos graus de liberdade é de dois mais um (um extra porque o O_i precisa somar até um total, que é outra restrição linear, e você acaba efetivamente com uma redução de dois, em vez de três, devido à "ineficiência" dos valores esperados modelados).
O teste do qui-quadrado usa a como uma medida de distância para expressar a proximidade do resultado dos dados esperados. Nas várias versões dos testes do qui-quadrado, a distribuição dessa 'distância' está relacionada à soma dos desvios nas variáveis distribuídas normais (o que é verdadeiro apenas no limite e é uma aproximação se você lidar com dados distribuídos não normais) .χ2
Para a distribuição normal multivariada, a função densidade está relacionada ao porχ2
com o determinante da matriz de covariância dex|Σ| x
e são os mahalanobis distância que reduz à distância euclidiana se .Σ = Iχ2= ( x -μ)TΣ-1( x - μ ) Σ = I
Em seu artigo de 1900, Pearson argumentou que os níveis são esferóides e que ele pode se transformar em coordenadas esféricas para integrar um valor como . O que se torna uma única integral. P ( χ 2 > a )χ2 P( χ2> a )
É essa representação geométrica, como uma distância e também um termo na função densidade, que pode ajudar a entender a redução dos graus de liberdade quando restrições lineares estão presentes.χ2
Primeiro, o caso de uma tabela de contingência 2x2 . Você deve observar que os quatro valores não são quatro variáveis distribuídas normais independentes. Eles são relacionados um ao outro e se resumem a uma única variável.OEu- EEuEEu
Vamos usar a tabela
então se os valores esperados
onde fixo, então seria distribuído como uma distribuição qui-quadrado com quatro graus de liberdade, mas geralmente estimamos o base no e a variação não é como quatro variáveis independentes. Em vez disso, entendemos que todas as diferenças entre e são iguais eijoijoe∑ oeu j- eeu jeeu j eeu j oeu j o e
e eles são efetivamente uma única variável em vez de quatro. Geometricamente, você pode ver isso como o valor não integrado em uma esfera quadridimensional, mas em uma única linha.χ2
Observe que esse teste da tabela de contingência não é o caso da tabela de contingência no teste Hosmer-Lemeshow (ele usa uma hipótese nula diferente!). Consulte também a seção 2.1 'o caso em que e são conhecidos' no artigo de Hosmer e Lemshow. No caso deles, você obtém 2g-1 graus de liberdade e não g-1 graus de liberdade, como na regra (R-1) (C-1). Essa regra (R-1) (C-1) é especificamente o caso da hipótese nula de que as variáveis de linha e coluna são independentes (o que cria restrições R + C-1 nos valores ). O teste de Hosmer-Lemeshow refere-se à hipótese de que as células são preenchidas de acordo com as probabilidades de um modelo de regressão logística baseado emβ _ o i - e i f o u r p + 1β0 0 β-- oEu- eEu fo u r parâmetros no caso da suposição distributiva A e no caso da suposição distributiva B.p + 1
Segundo o caso de uma regressão. Uma regressão faz algo semelhante à diferença como a tabela de contingência e reduz a dimensionalidade da variação. Existe uma boa representação geométrica para isso, pois o valor pode ser representado como a soma de um termo modelo e de um termo residual (sem erro) . Esses termos modelo e residual representam, cada um, um espaço dimensional que é perpendicular um ao outro. Isso significa que os termos residuais não podem ter nenhum valor possível! Ou seja, eles são reduzidos pela parte que projeta no modelo e, mais especificamente, 1 dimensão para cada parâmetro no modelo.y i β x i ϵ i ϵ io - e yEu βxEu ϵEu ϵEu
Talvez as seguintes imagens possam ajudar um pouco
Abaixo estão 400 vezes três variáveis (não correlacionadas) das distribuições binomiais . Eles se relacionam com variáveis distribuídas normais . Na mesma imagem, desenhamos a iso-superfície para . Para integrar esse espaço usando as coordenadas esféricas, de modo que precisamos apenas de uma única integração (porque alterar o ângulo não altera a densidade), over resulta em em que essa parte representa a área da esfera d-dimensional. Se limitarmos as variáveisB ( n = 60 , p = 1 / 6 , 2 / 6 , 3 / 6 ) N( μ = n ∗ p , σ2= n ∗ p ∗ ( 1 - p ) ) χ2= 1 , 2 , 6 χ ∫uma0 0e- 12χ2χd- 1dχ χd- 1 χ de alguma forma, a integração não seria sobre uma esfera d-dimensional, mas algo de menor dimensão.
A imagem abaixo pode ser usada para se ter uma idéia da redução dimensional nos termos residuais. Explica o método de ajuste de mínimos quadrados em termos geométricos.
Em azul você tem medidas. Em vermelho, você tem o que o modelo permite. A medição geralmente não é exatamente igual ao modelo e tem algum desvio. Você pode considerar isso, geometricamente, como a distância do ponto medido à superfície vermelha.
As setas vermelhas e têm valores e e podem estar relacionadas a algum modelo linear como x = a + b * z + erro oum u1 m u2 ( 1 , 1 , 1 ) ( 0 , 1 , 2 )
portanto, a extensão desses dois vetores e (o plano vermelho) são os valores de possíveis no modelo de regressão e é um vetor que é a diferença entre o valor observado e o valor de regressão / modelado. No método dos mínimos quadrados, esse vetor é perpendicular (a menor distância é a soma dos quadrados) à superfície vermelha (e o valor modelado é a projeção do valor observado na superfície vermelha).( 1 , 1 , 1 ) ( 0 , 1 , 2 ) x ϵ
Portanto, essa diferença esperada e (modelada) esperada é uma soma de vetores que são perpendiculares ao vetor de modelo (e esse espaço tem dimensão do espaço total menos o número de vetores de modelo).
No nosso exemplo simples. A dimensão total é 3. O modelo possui 2 dimensões. E o erro tem uma dimensão 1 (portanto, independentemente de quais desses pontos azuis você escolhe, as setas verdes mostram um único exemplo, os termos do erro sempre têm a mesma proporção, seguem um único vetor).
Espero que esta explicação ajude. Não é de forma alguma uma prova rigorosa e existem alguns truques algébricos especiais que precisam ser resolvidos nessas representações geométricas. Mas de qualquer maneira eu gosto dessas duas representações geométricas. O truque de Pearson para integrar o usando as coordenadas esféricas e o outro para visualizar o método da soma dos mínimos quadrados como uma projeção em um plano (ou maior alcance).χ2
Sempre fico impressionado com a forma como terminamos com , isso não é trivial para mim, pois a aproximação normal de um binomial não é uma invenção de sim de e em No caso de tabelas de contingência, você pode trabalhar com facilidade, mas no caso da regressão ou de outras restrições lineares, isso não funciona tão facilmente, enquanto a literatura geralmente é muito fácil em argumentar que 'funciona da mesma maneira para outras restrições lineares'. . (Um exemplo interessante do problema. Se você executar o teste a seguir várias vezes 'joga 2 vezes 10 vezes uma moeda e registra apenas os casos em que a soma é 10', não obtém a distribuição típica do qui-quadrado para isso " simples "restrição linear) enpo - ee e n p ( 1 - p )
fonte