Uma regressão logística é enviesada quando a variável de resultado é dividida em 5% a 95%?

10

Estou construindo um modelo de propensão usando regressão logística para um cliente utilitário. Minha preocupação é que, do total da amostra, minhas contas 'ruins' sejam de apenas 5% e o restante seja bom. Estou prevendo 'ruim'.

  • O resultado será enviesado?
  • Qual é a proporção ótima de ruim para boa para construir um bom modelo?
navaneeth
fonte
Eu acho que é sempre melhor ter 50% de bens e 50% de maus, de acordo com a regra geral. O modelo fora do modelo não deve ser tendencioso na amostra.

Respostas:

7

Eu discordei das outras respostas nos comentários, então é justo que eu dê as minhas. Seja Y a resposta (contas boas / ruins) e X sejam as covariáveis.

Para regressão logística, o modelo é o seguinte:

log(p(Y=1|X=x)p(Y=0|X=x))=α+i=1kxiβi

Pense em como os dados podem ser coletados:

  • Você pode selecionar as observações aleatoriamente de alguma "população" hipotética
  • Você pode selecionar os dados com base em e ver quais valores de ocorrem.YXY

Ambos estão bem para o modelo acima, como você só está modelando a distribuição de . Isso seria chamado de estudo prospectivo .Y|X

Alternativamente:

  • Você pode selecionar as observações com base em (digamos 100 de cada) e ver a prevalência relativa de (ou seja, você está estratificando em ). Isso é chamado de estudo retrospectivo ou caso-controle .X YYXY

(Você também pode selecionar os dados com base em e em algumas variáveis ​​de : este seria um estudo de controle de caso estratificado e é muito mais complicado de se trabalhar, por isso não vou entrar aqui).XYX

Existe um bom resultado da epidemiologia (ver Prentice e Pyke (1979) ) que, para um estudo de controle de caso, as estimativas de probabilidade máxima para podem ser encontradas por regressão logística, que está usando o modelo prospectivo para dados retrospectivos.β

Então, como isso é relevante para o seu problema?

Bem, isso significa que, se você for capaz de coletar mais dados, poderá apenas olhar para as contas incorretas e ainda usar a regressão logística para estimar os '(mas você precisará ajustar o para levar em conta o excesso de representação). Digamos que custa R $ 1 para cada conta extra; isso pode ser mais econômico do que simplesmente olhar para todas as contas. αβiα

Por outro lado, se você já possui TODOS os dados possíveis, não há motivo para estratificar: você simplesmente jogaria fora os dados (fornecendo estimativas piores) e ficaria com o problema de tentar estimar .α

Simon Byrne
fonte
Isso só é verdade se você tiver dados suficientes para representar adequadamente a classe minoritária (que geralmente é o problema em que há um grande desequilíbrio de classe - o problema é o desequilíbrio per se, mas você não tem amostras suficientes da minoria classe). Nesse caso, a ponderação diferencial baseada na validação cruzada das classes positiva e negativa, o ajuste de alfa ou o ajuste multiplicativo (todos os equivalentes IIRC) seriam uma boa idéia para aumentar a classe minoritária. Estratificar os dados seria um equivalente barato e alegre.
Dikran Marsupial
@Dikran: Eu não vejo como nada disso não é verdade nesse caso: você não precisa representar a classe minoritária, basta representar a diferença relativa da maioria. Se você não tiver dados suficientes para isso, jogar fora as observações da maioria não ajudará.
Simon Byrne
@ Simon, eu concordei com você que a estratificação não é uma boa ideia, a menos que você não queira ajustar alfa, ponderar novamente os padrões ou ajustar a saída do modelo. Como eu disse, o problema com o desequilíbrio de classe não é o desequilíbrio per se, mas há dados insuficientes para que a classe minoritária defina adequadamente a "diferença relativa à maioria". Quando isso acontece, em média, influencia a produção para a classe majoritária e, portanto, é útil fazer algo para compensar essa tendência. A estratificação é uma maneira de fazer isso, mas não é a melhor.
Dikran Marsupial
@ Simon, obrigado pela referência Prentice e Pyke, parece útil.
Dikran Marsupial
11
@Dikran: Pode muito bem ser tendencioso para outros modelos, mas NÃO para regressão logística, esse é o ponto.
Simon Byrne
3

Assintoticamente, a proporção de padrões positivos para negativos é essencialmente irrelevante. O problema surge principalmente quando você tem poucas amostras da classe minoritária para descrever adequadamente sua distribuição estatística. Aumentar o conjunto de dados geralmente resolve o problema (sempre que possível).

Se isso não for possível, a melhor coisa a fazer é voltar a amostrar os dados para obter um conjunto de dados equilibrado e, em seguida, aplicar um ajuste multiplicativo à saída do classificador para compensar a diferença entre o conjunto de treinamento e as frequências relativas da classe operacional. Embora você possa calcular o fator de ajuste ideal (assintoticamente), na prática, é melhor ajustá-lo usando a validação cruzada (pois estamos lidando com um caso prático finito em vez de um caso assintótico).

Nesse tipo de situação, costumo usar um comitê de modelos, onde cada um é treinado em todos os padrões minoritários e uma amostra aleatória diferente dos padrões majoritários do mesmo tamanho que os padrões minoritários. Isso protege contra a má sorte na seleção de um único subconjunto dos padrões majoritários.

Dikran Marsupial
fonte
2
Mas isso é pertinente à regressão logística? Não precisamos descrever a distribuição estatística de nenhuma das classes, apenas os índices de chances relativos (veja meu comentário no @Henry).
Simon Byrne
Em um exemplo univariado, talvez, mas se você tiver mais de uma variável explicativa, precisará de informações sobre a distribuição de padrões para orientar corretamente o "discriminante".
Dikran Marsupial 5/05
Não seria melhor aplicar o ajuste multiplicativo no espaço de chances de log antes que a função logística seja aplicada?
Rm999 5/05
IIRC, o ajuste assintiticamente ideal é multiplicar pela razão de frequências de classe operacional para classe de conjunto de treinamento, isso é baseado na regra de Bayes, portanto é aplicado às probabilidades e não à razão log-odds. No entanto, como estamos apenas tentando corrigir uma deficiência matematicamente intratável na estimativa, provavelmente não importa muito como o ajuste é feito, é realmente apenas um "fator de falsificação".
Dikran Marsupial 5/05
@ Dikran: Eu não entendo o que você quer dizer sobre orientar corretamente o "discriminante". Mesmo no caso multivariado, a regressão logística ainda está apenas computando razões de chances relativas.
Simon Byrne
1

Em teoria, você será capaz de discriminar melhor se as proporções de "bom" e "ruim" forem aproximadamente similares em tamanho. Você pode avançar nessa direção por meio de amostragem estratificada, sobredimensionamento de casos ruins e, em seguida, reponderação para retornar às proporções verdadeiras posteriormente.

Isso traz alguns riscos. Em particular, é provável que seu modelo esteja rotulando os indivíduos como "potencialmente ruins" - presumivelmente aqueles que talvez não paguem suas contas de serviços públicos no vencimento. É importante que o impacto dos erros ao fazer isso seja reconhecido adequadamente: em particular quantos "bons clientes" serão rotulados de "potencialmente ruins" pelo modelo, e você terá menos probabilidade de errar na ponderação se não distorcer sua imagem. modelo por amostragem estratificada.

Henry
fonte
Na verdade, não acho que isso seja verdade para a regressão logística: o parâmetro odds ratio (que executa a discriminação) é invariável à estratificação na variável resposta. É por isso que pode ser usado para estudos de controle de caso.
Simon Byrne
@ Simon: Não discordo do seu comentário sobre o odds ratio, mas vi pessoas que não conseguiram levar isso de volta às consequências para a população corretamente após a amostragem estratificada, quando o fizeram em outros casos. Por exemplo, se você achar que as pessoas cujo fator A é verdadeiro têm duas vezes mais chances de serem "ruins" do que aquelas sem o fator A, isso não deve mudar com a amostragem estratificada, mas se você deseja saber qual proporção da população será afetado desnecessariamente se você atingir aqueles com fator A, precisará ponderar cuidadosamente as informações de suas amostras.
Henry
desculpe, não foi com isso que eu discordei. Foi o primeiro bit: uma conseqüência da invariância é que, depois de obter os dados, não há sentido em estratificar, você simplesmente está jogando fora os dados. (a história é diferente quando se trata do custo da coleta de dados, daí a existência de estudos de caso-controle).
Simon Byrne
@ Simon: Quando você diz "estudo de controle de caso", você quer dizer que originalmente planeja tirar uma amostra de casos "ruins" e uma amostra de casos "bons"? Com uma proporção maior de casos "ruins" do que a pequena proporção na população? Nesse caso, é isso que pretendi com "amostragem estratificada, super amostragem de casos ruins" em minha resposta.
Henry
Sim, é exatamente isso que eu quis dizer. A pergunta parecia indicar que eles já têm dados, portanto, não faria sentido estratificar.
Simon Byrne
0

yipipi

yiBernoulli(pi)
pi=logit1(a+b1x1+...+bnxn)
logit-1 1=exp(X)1 1+exp(x)

Agora importa que você tenha baixa proporção de falhas (contas incorretas)? Na verdade, desde que seus dados de amostra sejam equilibrados, como algumas pessoas já apontaram. No entanto, se seus dados não estiverem equilibrados, obter mais dados poderá ser quase inútil se houver alguns efeitos de seleção que você não está levando em consideração. Nesse caso, você deve usar a correspondência, mas a falta de equilíbrio pode tornar a correspondência bastante inútil. Outra estratégia é tentar encontrar um experimento natural, para que você possa usar variáveis ​​instrumentais ou design de descontinuidade de regressão.

Por último, mas não menos importante, se você tiver uma amostra equilibrada ou se não houver viés de seleção, poderá estar preocupado com o fato de a conta incorreta ser rara. Não acho que 5% seja raro, mas, para o caso, dê uma olhada no artigo de Gary King sobre a execução de uma logística de eventos raros. No pacote Zelig, no R, você pode executar uma logística de eventos raros.

Manoel Galdino
fonte
0

Ok, então eu trabalho na detecção de fraudes, para que esse tipo de problema não seja novo para mim. Acho que a comunidade de aprendizado de máquina tem muito a dizer sobre dados desequilibrados (como nas classes são desequilibrados). Então, existem algumas estratégias fáceis fáceis que eu acho que já foram mencionadas, e algumas idéias legais, e de alguma maneira lá fora. Não vou nem fingir saber o que isso significa para os assintóticos para o seu problema, mas parece sempre me dar resultados razoáveis ​​na regressão logística. Pode haver um jornal lá em algum lugar, embora não tenha certeza.

Aqui estão as suas opções como eu a vejo:

  1. Superamos a amostra da classe minoritária. Isso equivale a amostrar a classe minoritária com substituição até que você tenha o mesmo número de observações que a classe majoritária. Existem maneiras sofisticadas de fazer isso para que você faça coisas como tremer os valores da observação, para que você tenha valores próximos ao original, mas não sejam cópias perfeitas etc.
  2. Subamostra, é aqui que você pega uma subamostra da classe majoritária. Novamente, maneiras sofisticadas de fazer isso, para remover as amostras majoritárias mais próximas das amostras minoritárias, usando algoritmos vizinhos mais próximos e assim por diante.
  3. Recompense as aulas. Para regressão logística, é isso que eu faço. Essencialmente, você está alterando a função de perda para penalizar um caso minoritário mal classificado com muito mais força do que uma classe majoritária mal classificada. Mas, novamente, tecnicamente você não está fazendo a máxima probabilidade.
  4. Simule dados. Muitas idéias legais com as quais eu brinquei aqui. Você pode usar o SMOTE para gerar dados, redes adversas generativas, codificadores automáticos usando a parte generativa, estimadores de densidade do kernel para desenhar novas amostras.

De qualquer forma, usei todos esses métodos, mas acho que o mais simples é apenas re-ponderar o problema para a regressão logística de qualquer maneira. Uma coisa que você pode fazer para verificar o seu modelo é:

-Intercept/beta

Esse deve ser o limite de decisão (50% de probabilidade de estar em qualquer classe) em uma determinada variável ceteris paribus . Se não faz sentido, por exemplo, o limite de decisão é um número negativo em uma variável estritamente positiva, então você tem um viés na sua regressão logística que precisa ser corrigido.

Ryan
fonte