Qual classificador é mais preciso para uma classificação SVM?

10

Estou aprendendo a classificação SVM e encontro um problema. Não tenho certeza se esse dilema tem uma terminologia para ele.

Suponha que gostaríamos de classificar os pacientes por SVM, considerando as amostras de pessoas saudáveis ​​(de ambos os sexos) e pessoas com câncer de fígado (de ambos os sexos). Se rotularmos a amostra de pessoas saudáveis ​​como classe 1 e as pessoas com câncer como classe 2, poderemos treinar um SVM binário e obter um classificador 1 para prever qualquer novo paciente. Agora, imagine outro cenário. Suponha que primeiro dividamos todas as amostras por gênero antes da classificação SVM. Para cada gênero, ainda rotulamos pacientes saudáveis ​​contra pacientes com câncer em 2 classes e treinamos um SVM binário para obter os classificadores 2 e 3 para amostras femininas e masculinas, respectivamente. A questão é se existe uma nova paciente do sexo feminino, qual classificador 1 ou 2 deve ser usado para obter uma previsão mais precisa? Aqui está o dilema dos argumentos que tenho

(1) Quando o número de amostras é grande, a previsão deve ser mais precisa. Com base nesse argumento, o classificador 1 parece uma boa escolha.

(2) No entanto, se dividirmos as amostras em grupos feminino e masculino primeiro, o classificador 2 parecerá uma escolha melhor, pois o novo paciente (amostra desconhecida) é do sexo feminino.

Esse tipo de dilema tem uma terminologia ou alguém sabe mais informações ou como resolver um problema como esse? Eu nem tenho certeza se essa é uma pergunta legítima e peço desculpas pela pergunta ingênua com antecedência. obrigado

Cassie
fonte
4
Isso não pode ser respondido em geral. Talvez se soubéssemos quanto o sexo influencia o câncer e quantas amostras você tem, qual função de perda você usa etc. É provavelmente muito mais fácil experimentar o uso da validação cruzada.
Adriann
Obrigado. Faz sentido. Eu acho que não deveria haver uma regra geral.
Cassie
isso soa como uma pergunta geral do ML sobre "como devo usar o ML para resolver esse problema". não há resposta padrão. é importante / aceito / padrão tentar abordagens diferentes e ver quais estratégias levam a resultados de previsão mais precisos. o cabeçalho geral é algo como "representação do problema do mundo real na estrutura abstrata do ML" ou aproximadamente "modelagem" e é abordado em boas referências
padrão

Respostas:

2

Você deve dar uma olhada na seleção de recursos e algoritmos que automatizam esse processo. Tudo bem se você é novo no ML e não entende todo o processo de seleção de recursos, obtenha a intuição adequada e use uma biblioteca para automatizar o processo.

A idéia principal de ter um algoritmo de aprendizagem é para que ele possa encontrar os padrões ... o máximo que você pode fazer é ajudá - lo, fornecendo muitos dados (não redundantes) e tendo uma boa etapa de pré-processamento, que geralmente envolve coisas como seleção de recurso e normalização .

Em uma observação amigável, ao implementar algoritmos de aprendizado, você não deve tentar modificar seu conjunto de dados apenas “olhando” para ele, a menos que tenha métricas concretas que atestem que ele precisa de modificações, muitas vezes, foi o caso, que o aprendizado O algoritmo colocou um viés alto em relação aos recursos que não pareciam estar remotamente "relacionados" ao processo de classificação. Sempre tente executar uma etapa de seleção de recurso antes de tentar qualquer modificação em seus dados.

Subhayan
fonte
1

um cabeçalho geral para esse tipo de etapa do processo de aprendizado de máquina é o pré-processamento de dados, que a wikipedia diz que inclui "limpeza, normalização, transformação, extração e seleção de recursos, etc.".

Outro aspecto do aprendizado de máquina é "criar o modelo". isso envolve decisões, por exemplo, sobre quantas classes serão detectadas, qual será o "tamanho" ou "dimensões" da estrutura ML (por exemplo, "quantos kernels o SVM incluirá" etc.), aproximadamente análogo à escolha do número de neurônios em uma NN modelo). infelizmente, alguns árbitros tendem a pular ou "encobrir" esta etapa. mas observe que é comum com estatísticas e alguns livros de estatísticas terão uma boa descrição.

nas abordagens do tipo ML, é convencional que exista um processo iterativo / de feedback / evolutivo forte para determinar o pré-processamento e a modelagem eficazes. o experimentador tenta várias idéias de pré-processamento e modelagem e se move na direção das mais bem-sucedidas. a regra geral é "quanto melhores as previsões, mais uma é corretamente [e presumivelmente também realisticamente ] pré-processamento e modelagem", mas também considerando que o excesso de ajuste é cuidadosamente descartado.

vzn
fonte