Como nunca o usei diretamente, posso compartilhar apenas alguns trabalhos que tive e pensamentos gerais sobre essa técnica (que abordam principalmente as perguntas 1 e 3).
Meu entendimento geral do biclustering vem principalmente de estudos genéticos (2-6), nos quais procuramos explicar agrupamentos de genes e agrupamento de indivíduos: em resumo, estamos procurando amostras de grupos que compartilhem perfis similares de expressão gênica (isso pode estar relacionado estado da doença, por exemplo) e genes que contribuem para esse padrão de criação de perfil de genes. Uma pesquisa sobre o estado da arte para conjuntos de dados biológicos "maciços" está disponível nos slides de Pardalos, Biclustering . Observe que existe um pacote R, biclust , com aplicativos para dados de microarray.
De fato, minha ideia inicial foi aplicar essa metodologia ao diagnóstico clínico, pois permite colocar características ou variáveis em mais de um cluster, o que é interessante de uma perspectiva semeiológica, porque os sintomas que se agrupam permitem definir a síndrome , mas alguns sintomas podem sobreposição em diferentes doenças. Uma boa discussão pode ser encontrada em Cramer et al., Comorbidade: uma perspectiva de rede (Behavioral and Brain Sciences 2010, 33, 137-193).
Uma técnica um pouco relacionada é a filtragem colaborativa . Uma boa revisão foi disponibilizada por Su e Khoshgoftaar ( Avanços em Inteligência Artificial , 2009): Uma Pesquisa de Técnicas de Filtragem Colaborativa . Outras referências estão listadas no final. Talvez a análise do conjunto de itens frequentes , como exemplificado no problema da cesta de mercado , também esteja ligada a ele, mas nunca o investiguei. Outro exemplo de agrupamento é quando queremos agrupar simultaneamente palavras e documentos, como na mineração de texto, por exemplo, Dhillon (2001). Co-agrupando documentos e palavras usando o particionamento de gráfico espectral bipartido . Proc. KDD , pp. 269–274.
Sobre algumas referências gerais, aqui está uma lista não muito exaustiva que espero que seja útil:
- Jain, AK (2010). Agrupamento de dados: 50 anos além K-means . Cartas de reconhecimento de padrões , 31 , 651–666
- Carmona-Saez et al. (2006). Biclustering de dados de expressão gênica por fatoração matricial não-suave e não-negativa . BMC Bioinformatics , 7 , 78.
- Prelic et al. (2006). Uma comparação sistemática e avaliação de métodos de biclustering para dados de expressão gênica . Bioinformática , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
- DiMaggio et al. (2008). Biclustering via reordenação ótima de matrizes de dados em biologia de sistemas: métodos rigorosos e estudos comparativos . BMC Bioinformatics , 9 , 458.
- Santamaria et al. (2008). BicOverlapper: Uma ferramenta para visualização de bicluster . Bioinformtics , 24 (9) , 1212-1213.
- Madeira, SC e Oliveira, AL (2004) Algoritmos Bicluster para análise de dados biológicos: uma pesquisa . IEEE Trans. Comput. Biol. Bioinform. , 1 , 24-45.
- Badea, L. (2009). Clustergrams generalizados para sobreposição de biclusters . IJCAI
- Symeonidis, P. (2006). Filtragem colaborativa de biclusters mais próximos . WEBKDD
Aqui está uma boa pesquisa / revisão:
Stanislav Busygin, Oleg Prokopyev e Panos M. Pardalos. Biclustering na mineração de dados . Computers & Operations Research, 35 (9): 2964–2987, setembro de 2008.
fonte