Dobbel klassifisering

Den doble klassifiseringen eller " biklustering " er en teknikk for datautvinning uten tilsyn for samtidig å segmentere radene og kolonnene i en matrise. Mer formelt kan definisjonen av dobbel klassifisering uttrykkes som følger (for typen kolonneklassifisering):

enten en matrise , eller , da kalles " bicluster " for når for alle

\ mathrm {E}

\ mathrm {M} \ times \ mathrm {N}

\ mathrm {I} \ subseteq \ mathrm {M} {\ text {,}} J \ subseteq \ mathrm {N}

\ mathrm {E} _ {{IJ}}

\ mathrm {E}

\ mathrm {E} _ {{i_ {1}, j}} = \ mathrm {E} _ {{i_ {2}, j}} = .. = \ mathrm {E} _ {{i_ {m}, j}}

j \ i J {\ text {and}} (i_ {1}, i_ {2}, ... i_ {m}) \ i \ mathrm {M}

applikasjon

Den " biclustering " ble anvendt tungt i biologi - for eksempel ved analyse av genekspresjon ved Yizong Cheng og George M. Church - men også på andre områder, slik som bildekomprimering syntese, medisinsk analyse - for eksempel i studier av behandling av epilepsi ved vagal stimulering , karakterisering av utsteders spam ( " spam " ), bevegelsesanalyse, analyse av reklamevilkår på internett ...

Typer

I de forskjellige algoritmene som bruker dobbel klassifisering, finner vi forskjellige typer bikluster:

“ Bi-cluster ” med konstante verdier (a),
" Bi-klynge " med konstante verdier i rad (b) eller i kolonner (c),
“ Bi-cluster ” med sammenhengende verdier (d, e).

a) “ Bi-cluster ” med konstante verdier

7.6	7.6	7.6	7.6	7.6
7.6	7.6	7.6	7.6	7.6
7.6	7.6	7.6	7.6	7.6
7.6	7.6	7.6	7.6	7.6
7.6	7.6	7.6	7.6	7.6

b) " Bi-cluster " med konstante verdier i rader

1.2	1.2	1.2	1.2	1.2
2.1	2.1	2.1	2.1	2.1
3.2	3.2	3.2	3.2	3.2
4.1	4.1	4.1	4.1	4.1
4.2	4.2	4.2	4.2	4.2

c) “ Bi-cluster ” med konstante verdier i kolonner

1.0	2.0	3.0	4.0	5.0
1.0	2.0	3.0	4.0	5.0
1.0	2.0	3.0	4.0	5.0
1.0	2.0	3.0	4.0	5.0
1.0	2.0	3.0	4.0	5.0

d) " Bi-cluster " med sammenhengende verdier (additiv)

1.0	4.0	5.0	0,0	1.5
4.0	7.0	8.0	3.0	4.5
3.0	6.0	7.0	2.0	3.5
5.0	8.0	9.0	4.0	5.5
2.0	5.0	6.0	1.0	2.5

e) " Bi-cluster " med sammenhengende verdier (multiplikativ)

1.0	0,5	2.0	0,2	0,8
2.0	1.0	4.0	0,4	1.6
3.0	1.5	6.0	0,6	2.4
4.0	2.0	8.0	0,8	3.2
5.0	2.5	10.0	1.0	4.0

I d) forstås begrepet additivitet som følger: i kolonner, i rader; i e) mønsteret er i kolonner og . $+ 3, -1, + 2, -3$ $+ 3, + 1, -5, + 1,5$ ${\ frac {1} {2}}, * 4, {\ frac {1} {10}}, * 4$ $* 2, * 1.5, {\ frac {4} {3}}, {\ frac {5} {4}}$

Algoritmer

Målet med dobbeltklassifiseringsalgoritmer er å finne, hvis den eksisterer, den største " bi-klyngen " som finnes i en matrise, ved å maksimere en objektiv funksjon. Vi kan ta som en funksjon, med notasjonene vedtatt ovenfor:

f_ {1} = \ left | \ mathrm {I} \ right | + \ left | J \ right |

eller

f_ {2} = \ left | \ mathrm {I} \ right | * \ left | J \ right |

Mange algoritmer er spesielt utviklet av bioinformatikk , inkludert: " Block clustering " , CTWC ( " Coupled Two-Way Clustering " ), ITWC ( " Interrelated Two-Way Clustering " ), δ-bicluster, δ-pCluster, δ-pattern , FLOC, OPC, “ Plaid Model ” , OPSMs ( “ Order- conservering submatrixes ” ), Gibbs, SAMBA ( “ Statistical-Algorithmic Method for Bicluster Analysis ” ), RoBA ( “ Robust Biclustering Algorithm ” ), “ Crossing Minimization ” , CMonkey , PRMs, DCC, LEB ( " Localize and Extract Biclusters " ), QUBIC ( " QUalitative BIClustering " ), BCCA ( " Bi-Correlation Clustering Algorithm " ), FABIA ( " Faktoranalyse for Bicluster Acquisition " ). Noen av disse algoritmene har blitt sammenlignet av Doruk Bozda, Ashwin S. Kumar og Umit V. Catalyurek når det gjelder typen mønstre du søker.
De " biclust " pakken tilbyr et sett med verktøy for dual klassifiseringen i R-programvaren .

Relaterte artikler

Merknader og referanser

( fr ) Denne artikkelen er delvis eller helt hentet fra Wikipedia-artikkelen på engelsk med tittelen " Biclustering " ( se listen over forfattere ) .

Tran Trang, Nguyen Cam Chi, Hoang Ngoc Minh, Bi-klynging av biochipdata etter vektede trær med lengste prefiks - Kapittel 1 Innledning
Sara C. Madeira, Arlindo L. Oliveira, Biclustering Biological Data Analysis
(in) Cheng Y, Church GM, " biclustering of speech data " , Proceedings of the 8. International Conference on Intelligent Systems for Molecular Biology ,2000, s. 93–103
Yizong Cheng, George M. kirke Biclustering of Expression data
Xin Sun, Qiming Hou, Zhong Ren, Kun Zhou, Baining Guo, Radiance Transfer Biclustering for sanntids Bi-skala gjengivelse i sanntid
Stanislav Busygin, Nikita Boyko, Panos M. Pardalos, Michael Bewernitz, Georges Ghacibeh, Biclustering EEG-data fra epileptiske pasienter behandlet med vagusnervestimulering
Kevin S. Xu, Mark Kliger, Alfred O. Hero III, Identifisere spammere ved sin ressursbruk Patterns
Keren Erez, Jacob Goldberger, Ronen Sosnik, Moshe Shemesh, Susan Rothstein, Moshe Abeles, Analyse bevegelse Trajectories Ved hjelp av en Markov Bi-gruppering Metode
Dmitry I. Ignatov, Concept-baserte Biclustering for Internet Reklame
Stefano Lonardi, Qiaofeng Yang, Wojciech Szpankowski, Finne biclusters ved tilfeldige projeksjoner
(in) Tanay A Sharan R, M og Kupiec Sahmir R " Å avsløre modularitet og organisering i gjærmolekylært nettverk ved integrert analyse av svært heterogene genom-data " , Proc Natl Acad Sci USA , Vol. 101, n o 9, 2004, s. 2981-2986 ( PMID 16749936 , PMCID 14973197 , DOI 10.1073 / pnas.0308661100 )
Ahsan Abdullah, Data Mining Bruke Crossing Minimisation Paradigm
(in) Reiss DJ, NS Baliga, R Bonneau, " Integrated biclustering of heterogeneous genom-wide datasets for the inference of global regulatory networks " , BMC Bioinformatics , vol. 2, n o 7, 2006, s. 280–302 ( PMID 16749936 , PMCID 1502140 , DOI 10.1186 / 1471-2105-7-280 )
(en) Hochreiter S, Bodenhofer U, Heusel M, Mayr A, Mitterecker A, Kasim A, Khamiakova T, Van Sanden S, Lin D, Talloen W, Bijnens L, Göhlmann HWH, Shkedy Z Clevert DA, " FABIA: factor analyse for bicluster acquisition ” , Bioinformatics , vol. 26, n o 12 2010, s. 1520–1527 ( PMID 20418340 , PMCID 2881408 , DOI 10.1093 / bioinformatikk / btq227 )
Doruk Bozda, Ashwin S. Kumar, og Umit V. Catalyurek, komparativ analyse av Biclustering Algoritmer
Sebastian Kaiser, Friedrich Leisch, En verktøykasse for biclusteranalyse i R