Dobbel klassifisering
Den doble klassifiseringen eller " biklustering " er en teknikk for datautvinning uten tilsyn for samtidig å segmentere radene og kolonnene i en matrise. Mer formelt kan definisjonen av dobbel klassifisering uttrykkes som følger (for typen kolonneklassifisering):
enten en matrise , eller , da kalles
" bicluster " for når for alle
E{\ displaystyle \ mathrm {E}}
M×IKKE{\ displaystyle \ mathrm {M} \ times \ mathrm {N}}
Jeg⊆M , J⊆IKKE{\ displaystyle \ mathrm {I} \ subseteq \ mathrm {M} {\ text {,}} J \ subseteq \ mathrm {N}}
EJegJ{\ displaystyle \ mathrm {E} _ {IJ}}
E{\ displaystyle \ mathrm {E}}
EJeg1,j=EJeg2,j=..=EJegm,j{\ displaystyle \ mathrm {E} _ {i_ {1}, j} = \ mathrm {E} _ {i_ {2}, j} = .. = \ mathrm {E} _ {i_ {m}, j} }
j∈J og (Jeg1,Jeg2,...Jegm)∈M{\ displaystyle j \ i J {\ text {et}} (i_ {1}, i_ {2}, ... i_ {m}) \ i \ mathrm {M}}
applikasjon
Den " biclustering " ble anvendt tungt i biologi - for eksempel ved analyse av genekspresjon ved Yizong Cheng og George M. Church - men også på andre områder, slik som bildekomprimering syntese, medisinsk analyse - for eksempel i studier av behandling av epilepsi ved vagal stimulering , karakterisering av utsteders spam ( " spam " ), bevegelsesanalyse, analyse av reklamevilkår på internett ...
Typer
I de forskjellige algoritmene som bruker dobbel klassifisering, finner vi forskjellige typer bikluster:
-
“ Bi-cluster ” med konstante verdier (a),
-
" Bi-klynge " med konstante verdier i rad (b) eller i kolonner (c),
-
“ Bi-cluster ” med sammenhengende verdier (d, e).
a) “ Bi-cluster ” med konstante verdier
7.6 |
7.6 |
7.6 |
7.6 |
7.6
|
7.6 |
7.6 |
7.6 |
7.6 |
7.6
|
7.6 |
7.6 |
7.6 |
7.6 |
7.6
|
7.6 |
7.6 |
7.6 |
7.6 |
7.6
|
7.6 |
7.6 |
7.6 |
7.6 |
7.6
|
|
b) " Bi-cluster " med konstante verdier i rader
1.2 |
1.2 |
1.2 |
1.2 |
1.2
|
2.1 |
2.1 |
2.1 |
2.1 |
2.1
|
3.2 |
3.2 |
3.2 |
3.2 |
3.2
|
4.1 |
4.1 |
4.1 |
4.1 |
4.1
|
4.2 |
4.2 |
4.2 |
4.2 |
4.2
|
|
c) “ Bi-cluster ” med konstante verdier i kolonner
1.0 |
2.0 |
3.0 |
4.0 |
5.0
|
1.0 |
2.0 |
3.0 |
4.0 |
5.0
|
1.0 |
2.0 |
3.0 |
4.0 |
5.0
|
1.0 |
2.0 |
3.0 |
4.0 |
5.0
|
1.0 |
2.0 |
3.0 |
4.0 |
5.0
|
|
d) " Bi-cluster " med sammenhengende verdier (additiv)
1.0 |
4.0 |
5.0 |
0,0 |
1.5
|
4.0 |
7.0 |
8.0 |
3.0 |
4.5
|
3.0 |
6.0 |
7.0 |
2.0 |
3.5
|
5.0 |
8.0 |
9.0 |
4.0 |
5.5
|
2.0 |
5.0 |
6.0 |
1.0 |
2.5
|
|
e) " Bi-cluster " med sammenhengende verdier (multiplikativ)
1.0 |
0,5 |
2.0 |
0,2 |
0,8
|
2.0 |
1.0 |
4.0 |
0,4 |
1.6
|
3.0 |
1.5 |
6.0 |
0,6 |
2.4
|
4.0 |
2.0 |
8.0 |
0,8 |
3.2
|
5.0 |
2.5 |
10.0 |
1.0 |
4.0
|
|
I d) forstås begrepet additivitet som følger: i kolonner, i rader; i e) mønsteret er i kolonner og .
+3,-1,+2,-3{\ displaystyle + 3, -1, + 2, -3}
+3,+1,-5,+1,5{\ displaystyle + 3, + 1, -5, + 1.5}
12,∗4,110,∗4{\ displaystyle {\ frac {1} {2}}, * 4, {\ frac {1} {10}}, * 4}
∗2,∗1.5,43,54{\ displaystyle * 2, * 1.5, {\ frac {4} {3}}, {\ frac {5} {4}}}![* 2, * 1.5, {\ frac {4} {3}}, {\ frac {5} {4}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/33884fffd8b17ec14e192772d57390dbf4de31de)
Algoritmer
Målet med dobbeltklassifiseringsalgoritmer er å finne, hvis den eksisterer, den største " bi-klyngen " som finnes i en matrise, ved å maksimere en objektiv funksjon. Vi kan ta som en funksjon, med notasjonene vedtatt ovenfor:
f1=|Jeg|+|J|{\ displaystyle f_ {1} = \ left | \ mathrm {I} \ right | + \ left | J \ right |}![f_ {1} = \ left | \ mathrm {I} \ right | + \ left | J \ right |](https://wikimedia.org/api/rest_v1/media/math/render/svg/b6f307c33f328e372d0eee7087d3bba95ccfc154)
eller
f2=|Jeg|∗|J|{\ displaystyle f_ {2} = \ left | \ mathrm {I} \ right | * \ left | J \ right |}
Mange algoritmer er spesielt utviklet av bioinformatikk , inkludert:
" Block clustering " , CTWC ( " Coupled Two-Way Clustering " ), ITWC ( " Interrelated Two-Way Clustering " ), δ-bicluster, δ-pCluster, δ-pattern , FLOC, OPC, “ Plaid Model ” , OPSMs ( “ Order- conservering submatrixes ” ), Gibbs, SAMBA ( “ Statistical-Algorithmic Method for Bicluster Analysis ” ), RoBA ( “ Robust Biclustering Algorithm ” ), “ Crossing Minimization ”
, CMonkey , PRMs, DCC, LEB ( " Localize and Extract Biclusters " ), QUBIC ( " QUalitative BIClustering " ), BCCA ( " Bi-Correlation Clustering Algorithm " ), FABIA ( " Faktoranalyse for Bicluster Acquisition " ). Noen av disse algoritmene har blitt sammenlignet av Doruk Bozda, Ashwin S. Kumar og Umit V. Catalyurek når det gjelder typen mønstre du søker.
De " biclust " pakken tilbyr et sett med verktøy for dual klassifiseringen i R-programvaren .
Relaterte artikler
Merknader og referanser
(
fr ) Denne artikkelen er delvis eller helt hentet fra Wikipedia-artikkelen på
engelsk med tittelen
" Biclustering " ( se listen over forfattere ) .
-
Tran Trang, Nguyen Cam Chi, Hoang Ngoc Minh, Bi-klynging av biochipdata etter vektede trær med lengste prefiks - Kapittel 1 Innledning
-
Sara C. Madeira, Arlindo L. Oliveira, Biclustering Biological Data Analysis
-
(in) Cheng Y, Church GM, " biclustering of speech data " , Proceedings of the 8. International Conference on Intelligent Systems for Molecular Biology ,2000, s. 93–103
-
Yizong Cheng, George M. kirke Biclustering of Expression data
-
Xin Sun, Qiming Hou, Zhong Ren, Kun Zhou, Baining Guo, Radiance Transfer Biclustering for sanntids Bi-skala gjengivelse i sanntid
-
Stanislav Busygin, Nikita Boyko, Panos M. Pardalos, Michael Bewernitz, Georges Ghacibeh, Biclustering EEG-data fra epileptiske pasienter behandlet med vagusnervestimulering
-
Kevin S. Xu, Mark Kliger, Alfred O. Hero III, Identifisere spammere ved sin ressursbruk Patterns
-
Keren Erez, Jacob Goldberger, Ronen Sosnik, Moshe Shemesh, Susan Rothstein, Moshe Abeles, Analyse bevegelse Trajectories Ved hjelp av en Markov Bi-gruppering Metode
-
Dmitry I. Ignatov, Concept-baserte Biclustering for Internet Reklame
-
Stefano Lonardi, Qiaofeng Yang, Wojciech Szpankowski, Finne biclusters ved tilfeldige projeksjoner
-
(in) Tanay A Sharan R, M og Kupiec Sahmir R " Å avsløre modularitet og organisering i gjærmolekylært nettverk ved integrert analyse av svært heterogene genom-data " , Proc Natl Acad Sci USA , Vol. 101, n o 9,
2004, s. 2981-2986 ( PMID 16749936 , PMCID 14973197 , DOI 10.1073 / pnas.0308661100 )
-
Ahsan Abdullah, Data Mining Bruke Crossing Minimisation Paradigm
-
(in) Reiss DJ, NS Baliga, R Bonneau, " Integrated biclustering of heterogeneous genom-wide datasets for the inference of global regulatory networks " , BMC Bioinformatics , vol. 2, n o 7,
2006, s. 280–302 ( PMID 16749936 , PMCID 1502140 , DOI 10.1186 / 1471-2105-7-280 )
-
(en) Hochreiter S, Bodenhofer U, Heusel M, Mayr A, Mitterecker A, Kasim A, Khamiakova T, Van Sanden S, Lin D, Talloen W, Bijnens L, Göhlmann HWH, Shkedy Z Clevert DA, " FABIA: factor analyse for bicluster acquisition ” , Bioinformatics , vol. 26, n o 12
2010, s. 1520–1527 ( PMID 20418340 , PMCID 2881408 , DOI 10.1093 / bioinformatikk / btq227 )
-
Doruk Bozda, Ashwin S. Kumar, og Umit V. Catalyurek, komparativ analyse av Biclustering Algoritmer
-
Sebastian Kaiser, Friedrich Leisch, En verktøykasse for biclusteranalyse i R
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">