Foreningsregel

Innen datautvinning er søket etter assosieringsregler en populær metode studert i dybden, og målet er å oppdage relasjoner av interesse for statistikeren mellom to eller flere variabler lagret i veldig store databaser . Piatetsky-Shapiro presenterer ekstremt sterke assosieringsregler oppdaget i databaser ved hjelp av forskjellige mål av interesse. Basert på konseptet med sterke relasjoner, presenterer Rakesh Agrawal og hans team tilknytningsregler som har til hensikt å avdekke likheter mellom produkter i data som er lagt inn i stor skala i IT-systemene for kjedeprodukter. For eksempel kan en regel oppdaget i salgsdata i et supermarked indikere at en kunde som kjøper løk og poteter samtidig, sannsynligvis vil kjøpe en hamburger. Slik informasjon kan brukes som grunnlag for å ta markedsføringsbeslutninger som for eksempel kampanjer eller velvalgte steder for tilknyttede produkter. I tillegg til de ovennevnte eksemplene på forbrukerkurven, brukes foreningsregler i dag på mange områder, inkludert nettdrift , innbruddsdeteksjon og bioinformatikk .

Historie

Konseptet med assosiasjonsregel ble popularisert, særlig av en artikkel av Rakesh Agrawal fra 1993. Men det er mulig at denne oppfatningen ble oppdaget under navnet GUHA i 1966 av Petr Hájek og hans kolleger.


Prinsipper

Definisjon

En assosieringsregel kan formelt defineres slik:

, hvor og

Nyttige forestillinger

For et delsett av indekser (kalt itemset ):

Legg merke til det , som gjenspeiler det faktum at hvis og bare hvis og .

Algoritmer

Apriori

KRAV: En terskelstøtte S

SIKRER: Listen over hyppige varesett

L1 ‹- Liste over gjenstander der støtten er større enn S; i ‹- i + 1;

GJENTA

i ‹— 1; À partir des Li-1, construire l'ensemble Ci des itemsets fréquents, candidats comprenant i items ; Li ‹— {}; POUR tout élément e € Ci FAIRE SI support(e) > S ALORS ajouter e à Li; FINSI FINPOUR

TIL L1 == {}

Stråling

Eclat er en assosiasjonsalgoritme som bruker skjæringspunktet mellom sett.

FP-vekst

FP-vekst (hyppig mønstervekst) bruker et FP-tre for å lagre en komprimert form av en database. FP-growth vedtar en skjæringsstrategi for å bryte ned data mining og databaseoppgaver . Det bruker en mønsterfragmentvekst  " -metode for å unngå den kostbare kandidatgenererings- og testprosessen som brukes av Apriori.

GUHA-prosedyre ASSOC

GUHA ( General Unary Hypotheses Automaton  " ) er en metode for automatisk å generere hypoteser fra empiriske data, så det er en metode for data mining. Prosedyren er en ASSOC GUHA-metode som utforsker dataene for raskt å finne generaliserte tilknytningsregler ved hjelp av array-datastrukturer ( Array Bit  " ).

En attributtregel

Ideen bak utformingen av OneR (one-attribute-rule) algoritmen er å finne et attributt å bruke som gir minst mulig prediksjonsfeil. Peter Ross oppdaget at enkle regler med bare ett attributt i tilstanden faktisk fungerer bra.

OPUS

OPUS er en effektiv algoritme for å finne tilknytningsregler, som, i motsetning til andre, ikke krever anti-monotone og monotone begrensninger som minimum støtte. Opprinnelig brukt til å finne regler for en gitt konklusjon, ble den senere utvidet til å finne regler med ethvert element som en konklusjon. OPUS-søkemotoren er den sentrale teknologien i det populære Magnum Opus assosiasjonssystemet .

Nullattributtregel

Se også

Merknader

Interne lenker

Referanser

  1. Piatetsky-Shapiro, G. (1991), Discovery, analyse og presentasjon av sterke regler, i G. Piatetsky-Shapiro & WJ Frawley, red., 'Knowledge Discovery in Databases', AAAI / MIT Press, Cambridge, MA.
  2. R. Agrawal; T. Imielinski; A. Swami: Mining Association Rules Between Sets of Items in Large Databases ", SIGMOD Conference 1993: 207-216
  3. Petr Hajek, Tomas Feglar, Jan Rauch, David Coufal. GUHA-metoden, databehandling og gruvedrift. Database Support for Data Mining Applications, ( ISBN  978-3-540-22479-2 ) , Springer, 2004
  4. Gurmeet Singh Manku, Rajeev Motwani , tilnærmet frekvens teller over datastrømmer
  5. Bing Liu, Web Data Mining, Springer, 2010-utgave, Side 14
  6. Mohammed J. Zaki. Skalerbare algoritmer for tilknytningsgruvedrift. IEEE Transactions on Knowledge and Data Engineering 12 (3): 372-390, mai / juni 2000.
  7. Jiawei Han, Jian Pei, Yiwen Yin og Runying Mao. Gruvedrift hyppige mønstre uten kandidatgenerering. Data Mining and Knowledge Discovery 8: 53-87, 2004.
  8. GUHA GUHA - grunnleggende informasjon Offisielt nettsted
  9. P. Hájek, P. Havranek mekanisere Hypotese Formation - Matematiske Foundations for en generell teori, Springer-Verlag, Edition 1978, ( ISBN  0387087389 )
  10. Peter Ross, oner: den enkleste metoden
  11. Webb, GI (1995). OPUS: En effektiv tillatt algoritme for uordnet søk. Journal of Artificial Intelligence Research 3. Menlo Park, CA: AAAI Press, sider 431-465 online tilgang .
  12. RJ Bayardo , R. Agrawal og D. Gunopulos , “  Constraint basert regel gruvedrift i store, tette databaser  ”, Data Mining og Knowledge Discovery , vol.  4, n o  to2000, s.  217–240 ( DOI  10.1023 / A: 1009895914772 )
  13. Webb, GI (2000). Effektiv søk etter foreningsregler. I R. Ramakrishnan og S. Stolfo (red.), Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2000) Boston, MA. New York: Association for Computing Machinery, side 99-107. online tilgang
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">