Industriell standardprosess for datautvinning

Cross Industry Standard Process for Data Mining ( CRISP-DM ) er en dataminningsprosessmodell som beskriver en ofte brukt tilnærming til å løse domeneproblemer .

Undersøkelser utført i 2002, 2004, 2007, 2014 og 2020 viser at dette er den viktigste metoden som brukes av databearbeidere. Denne metoden ble opprettet av et konsortium bestående av selskapene NCR, SPSS og Daimler-Benz. Prosessen definerer et hierarki som består av store faser, generelle oppgaver, spesialiserte oppgaver og prosessinstanser.

Hovedfaser

CRISP-DM deler data mining prosessen i seks hovedfaser:

Historie

CRISP-DM-metoden ble designet i 1996. I 1997 utviklet den seg som et EU-prosjekt finansiert av ESPRIT- programmet . Prosjektet ledes av fire selskaper: ISL, NCR Corporation , Daimler-Benz og OHRA. Denne kjernen av konsortiet gir forskjellige opplevelser til prosjektet: ISL, senere ervervet og integrert i SPSS Inc., produserer programvarepakker med prediktiv analyse med samme navn, nå integrert i IBM-gruppen. Datagiganten NCR Corporation opprettet Teradata- divisjonen som spesialiserer seg på datalagre og sin egen programvare for data mining. Daimler-Benz hadde et stort team av databearbeidere. OHRA , et forsikringsselskap, hadde nettopp begynt å utforske potensialet for bruk av data mining.

Den første versjonen av metoden ble utgitt under versjonsnummer CRISP-DM 1.0 i 1999.

CRISP-DM 2.0

I juli 2006, kunngjør konsortiet at det vil begynne å jobbe med en andre versjon av CRISP-DM. De26. september 2006, CRISP-DM SIG møtes for å diskutere forbedringer for CRISP-DM 2.0 og den resulterende veikartet. Siden22. juni 2011omdirigerer nettstedet til en side på IBM-siden dedikert til SPSS.

fordeler

Merknader

Eksterne linker

Referanser

  1. (in) C. Shearer, "  The CRISP-DM model: the new blueprint for data mining  " ( ArkivWikiwixArchive.isGoogle • Hva skal jeg gjøre ) [PDF] (åpnet 9. april 2013 ) . J Data Warehousing 2000; 5: 13-22.
  2. Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll
  3. Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll
  4. Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll
  5. (en-US) "  CRISP-DM, fremdeles den beste metoden for analyse, data mining eller data science-prosjekter  " , på KDnuggets (åpnet 21. april 2021 )
  6. (en-US) Jeff Saltz , “  CRISP-DM er fremdeles det mest populære rammeverket for gjennomføring av datavitenskapsprosjekter  ” , om Data Science Project Management ,30. november 2020(åpnet 21. april 2021 )
  7. Robert Nisbet, John Elder, Gary Miner Handbook of Statistical Analysis & Data Mining Applications (Academic Press) side 35
  8. (in) Gavin Harper , "  Methods for data mining HTS  " , Drug Discov. I dag , vol.  11, n os  15-16,august 2006, s.  694-699 ( PMID  16846796 , DOI  10.1016 / j.drudis.2006.06.006 , les online ).
  9. “  CRISP-DM 1.0  ” ( ArkivWikiwixArchive.isGoogle • Hva skal jeg gjøre? ) (Tilgang 9. april 2013 ) .
  10. “  CRISP-DM SIG  ” ( ArkivWikiwixArchive.isGoogle • Hva skal jeg gjøre? ) (Tilgang 9. april 2013 ) .
  11. “  KDD Process Model  ” ( ArkivWikiwixArchive.isGoogle • Hva skal jeg gjøre? ) (Tilgang 9. april 2013 )