Andmekaevandamine - mis see on, määratlus ja mõiste

Lang L: none (table-of-contents):

Andmekaevandamine - mis see on, määratlus ja mõiste
Andmekaevandamine - mis see on, määratlus ja mõiste
Anonim

Andmekaevandamine on protsess, kus otsitakse suuri andmebaase, et leida kasulikku teavet, mida saab otsuste tegemisel kasutada. Kasutatakse ka ingliskeelset mõistet "data mining".

Seda võib mõista kui tehnoloogiat ja tarkvara, mida kasutatakse käitumismustrite leidmiseks andmebaasis. Selle põhialuseks on see, et need mustrid aitavad otsuste tegemisel. Näiteks võib see aidata ettevõtetel mõista oma klientide käitumismustreid. Nii, et see hõlbustaks strateegiate loomist müügi suurendamiseks või kulude vähendamiseks.

Andmekaevandamise eelised

Selle andmeanalüüsi protsessi peamine eelis on suur hulk äristsenaariume, millele seda saab rakendada, näiteks on meil:

  • Ennustamine: Ettevõtte müügi prognoos.
  • TõenäosusParimate klientide valimine otsekontaktiks kas telefoni või e-posti teel.
  • Järjestuse analüüs: Klientide ostetud toodete analüüs ja kontrollige nende omavahelist seost.

Andmekaevandamise etapid

Andmekaevanduse käigus leiame viis etappi:

  • Eesmärk ja andmete kogumine: Kõigepealt tuleb keskenduda sellele, millist tüüpi teavet me tahame saada. Kujutame ette näidet, et supermarket soovib teada, mis kellaajal on klientide arv kõige suurem. See oleks eesmärk ja teave, mida kaubandus soovib antud juhul saada.
  • Andmete töötlemine ja haldamine: Kui teame andmeid, mida tahame koguda, paneme need tööle. See on võib-olla protsessi kõige raskem etapp. Noh, selleks on vaja valida tüüpiline valim, mille kohta analüüs tehakse. Kui valim on valitud, tuleb analüüsida, millist tüüpi muutujaid või regressioonimudelit valimiga teostatakse.
  • Mudeli valik: See on tihedalt seotud eelmise etapiga. See seisneb mudeli või algoritmi loomises, mis annab meile parima võimaliku tulemuse. Selleks tuleb läbi viia mudelisse lisatavate muutujate ammendav analüüs. See muutub keerukaks ülesandeks, kuna see sõltub analüüsitava teabe tüübist. Seetõttu viivad andmekaevurid läbi algoritmi erinevad testid, näiteks: lineaarne regressioon, otsustuspuu, aegrida, närvivõrk jne.
  • Tulemuste analüüs ja ülevaade: Põhimõtteliselt on tulemuste analüüsimine, et näha, kas need annavad loogilise selgituse. Selgitus, mis hõlbustab tulemuste pakutava teabe põhjal otsuste tegemist.
  • Mudeli uuendamine: Protsessi viimane samm oleks mudeli värskendamine. On väga oluline, et see tehtaks aja jooksul, et see ei vananeks. Mudeli muutujad võivad muutuda tähtsusetuks ja seetõttu on vajalik mudeli perioodiline kontroll.