Skip to main content

డేటా మైనింగ్ లో వర్గీకరణ ఉపయోగం

Anonim

వర్గీకరణ అనేది ఒక డేటా మైనింగ్ టెక్నిక్, ఇది ఖచ్చితమైన అంచనాలు మరియు విశ్లేషణలకు సహాయపడటానికి డేటా సేకరణకు కేతగిస్తుంది. దీనిని కొన్నిసార్లు పిలుస్తారు అని కూడా పిలుస్తారు డెసిషన్ ట్రీ , చాలా పెద్ద డేటాసెట్ల ప్రభావాన్ని విశ్లేషించడానికి అనేక పద్ధతులలో వర్గీకరణ ఒకటి.

ఎందుకు వర్గీకరణ?

చాలా పెద్ద డేటాబేస్ నేటి ప్రపంచంలో కట్టుబాటు అవుతున్నాయి పెద్ద డేటా . బహుళ టెరాబైట్ల డేటాతో ఒక డేటాబేస్ను ఊహించండి - టెరాబైట్ అనేది ఒకటి ట్రిలియన్ డేటా బైట్లు.

ఒంటరిగా ఫేస్బుక్ ఒక్కొక్క రోజులో 600 టెరాబైట్ల కొత్త డేటాను క్రంచ్ చేస్తుంది (2014 నాటికి, ఇది చివరిసారిగా ఈ స్పెక్స్ని నివేదించింది). పెద్ద డేటా ప్రాథమిక సవాలు అది అర్ధవంతం ఎలా ఉంది.

మరియు పరిమాణపు వాల్యూమ్ మాత్రమే సమస్య కాదు: పెద్ద డేటా విభిన్నమైన, అసంపూర్ణంగా మరియు వేగవంతంగా మారుతూ ఉంటుంది. ఆడియో మరియు వీడియో డేటా, సోషల్ మీడియా పోస్ట్లు, 3D డేటా లేదా జియోస్పటియల్ డేటాను పరిగణించండి. ఈ రకమైన డేటా సులభంగా వర్గీకరించబడదు లేదా నిర్వహించబడదు.

ఈ సవాలును ఎదుర్కోవటానికి, వాటిలో ఉపయోగకరమైన సమాచారాన్ని సంగ్రహించడానికి ఆటోమేటిక్ పద్ధతుల శ్రేణి అభివృద్ధి చేయబడింది వర్గీకరణ .

ఎలా వర్గీకరణ పనిచేస్తుంది

టెక్-స్పీకర్లో చాలా దూరం ప్రయాణించే ప్రమాదంలో, వర్గీకరణ ఎలా పని చేస్తుందో చర్చించండి. ఒక ప్రశ్నకు సమాధానంగా, నిర్ణయం తీసుకోవడానికి లేదా ప్రవర్తనను అంచనా వేసే వర్గీకరణ నిబంధనలను రూపొందించడం లక్ష్యంగా ఉంది. ప్రారంభించడానికి, ఒక శిక్షణా సమితి డేటా అభివృద్ధి చేయబడుతుంది, ఇది నిర్దిష్ట సమూహ లక్షణాలను కలిగి ఉంటుంది మరియు అలాగే అవకాశం ఉంటుంది.

వర్గీకరణ అల్గోరిథం యొక్క పని లక్షణాల సమితి దాని ముగింపుకు ఎలా చేరుతుందో తెలుసుకోవడం.

దృష్టాంతంలో: బహుశా క్రెడిట్ కార్డు కంపెనీ క్రెడిట్ కార్డు ఆఫర్ను ఏ అవకాశాలు అందుకోవాలి అనే విషయాన్ని గుర్తించడానికి ప్రయత్నిస్తుంది.

ఇది శిక్షణా డేటా యొక్క సెట్ కావచ్చు:

శిక్షణ డేటా
పేరువయసుజెండర్వార్షిక ఆదాయంక్రెడిట్ కార్డ్ ఆఫర్
జాన్ డో25M$39,500తోబుట్టువుల
జేన్ డో56F$125,000అవును

"ప్రిడిక్టర్" నిలువు వయసు , జెండర్ , మరియు వార్షిక ఆదాయం "predictor లక్షణం" యొక్క విలువను నిర్ణయించండి క్రెడిట్ కార్డ్ ఆఫర్ . ఒక శిక్షణా సెట్లో, ప్రిడిక్టర్ గుణం తెలిసినది. వర్గీకరణ అల్గోరిథం అప్పుడు predictor లక్షణం యొక్క విలువ ఎలా చేరుకున్నారో తెలుసుకోవడానికి ప్రయత్నిస్తుంది: ప్రిడిక్టర్లు మరియు నిర్ణయం మధ్య ఏ సంబంధాలు ఉన్నాయి? ఇది సాధారణంగా ఒక IF / THEN స్టేట్మెంట్, ప్రిడిక్షన్ నియమాలను అభివృద్ధి చేస్తుంది, ఉదాహరణకు:

IF (వయసు> 18 లేదా వయసు <75) మరియు వార్షిక ఆదాయం> 40,000 THEN క్రెడిట్ కార్డ్ ఆఫర్ = అవును

సహజంగానే, ఇది ఒక సాధారణ ఉదాహరణ, మరియు అల్గోరిథం ఇక్కడ చూపించిన రెండు రికార్డుల కంటే పెద్ద డేటా మాదిరిని కలిగి ఉండాలి. అంతేకాక, ప్రిడిక్షన్ నియమాలు లక్షణం వివరాలను సంగ్రహించడానికి ఉప-నిబంధనలతో సహా చాలా క్లిష్టమైనవి.

తరువాత, అల్గోరిథం విశ్లేషించడానికి డేటా యొక్క "అంచనా సెట్" ఇవ్వబడుతుంది, కానీ ఈ సెట్ అంచనా లక్షణం (లేదా నిర్ణయం) లేదు:

ప్రిడిక్టర్ డేటా
పేరువయసుజెండర్వార్షిక ఆదాయంక్రెడిట్ కార్డ్ ఆఫర్
జాక్ ఫ్రాస్ట్42M$88,000
మేరీ ముర్రే16F$0

ఈ ప్రిడిక్టర్ డేటా ప్రిడిక్షన్ నియమాల కచ్చితత్వాన్ని అంచనా వేయడానికి సహాయపడుతుంది మరియు డెవలపర్ అంచనాలను ప్రభావవంతంగా మరియు ఉపయోగకరంగా పరిగణించేవరకు నియమాలు tweaked ఉంటాయి.

వర్గీకరణకు రోజుకు ఉదాహరణలు

వర్గీకరణ, మరియు ఇతర డేటా మైనింగ్ టెక్నిక్స్, వినియోగదారులు మా రోజువారీ అనుభవం చాలా వెనుక ఉంది.

వర్షం అంచనాలు రోజు వర్ష, సన్నీ లేదా మేఘాలుగా ఉన్నాయని నివేదించడానికి వర్గీకరణను ఉపయోగించుకోవచ్చు. మెడికల్ ఫలితాలను అంచనా వేయడానికి ఆరోగ్య వృత్తిని విశ్లేషించవచ్చు. వర్గీకరణ పద్ధతి యొక్క రకం, అమాయక బయేసియన్, స్పామ్ ఇమెయిల్లను వర్గీకరించడానికి నియత సంభావ్యతను ఉపయోగిస్తుంది. మోసం గుర్తింపు నుండి ఉత్పత్తి ఆఫర్లకు, వర్గీకరణ అనేది ప్రతిరోజు డేటా విశ్లేషించడం మరియు అంచనాలను ఉత్పత్తి చేసే దృశ్యాలు.