Skip to main content

డేటా మైనింగ్ తో K- మీన్స్ క్లస్టరింగ్

Anonim

ది k- అనగా క్లస్టరింగ్ పరిశీలనలకు ఉపయోగించే డేటా మైనింగ్ మరియు మెషీన్స్ లెర్నింగ్ టూల్ అనేది క్లస్టరింగ్ పరిశీలనలకు సంబంధించిన సంబంధాల యొక్క పూర్వ పరిజ్ఞానం లేకుండా సంబంధిత పరిశీలనల సమూహంగా ఉపయోగపడుతుంది. మాదిరి ద్వారా, ఆల్గోరిథం ఏ కేటగిరిలో, క్లస్టర్లో డేటాను చెయ్యాలో ప్రయత్నిస్తుంది, క్లస్టర్ల సంఖ్య విలువ ద్వారా నిర్వచించబడుతుంది k.

ది k- అంటే అల్గోరిథం సరళమైన క్లస్టరింగ్ టెక్నిక్లలో ఒకటి మరియు ఇది సాధారణంగా వైద్య ఇమేజింగ్, బయోమెట్రిక్స్ మరియు సంబంధిత క్షేత్రాలలో ఉపయోగించబడుతుంది. ప్రయోజనం k- క్లస్టరింగ్ అంటే ప్రారంభంలో డేటా (అల్గోరిథం యొక్క పర్యవేక్షణ రూపం ఉపయోగించి) గురించి అల్గోరిథంకు ఆదేశిస్తూ కాకుండా, మీ డేటా గురించి (దాని పర్యవేక్షణా రహిత ఫారమ్ని ఉపయోగించి) గురించి చెబుతుంది.

ఇది కొన్నిసార్లు లాయిడ్స్ అల్గోరిథం అని పిలువబడుతుంది, ప్రత్యేకించి కంప్యూటర్ సైన్సు వర్గాలలో, ప్రామాణిక అల్గోరిథం మొదటి స్టువర్ట్ లాయిడ్ 1957 లో ప్రతిపాదించబడింది. "K-means" అనే పదాన్ని జేమ్స్ మక్ క్యుయిన్ 1967 లో ఉపయోగించారు.

ఎలా K- మీన్స్ అల్గోరిథం విధులు

ది k- అనగా ఆల్గోరిథం అనగా దాని యొక్క ఆపరేషన్ పద్ధతి నుండి దాని పేరును సంపాదించిన ఒక పరిణామాత్మక అల్గోరిథం. అల్గోరిథం సమూహాలు పరిశీలనలు k సమూహాలు, ఎక్కడ k ఇన్పుట్ పారామీటర్గా అందించబడుతుంది. అప్పుడు ప్రతి పరిశీలన సమూహం యొక్క పరిశీలన యొక్క సామీప్యత ఆధారంగా సమూహాలకు కేటాయించబడుతుంది. క్లస్టర్ యొక్క అర్ధము అప్పుడు పునఃప్రారంభం అవుతుంది మరియు ఆ ప్రక్రియ మళ్ళీ ప్రారంభమవుతుంది. అల్గోరిథం ఎలా పనిచేస్తుందో ఇక్కడ ఉంది:

  1. అల్గోరిథం ఏకపక్షంగా ఎంపిక చేస్తుంది k ప్రారంభ క్లస్టర్ కేంద్రాలు (అంటే) వంటి పాయింట్లు.
  2. డేటాసెట్లోని ప్రతి పాయింట్ క్లోస్టర్ క్లస్టర్కు కేటాయించబడుతుంది, ప్రతి పాయింట్ మరియు ప్రతి క్లస్టర్ సెంటర్ మధ్య యూక్లిడియన్ దూరం ఆధారంగా.
  3. ప్రతి క్లస్టర్ సెంటర్ ఆ క్లస్టర్లో పాయింట్లు సగటున పునఃప్రారంభించబడుతుంది.
  4. సమూహాలు కలుస్తాయి వరకు దశ 2 మరియు 3 పునరావృతం. కన్వర్జెన్స్ అనేది అమలును బట్టి విభిన్నంగా నిర్వచించబడవచ్చు, కాని ఇది సాధారణంగా 2 మరియు 3 దశలను పునరావృతం చేయబడినప్పుడు లేదా క్లస్టర్ల యొక్క నిర్వచనంలో మార్పులను భౌతిక వ్యత్యాసం చేయలేనప్పుడు ఎటువంటి పరిశీలనలు క్లస్టర్లను మార్చవు.

క్లస్టర్ల సంఖ్యను ఎంచుకోవడం

ప్రధాన నష్టాలు ఒకటి k- క్లస్టర్లు సంఖ్య అల్గోరిథంకు ఒక ఇన్పుట్గా పేర్కొనడానికి తప్పనిసరిగా క్లస్టరింగ్ అంటే. రూపొందించినట్లుగా, క్రమసూత్ర పద్ధతి తగిన సంఖ్యలో సమూహాలను గుర్తించలేకపోతుంది మరియు వినియోగదారుని ముందుగానే గుర్తించడానికి ఇది ఆధారపడి ఉంటుంది.

ఉదాహరణకు, మీరు పురుషుడు లేదా స్త్రీగా బైనరీ లింగ గుర్తింపు ఆధారంగా క్లస్టర్ అయిన వ్యక్తుల సమూహాన్ని కలిగి ఉంటే, k- ఇన్పుట్ ఉపయోగించి అల్గోరిథం అర్థం k = 3 కేవలం ప్రజలకు మూడు సమూహాలుగా నిర్బంధిస్తుంది, కేవలం రెండు, లేదా ఒక ఇన్పుట్ k = 2, మరింత సహజంగా సరిపోయేలా చేస్తుంది.

అదేవిధంగా, వ్యక్తుల బృందం స్వదేశీ స్థితిపై సులభంగా క్లస్టర్ చేసి ఉంటే మీరు పిలిచారు k- ఇన్పుట్ తో అల్గోరిథం అంటే k = 20, ఫలితాలు ప్రభావవంతంగా ఉండటానికి చాలా సాధారణమైనవి కావచ్చు.

ఈ కారణంగా, ఇది తరచుగా వివిధ విలువలతో ప్రయోగాలు చేయడానికి మంచి ఆలోచన k మీ డేటాకు ఉత్తమంగా సరిపోయే విలువను గుర్తించడానికి. మీరు యంత్రం నేర్చుకున్న జ్ఞానం కోసం మీ అన్వేషణలో ఇతర డేటా మైనింగ్ అల్గోరిథంల వినియోగాన్ని అన్వేషించాలని అనుకోవచ్చు.