K-နည်းလမ်းများ Cluster ဆိုတာဘာလဲ

by သူ Mike Chapple

အဆိုပါဋ-ဆိုလိုတယ် algorithm နှင့်အတူဒေတာများသတ္ထုတူးဖော်ရေး

အဆိုပါ k- Cluster algorithm ကိုသူတို့အားဆက်ဆံရေးမဆိုကြိုတင်အသိပညာမပါဘဲဆက်စပ်လေ့လာတွေ့ရှိချက်အုပ်စုများသို့လေ့လာတွေ့ရှိချက် Cluster ဖို့အသုံးပြုတဲ့ဒေတာကိုသတ္တုတူးဖော်ရေးနှင့်စက်သင်ယူမှု tool တစ်ခုဖြစ်သည်ကိုဆိုလိုသည်။ နမူနာအားဖြင့်, ထို algorithm ကိုပေးသောကဏ္ဍပြသနိုင်ဖို့ကြိုးစားမှု, ဒါမှမဟုတ်စပျစ်သီးပြွတ်, ဒေတာတန်ဖိုးကိုဋနေဖြင့်သတ်မှတ်ခံရပြွတ်၏နံပါတ်နှင့်အတူပိုင်။

အဆိုပါ k- algorithm ကိုအရိုးရှင်းဆုံး Cluster နည်းစနစ်တစ်ခုဖြစ်သည်နှင့်အများအားဆေးဝါးကုသမှုပုံရိပ်, biometric နှင့်ဆက်စပ်နယ်ပယ်များတွင်အသုံးပြုသည်ကိုဆိုလိုသည်။ k- ၏အားသာချက် Cluster (ထို algorithm ကို၏ကြီးကြပ်ပုံစံကိုသုံးပြီး) သင်က start မှာဒေတာနဲ့ပတျသကျတဲ့ algorithm ကိုသွန်သင်နိုင်မည်အကြောင်းမှရှိခြင်းထက် (၎င်း၏ unsupervised ပုံစံကိုသုံးပြီး) ကသင့်ရဲ့ဒေတာတွေကိုအကြောင်းကိုပြောထားသည်သောကွောငျ့ဖွစျသညျကိုဆိုလိုသည်။

စံ algorithm ကိုပထမဦးဆုံးအဆိုပါဝေါဟာရကို "K-နည်းလမ်းများ" ဂျိမ်းစ် McQueen ကအားဖြင့် 1967 ခုနှစ်တွင်စတင်သုံးစွဲခဲ့သည် 1957 ခုနှစ်တွင်စတူးဝပ်လွိုက်တို့ကအဆိုပြုထားသောကြောင့်ဒါဟာတခါတရံအထူးသဖြင့်ကွန်ပျူတာသိပ္ပံစက်ဝိုင်းထဲမှာလွိုက်ရဲ့ Algorithm အဖြစ်ရည်ညွှန်းသည်။

ဘယ်လို Algorithm Functions များဋ-ဆိုလိုတယ်

အဆိုပါ k- algorithm ကိုစစ်ဆင်ရေး၎င်း၏နည်းလမ်းထံမှ၎င်း၏အမည်ကိုရှေ့ဆက်ဘာတစ်ခုဆင့်ကဲဖြစ်စဉ် algorithm ကိုဆိုလိုသည်။ ဋတစ်ခု input ကို parameter သည်အဖြစ်ပေးအပ်သည်အဘယ်မှာရှိဋအုပ်စုများသို့ algorithm ကိုပြွတ်လေ့လာတွေ့ရှိချက်။ ထို့နောက်သီးပြွတ်၏ယုတ်ဖို့လေ့လာရေးရဲ့နီးကပ်အပေါ်မှာအခြေခံပြွတ်တစ်ခုချင်းစီကိုလေ့လာသတ်မှတ်ပေးထားတဲ့။ အဆိုပါစပျစ်သီးပြွတ်ရဲ့ယုတ်ထို့နောက် recomputed နှင့်လုပ်ငန်းစဉ်ကိုထပ်စတင်ခဲ့သည်။ ဤတွင် algorithm ကိုဘယ်လိုအလုပ်လုပ်တယ်ဆိုတာကိုင်:

အဆိုပါ algorithm ကိုမတရားဖမ်းဆီးကနဦးစပျစ်သီးပြွတ်စင်တာများ (ထိုနည်းလမ်းများ) အဖြစ်ဋအချက်များကိုရွေးချယ်သည်။
အဆိုပါ Datasets အတွက်တစ်ဦးချင်းစီပွိုင့်တစ်ခုစီကိုအမှတ်တစ်ခုချင်းစီစပျစ်သီးပြွတ်စင်တာအကြား Euclidean အကွာအဝေးအပျေါမှာအခြေခံပြီးတံခါးပိတ်စပျစ်သီးပြွတ်, ဖို့တာဝန်ဖြစ်ပါတယ်။
တစ်ခုချင်းစီကိုစပျစ်သီးပြွတ်စင်တာကြောင့်စပျစ်သီးပြွတ်အတွက်ရမှတ်၏ပျမ်းမျှအဖြစ် recomputed ဖြစ်ပါတယ်။
ပြွတ်ဆုံသည်အထိ 2 ရက်နှင့် 3 ထပ်လုပ်ပါ။ convergence အကောင်အထည်ဖော်မှုပေါ် မူတည်. ကွဲပြားခြားနားသတ်မှတ်စေခြင်းငှါ, ဒါပေမယ့်ဒါဟာပုံမှန်အားဖြင့်အဘယ်သူမျှမလေ့လာတွေ့ရှိချက်ဖြစ်စေခြေလှမ်းများ 2 ရက်နှင့် 3 ထပ်ခါတလဲလဲကြသောအခါပြွတ်ကိုပြောင်းလဲရန်, သို့မဟုတ်ပြောင်းလဲမှုပြွတ်၏အဓိပ်ပါယျအတွက်ပစ္စည်းခြားနားချက်ကိုလုပ်မရကွောငျးကိုဆိုလိုသည်။

ပဒေသာ၏နံပါတ်ရွေးချယ်ခြင်း

k- ဖို့အဓိကအားနည်းချက်များတစ်ခုမှာ Cluster သင် algorithm ကိုတစ်ခု input ကိုအဖြစ်ပြွတ်၏နံပါတ်အားသတ်မှတ်ပေးရမည်ဆိုတဲ့အချက်ကိုဖြစ်ပါတယ်ဆိုလိုသည်။ ဒီဇိုင်းအတိုင်း, algorithm ကိုပြွတ်၏သင့်လျော်သောအရေအတွက်ကအဆုံးအဖြတ်ပေးနိုင်စွမ်းသည်မဟုတ်ခြင်းနှင့်ကြိုတင်၌ဤသိရှိနိုင်ဖို့အသုံးပြုသူအပျေါမှာမူတည်သည်။

သငျသညျအထီးသို့မဟုတ်အမျိုးသမီးအဖြစ်ဒွိလိင်ကွဲပြားမှုဝိသေသလက္ခဏာအပေါ်မှာအခြေခံပြွတ်ခံရဖို့ဖြစ်ကြောင်းလူမျိုး၏အုပ်စုတစုရှိခဲ့မယ်ဆိုရင်ဥပမာအားဖြင့်, အ k- တောင်းဆိုလာသောအခါမှသာနှစ်ဦးသို့မဟုတ်တစ်ဦးဟာ input ကိုဋ = 3 သုံးပြွတ်သို့လူတွေကိုအတင်းမယ်လို့သုံးပြီး algorithm ကိုဆိုလိုတယ် ဋ = 2 ၏ input ကိုတစ်ဦးထက်ပိုသောသဘာဝအထိုက်မတန်ပေးလိမ့်မယ်။

တစ်ဦးချင်းစီ၏အုပ်စုတစုကိုအလွယ်တကူအိမ်မှာပြည်နယ်အပေါ်မှာအခြေခံပြွတ်သင် k- ဟုခေါ်ကြသည်ဆိုပါကအလားတူပင် = 20 input ကိုဋအတူ algorithm ကိုဆိုလိုတယ်, ရလဒ်များလည်းထိရောက်သောဖြစ်ယေဘူယျခံရပေလိမ့်မည်။

ဤအကြောင်းကြောင့်ဒါကြောင့်အကောင်းဆုံးသင့်ရဲ့ဒေတာကိုက်ညီသောတန်ဖိုးကိုသိရှိနိုင်ဖို့ဋ၏ကွဲပြားခြားနားသောတန်ဖိုးများနှင့်အတူစမ်းသပ်ဖို့မကြာခဏကောင်းတစ်စိတ်ကူးပါတယ်။ သင်တို့သည်လည်း၏အသုံးပြုမှုကိုလေ့လာစူးစမ်းဖို့လိုပေမည် အခြားဒေတာများကိုသတ္တုတူးဖော်ရေး algorithms စက်-သင်ယူအသိပညာအဘို့သင့်ရှာပုံတော်၌တည်၏။

ဘယ်လို Algorithm Functions များဋ-ဆိုလိုတယ်

ပဒေသာ၏နံပါတ်ရွေးချယ်ခြင်း

Alike posts

See Newest

Sapid posts