ဒေတာများသတ္တုတွင်းများတွင်ခွဲခြား

ခွဲခြားကပိုတိကျမှန်ကန်ဟောကိန်းများနှင့်ခွဲခြမ်းစိတ်ဖြာအတွက်ကူညီနိုင်ရန်အတွက်အချက်အလက်များ၏တစ်ဦးစုဆောင်းမှုမှအမျိုးအစားသတ်မှတ်ပေးထားတဲ့တဲ့ data သတ္တုတူးဖော်ရေး technique ကိုဖြစ်ပါတယ်။ ဒါ့အပြင်တခါတရံဆုံးဖြတ်ချက် Tree ကိုခေါ်ကိုခေါ်ခွဲခြားအလွန်ကြီးမားသောအချက်အလက်စာရင်းများအတွက်ခွဲခြမ်းစိတ်ဖြာခြင်းထိရောက်သောစေရန်ရည်ရွယ်အများအပြားနည်းလမ်းတစ်ခုဖြစ်ပါသည်။

အဘယ်ကြောင့်ခွဲခြား?

အလွန်ကြီးမား databases ကို၏ယနေ့ကမ်ဘာပျေါတှငျစံဖြစ်လာကြပြီ "ကြီးမားတဲ့ဒေတာ။ " ဒေတာ -a terabytes ၏မျိုးစုံ terabytes နဲ့ဒေတာဘေ့စကိုမြင်ယောင်ကြည့်အချက်အလက်များ၏တဦးတည်းထရီလီယံ bytes ဖြစ်ပါတယ်။

တစ်ဦးတည်းက Facebook (ဤကျန်တာတွေကဖော်ပြခဲ့သည်နောက်ဆုံးသောကာလ, 2014 ခုနှစ်ကဲ့သို့) နေ့တိုင်းအချက်အလက်အသစ်ကို 600 terabytes crunches ။ ကြီးမားသောအချက်အလက်များ၏မူလတန်းစိန်ခေါ်မှုကအသိစေရန်မည်ကဲ့သို့ဖြစ်ပါသည်။

ထိုအသက်သက်အသံအတိုးအကျယ်ကိုသာပြဿနာမဟုတ်ပါဘူး: ကြီးမားတဲ့ data တွေကိုလည်း, ကွဲပြားခြားနားပျက်ပြင်ဆင်ထားသညမြန်ဆန်-ပြောင်းလဲနေတဲ့ဖြစ်လေ့ရှိတယ်။ ဒေတာ, လူမှုမီဒီယာပို့စ်များ, 3D ဒေတာသို့မဟုတ် geospatial အချက်အလက်များကိုအသံနှင့်ဗီဒီယိုစဉ်းစားပါ။ ဒေတာဒီမျိုးကိုအလွယ်တကူခွဲခြားသို့မဟုတ်စည်းရုံးမပေးပါ။

ဒီစိန်ခေါ်မှုကိုဖြည့်ဆည်းဖို့, အသုံးဝင်သောသတင်းအချက်အလက် extracting အဘို့အလိုအလျှောက်နည်းလမ်းများတစ်ခုအကွာအဝေးကသူတို့ကိုခွဲခြားတို့တွင်ဖွံ့ဖြိုးတိုးတက်လာခဲ့တာပါ။

ဘယ်လိုအမျိုးအစားခွဲခြားအလုပ်လုပ်

နည်းပညာ-ပွောသို့ဝေးလွန်းရွေ့လျားများ၏အန္တရာယ်မှာဖွင့်ခွဲခြားဘယ်လိုအလုပ်လုပ်တယ်ဆိုတာကိုဆွေးနွေးဖို့ကြကုန်အံ့။ အဆိုပါရည်မှန်းချက် attribute တွေတစ်အချို့သောသတ်မှတ်ချက်အဖြစ်ဖွယ်ရှိရလဒ်ကိုပါဝင်သောလေ့ကျင့်ရေးဒေတာအစုတခုတီထွင်နေသည်, မေးခွန်းတစ်ခုဖြေဆိုမယ့်ဆုံးဖြတ်ချက်ပါစေ, သို့မဟုတ် behavior.To စတင်ခန့်မှန်းမညျဖွစျကွောငျးခွဲခြားစည်းမျဉ်းစည်းကမ်းတွေအစုတခုဖန်တီးပေးရန်ဖြစ်ပါသည်။

အဆိုပါခွဲခြား algorithm ကို၏အလုပ် attribute တွေ၏အစုံက၎င်း၏နိဂုံးချုပ်ရောက်ရှိဘယ်လိုရှာဖွေတွေ့ရှိရန်ဖြစ်ပါသည်။

မြင်ကွင်း: ဖြစ်ကောင်းဖြစ်နိုင်မယ့်ခရက်ဒစ်ကဒ်ကုမ္ပဏီတစ်ခရက်ဒစ်ကဒ်ကမ်းလှမ်းမှုကိုလက်ခံရရှိသင့်သောအလားအလာဆုံးဖြတ်ရန်ကြိုးစားနေသည်။

ဒီအလေ့ကျင့်ရေးအချက်အလက်များ၏၎င်း၏အစုကိုဖြစ်စေခြင်းငှါ:

လေ့ကျင့်ရေးမှာ Data
အမည် အသက်အရွယ် ကျား, မ နှစ်စဉ်ဝင်ငွေ Credit Card ကိုကမ်းလှမ်းချက်
ယောဟနျသ Doe 25 M က $ 39.500 အဘယ်သူမျှမ
ဂျိန်း Doe 56 F ကို $ 125000 ဟုတ်ကဲ့

အဆိုပါ "ခန့်မှန်း" ကော်လံအသက်အရွယ်, ကျားမ, နှင့်နှစ်ပတ်လည်ဝင်ငွေခွန်ကို "ခန့်မှန်း attribute က" Credit Card ကိုဝေငှ၏တန်ဖိုးကိုဆုံးဖြတ်ပေးပါတယ်။ လေ့ကျင့်ရေးအစုတွင်, ခန့်မှန်း attribute ကိုလူသိများသည်။ ဆက်ဆံရေးဟာခန့်မှန်းခြင်းနှင့်ဆုံးဖြတ်ချက်တို့အကြားတည်ရှိနေသောအရာကို: သလားခွဲခြား algorithm ကိုထို့နောက်ခန့်မှန်း attribute ကို၏တန်ဖိုးရောက်ရှိခဲ့သည်ကိုမည်သို့ဆုံးဖြတ်ရန်ဖို့ကြိုးစားပါတယ် ဒါဟာဥပမာများသောအားဖြင့်တစ်ဦးလျှင် / ထိုအခါကြေညာချက်, ခန့်မှန်းစည်းမျဉ်းစည်းကမ်းတွေအစုတခုဖွံ့ဖြိုးတိုးတက်ပါလိမ့်မယ်:

IF (အသက်> 18 OR ခေတ် <75) နှင့်နှစ်စဉ်ဝင်ငွေခွန်> 40,000 ထိုအခါ Credit Card ကိုကမ်းလှမ်းချက် = ဟုတ်ကဲ့

သိသာထင်ရှားတဲ့ဒီရိုးရှင်းတဲ့ဥပမာဖြစ်ပါသည်, နှင့် algorithm ကိုဒီမှာပြနှစ်ခုမှတ်တမ်းများထက်ဝေးပိုကြီးတဲ့ဒေတာကိုနမူနာလိုအပ်လိမ့်မယ်။ ထို့ပြင်အဆိုပါခန့်မှန်းစည်းမျဉ်းစည်းကမ်းတွေကို attribute ကိုအသေးစိတျကိုဖမ်းယူဖို့ခွဲစည်းမျဉ်းစည်းကမ်းတွေအပါအဝင်ဝေးပိုမိုရှုပ်ထွေးဖြစ်ဖွယ်ရှိပါသည်။

ထို့နောက် algorithm ကိုခွဲခြမ်းစိတ်ဖြာဖို့အချက်အလက်များ၏တစ်ဦး "ခန့်မှန်းထား" ပေးထားပေမယ့်ဒီအစုဟာခန့်မှန်း attribute ကို (သို့မဟုတ်ဆုံးဖြတ်ချက်) ကင်းမဲ့:

ခန့်မှန်းဖို့ဒေတာ
အမည် အသက်အရွယ် ကျား, မ နှစ်စဉ်ဝင်ငွေ Credit Card ကိုကမ်းလှမ်းချက်
ဂျက် Frost က 42 M က $ 88,000
မာရိသညျ Murray 16 F ကို $ 0 င်

ဤသည်ခန့်မှန်းဒေတာခန့်မှန်းစည်းမျဉ်းစည်းကမ်းတွေရဲ့တိကျမှန်ကန်မှုကိုခန့်မှန်းကူညီပေးသည်, ထိုဆော့ဖ်ဝဲရေးသူပုဟောကိန်းများထိရောက်သောနှင့်အသုံးဝင်သောစဉ်းစားသည်အထိစည်းမျဉ်းစည်းကမ်းတွေပြီးတော့မြှနေကြသည်။

ခွဲခြားရေးနေ့ဥပမာဖို့နေ့

ခွဲခြားနှင့်အခြားဒေတာသတ္တုတူးဖော်ရေးနည်းစနစ်, စားသုံးသူအဖြစ်ကျွန်တော်တို့ရဲ့တစ်နေ့တာ-to-နေ့ကအတွေ့အကြုံအများကြီးနောက်ကွယ်မှဖြစ်ပါတယ်။

မိုးလေဝသခန့်မှန်းချက်နေ့ကို, မိုးရွာနေသာသို့မဟုတ်မိုးအုံ့မည်လောအစီရင်ခံရန်ခွဲခြားအသုံးပြုခြင်းစေပါလိမ့်မယ်။ ဆေးပညာဆေးဘက်ဆိုင်ရာရလဒ်တွေကိုခန့်မှန်းဖို့ကနျြးမာရေးအခွအေနခွဲခြမ်းစိတ်ဖြာပေလိမ့်မည်။ ခွဲခြားနည်းလမ်း, နုံ Bayesian ၏တစ်ဦးက type ကို spam များကိုအီးမေးလ်များကိုခွဲခြားဖို့အခြေအနေအရဖြစ်နိုင်ခြေကိုအသုံးပြုသည်။ လိမ်လည်မှုထောက်လှမ်းကနေထုတ်ကုန်ကမ်းလှမ်းမှုရန်, ခွဲခြား data တွေကိုခွဲခြားစိတ်ဖြာနှင့်ဟောကိန်းများထုတ်လုပ်နောက်ကွယ်မှနေ့တိုင်းဖြစ်ပါတယ်။