သင်က Bayesian ပမ် Filtering အကြောင်းကိုသိရန်လိုအပ်ကဘာလဲ

by Heinz Tschabitscher

စာရင်းဇယားစင်ကြယ်သောသင်၏အစာပုံးကိုစောင့်ရှောက်ကူညီဘယ်လိုထွက်ရှာမည်

Bayesian spam များကို filter များသူ့ရဲ့အကြောင်းအရာတွေကိုအပေါ်အခြေခံပြီးသတင်းစကားတစ်ခုဖြစ်ခြင်းစပမ်းများ၏ဖြစ်နိုင်ခြေတွက်ချက်။ ရိုးရှင်းအကြောင်းအရာ-based filter များနှင့်မတူဘဲ Bayesian spam များကို filtering ကိုပြုပြင်ရေးဆွဲပြီး, အလွန်အားကောင်းတဲ့အတွက်ရရှိလာတဲ့, spam များကိုထံမှနှင့်ကောင်းမွန်သောမေးလ်ကနေသိရှိလာများနှင့်ထိရောက်စွာ Anti-spam များကိုချဉ်းကပ်ခဲမဆိုမမှန်သောလက္ခဏာကို return, လူအပေါင်းတို့၏အကောင်းဆုံးဖြစ်သည်။

သင်မည်သို့ Junk အီးမေးလ်အသိအမှတ်ပြုပါသလား

သငျသညျ detect ဘယ်လိုစဉျးစားကွညျ့ စပမ်း ။ တစ်ဦးကမြန်မြန်ဆန်ဆန်တစ်ချက်မကြာခဏလုံလောက်ပါတယ်။ သငျသညျကိုစပမ်တူအရာကိုသိလျက်ကောင်းမကောင်းကိုမေးလ်တူအဘယ်အရာကိုငါသိ၏။

ကောင်းသောမေးလ်များကဲ့သို့ရှာဖွေနေ spam များကိုများ၏ဖြစ်နိုင်ခြေန်းကျင် ... သုညသည်။

အကြောင်းအရာ-အခြေခံပြီးစိစစ်မှုများသွင်းယူ Adapt မ

အလိုအလျှောက် spam များကို filter များလွန်းလိုအလုပ်လုပ်ခဲ့လျှင်အကြီးအဖြစ်လိမ့်မည်မဟုတ်လော

သွင်းယူအကြောင်းအရာ-based ကို spam filter များ့စမ်းပါ။ သူတို့ကစကားများနှင့် spam များကိုများ၏ပုံမှန်နဲ့အခြားဝိသေသလက္ခဏာများကိုရှာပါ။ တိုင်းဝိသေသဒြပ်စင်တစ်ခုရမှတ်တာဝန်ပေးသည်နှင့်တပြင်လုံးကိုမက်ဆေ့ခ်ျကိုများအတွက် spam များကိုရမှတ်တစ်ဦးချင်းစီရမှတ်ထဲကနေတွက်ချက်ထားသည်။ တချို့ကအမှတ်ပေး filter များကိုလည်းမက်ဆေ့ခ်ျကိုဖွင့်နောက်ဆုံးရမှတ်လျှော့ချ, တရားဝင်မေးလ်၏ဝိသေသလက္ခဏာများကိုရှာပါ။

အဆိုပါအမှတ်ပေး filter များချဉ်းကပ်အလုပ်မ, ဒါပေမယ့်လည်းအများအပြားအားနည်းချက်များရှိပြီး:

ဝိသေသလက္ခဏာများများ၏စာရင်း filter ကိုရဲ့အင်ဂျင်နီယာများမှရရှိနိုင်သောစပမ်း (နှင့်ကောင်းမွန်သောမေးလ်) မှတည်ဆောက်ထားသည်။ ဘယ်သူ့ကိုမှရစေခြင်းငှါ, ပုံမှန် spam များကိုကောင်းတစ်ခုဆုပ်ကိုင်ရရှိရန်မေးလ်အီးမေးလ်လိပ်စာများရာပေါင်းများစွာမှာကောက်ယူရမည်ဖြစ်သည်။ ကောင်းမွန်သောဤ mail ကို၏ဝိသေသလက္ခဏာများလူတစ်ဦးချင်းစီအတွက်မတူညီသောဖြစ်လိမ့်မည်ကိုအထူးသဖြင့်အဘယ်ကြောင့်ဆိုသော်ထားသော filters ၏ထိရောက်မှုအားနည်းနေခြင်း, ဒါပေမယ့်ဤအကောင့်ထဲသို့ခေါ်ဆောင်သွားသည်မဟုတ်။
ရှာဝိသေသလက္ခဏာများကျောက်ပိုပြီးသို့မဟုတ်ထိုထက်နည်းအစုံရှိပါတယ်။ ယင်း Spam တွေကိုလိုက်လျောညီထွေဖြစ်အောင် (နှင့်သူတို့၏ spam များကိုထားသော filters ကောင်းမေးလ်များကဲ့သို့ကြည့်ရှုစေ) ဖို့ကြိုးစားအားထုတ်မှုစေလျှင်, filtering ကိုဝိသေသလက္ခဏာများကို manually မြှခံရဖို့ရှိသည် - တစ်ပင်ပိုကြီးအားထုတ်မှု။
တစ်ခုချင်းစီကိုစကားလုံးဖို့တာဝန်ရမှတ်ဖြစ်ကောင်းကောင်းတစ်ဦးခန့်မှန်းချက်အပေါ်အခြေခံပေမယ့်နေဆဲမင်းထက်ဖြစ်ပါတယ်။ နှင့်ဝိသေသလက္ခဏာများများ၏စာရင်းနဲ့တူပါကယေဘုယျအားဖြင့် spam များကိုများ၏ပြောင်းလဲနေတဲ့ကမ္ဘာမဟုတ်သလိုတစ်ဦးချင်းအသုံးပြုသူရဲ့လိုအပ်ချက်ကိုလည်းမလိုက်လျောညီထွေဖြစ်အောင်ပါဘူး။

Bayesian ပမ်စိစစ်မှုများ သာ. ကောင်း၏နှင့် သာ. ကောင်း၏ရယူခြင်း, မိမိတို့ကိုယ် tweaks

Bayesian spam များကို filter များလွန်းအကြောင်းအရာ-based filter များသွင်းယူတစ်ဦးကြင်ကြင်နာနာဖြစ်ကြသည်။ သူတို့ရဲ့ချဉ်းကပ်သော်လည်း, ရိုးရှင်းသောအမှတ်ပေး spam များကို filter များ၏ပြဿနာများနှင့်အတူကွယ်ပျောက်ပါဘူး, ဒါဒါအခြေခံကျကျပါပဲ။ အမှတ်ပေး filter များ၏အားနည်းချက်ဝိသေသလက္ခဏာများနှင့်၎င်းတို့၏ရမှတ်များကိုယ်တိုင်တည်ဆောက်ထားစာရင်းထဲတွင်ဖြစ်ပါတယ်ကတည်းကဒီစာရင်းကိုဖယ်ထုတ်ပစ်သည်။

အဲဒီအစား, Bayesian spam များကို filter များစာရင်းကိုသူတို့ကိုယ်သူတို့တည်ဆောက်။ အကောင်းဆုံးကတော့သင် spam အဖြစ်သတ်မှတ်ကြပြီအီးမေးလ်များကိုတစ်ဦး (ကြီးကြီး) စည်း, ကောင်းသောမေးလ်၏အခြားစည်းနှင့်အတူစတင်ပါ။ အဆိုပါ filter များနှစ်မျိုးလုံးကိုကြည့်ခြင်းနှင့် spam များကို၌၎င်း, ကောင်းသောမေးလ်ထဲမှာပေါ်ထွန်းအမျိုးမျိုးသောဝိသေသလက္ခဏာများများ၏ဖြစ်နိုင်ခြေတွက်ချက်ဖို့တရားဝင်မေးလ်အဖြစ် spam များကိုခွဲခြမ်းစိတ်ဖြာ။

ဘယ်လို Bayesian ပမ် Filter ကိုအီးမေးလ်ကို examine

တစ်ဦး Bayesian spam များကို filter ကိုကြည့်ရှုနိုင်ပါသည်ဝိသေသလက္ခဏာများဖြစ်နိုင်သည်

ထိုအတွက်စကားလုံးများ ခန္ဓာကိုယ် သင်တန်း၏မက်ဆေ့ခ်ျကို၏, နှင့်
၎င်း၏ ခေါင်းစီး (ပေးပို့သူနှင့် မက်ဆေ့ခ်ျကိုလမ်းကြောင်း ဥပမာအားဖြင့်,!), ဒါပေမယ့်လည်း
ထိုကဲ့သို့သောပင် HTML ကို (အရောင်အဆင်းနဲ့တခြား format နဲ့တူ) / CSS ကိုကုဒ်, ဒါမှမဟုတ်တခြားရှုထောင့်
စကားလုံးအားလုံး, စာပိုဒ်တိုများနှင့်
meta သတင်းအချက်အလက် (ကအထူးသထားသောစာပိုဒ်တိုများဥပမာအားဖြင့်ပေါ်လာသောရှိရာ) ။

စကားလုံးတစ်လုံးလျှင်, ဥပမာ "Cartesian" သင်ရရှိတရားဝင်အီးမေးလ်, "Cartesian" စပမ်သုညကနီးသည်ကိုဖော်ပြသောဖြစ်နိုင်ခြေအတွက်မကြာခဏ spam များကိုထဲမှာပေါ်လာလိမ့်မယ်ဒါပေမယ့်ဘယ်တော့မှမ။ "Toner" အခြားတစ်ဖက်တွင်, စပမ်းအတွက်မကြာခဏသီးသန့်ပေါ်လာပါနှင့်။ "Toner" မအများကြီး 1 (100%) ကိုအောက်တွင် spam များကိုတှငျတှေ့ခံတစ်ဦးအလွန်မြင့်မားဖြစ်နိုင်ခြေရှိပါတယ်။

အသစ်တစ်ခုကိုမက်ဆေ့ခ်ျကိုရောက်ရှိသည့်အခါက Bayesian တွင် spam filter များကသုံးသပ်သည်နှင့်ပြည့်စုံသတင်းစကားဖြစ်ခြင်းစပမ်းများ၏ဖြစ်နိုင်ခြေတစ်ဦးချင်းစီဝိသေသလက္ခဏာများကို အသုံးပြု. တွက်ချက်သည်။

သတင်းစကားတစ်ခု "Cartesian" နှင့် "ဆိုးဆေး" နှစ်ဦးစလုံးပါရှိသည်ယူဆ။ တစ်ဦးတည်းသည်ဤစကားကနေကျနော်တို့ကိုစပမ်သို့မဟုတ် legit မေးလ်ရှိမရှိသေးရှင်းရှင်းလင်းလင်းမဟုတ်ဘူး။ သည်အခြားဝိသေသလက္ခဏာများ (မျှော်လင့်ဆုံးနဲ့ဖြစ်ကောင်း) က filter ကို spam များကိုသို့မဟုတ်ကောင်းသောမေးလ်တစ်ခုခုအဖြစ်မက်ဆေ့ခ်ျကိုခွဲခြားရန်ခွင့်ပြုသည်တစ်ခုဖြစ်နိုင်ခြေညွှန်ပြပါလိမ့်မယ်။

Bayesian ပမ်စိစစ်မှုများအလိုအလျောက်သင်ယူနိုင်

အခုတော့ကျွန်တော်တစ်ဦးခွဲခြားရှိသည်, ထိုသတင်းစကားကိုနောက်ထပ် filter ကိုသူ့ဟာသူလေ့ကျင့်ဖို့အသုံးပြုနိုင်ပါသည်။ ဤကိစ္စတွင်ခုနှစ်, (နှစ်ဦးစလုံး "Cartesian" နှင့် "ဆိုးဆေး" ်မက်ဆေ့ခ်ျကိုစပမ်ဖြစ်တွေ့ရှိလျှင်) ကောင်းသောမေးလ်ညွှန်ပြ "Cartesian" ၏ဖြစ်နိုင်ခြေသော်လည်းကောင်းလျှော့ချသည်, သို့မဟုတ် spam များကိုညွှန်ပြ "ဆိုးဆေး" ၏ဖြစ်နိုင်ခြေပြန်လည်စဉ်းစားရမည်ဖြစ်သည်။

(သူမကိုယ်တိုင် filter များက misjudgment အလျောက်လျှင်) ဒီ Auto-သပ္ပါယ် technique ကိုသုံးပြီး Bayesian filter များမိမိတို့ကိုယ်ပိုင်နှင့်အသုံးပြုသူရဲ့ဆုံးဖြတ်ချက်တွေနှစ်ဦးစလုံးထံမှသင်ယူနိုင်ပါတယ်။ Bayesian filtering ကို၏အလိုက်အထိုက်နေတတ်လည်းသူတို့တစ်ဦးချင်းစီကိုအီးမေးလ်အသုံးပြုသူများအတွက်အထိရောက်ဆုံးဖြစ်ကြောင်းသေချာစေသည်။ လူအများစုရဲ့ spam များကိုဆင်တူဝိသေသလက္ခဏာများရှိစေခြင်းငှါနေစဉ်, တရားဝင်စာပို့လူတိုင်းအဘို့တွေကတော့ကွဲပြားခြားနားသည်။

ဘယ်လို Spam ဖြ Bayesian စိစစ်မှုများအတိတ်မှ Get နိုင်သလား?

တရားဝင်မေးလ်၏ဝိသေသလက္ခဏာများဟာ spam များကိုဖြစ်ပါသည်အဖြစ် Bayesian spam များကိုစစ်ထုတ်ခြင်းလုပ်ငန်းစဉ်များအတွက်နည်းတူအရေးကြီးလှသည်။ ထားသော filters တိုင်းအသုံးပြုသူများအတွက်အထူးလေ့ကျင့်သင်ကြားနေတယ်ဆိုရင်, Spam တွေကိုလူတိုင်းရဲ့ (သို့မဟုတ်ပင်လူအများစုရဲ့) ဝန်းကျင်အလုပ်လုပ်တစ်ခုပင်ခက်ခဲအချိန်ရှိသည် spam များကို filter များ, နှင့် filter များ Spam တွေကိုကြိုးစားပြီးနီးပါးအရာအားလုံးလိုက်လျောညီထွေဖြစ်အောင်နိုင်ပါတယ်။ ပါလိမ့်မယ်

သူတို့ကသာမန်အီးမေးလ်ကိုလူတိုင်းရစေခြင်းငှါကဲ့သို့မိမိတို့ spam များကိုမက်ဆေ့ခ်ျဿုံကြည့်ရှုစေလျှင် Spam တွေကိုသာအတိတ်ကောင်းမွန်စွာလေ့ကျင့်သင်ကြား Bayesian filter များစေမည်။

Spam တွေကိုများသောအားဖြင့်ထိုကဲ့သို့သောသာမန်အီးမေးလ်များကိုပေးပို့ကြပါဘူး။ ကျွန်တော်တို့ကိုဤအအီးမေးလ်များကို Junk အီးမေးလ်အဖြစ်အလုပ်မလုပ်ပါဘူးဘာဖြစ်လို့လဲဆိုတော့ဒီယူဆကြပါစို့။ သာမန်, boring အီးမေးလ်များကြောင့်အတိတ် spam များကို filter များစေရန်တစ်ခုတည်းသောနည်းလမ်းဖြစ်သည့်အခါဒီတော့အခွင့်အလမ်းတွေကိုသူတို့ကလုပ်နေတာမည်မဟုတ်ပါနေကြသည်။

Spam တွေကိုအများအားဖြင့်သာမန်-ရှာဖွေနေအီးမေးလ်များသို့ပြောင်းရန်ပြုလျှင်, သို့သော်, ကျနော်တို့ကိုတဖန်ကျွန်တော်တို့ရဲ့ Inbox ထဲတွင် spam များကိုတွေအများကြီးမြင်ရပါလိမ့်မည်, အီးမေးလ်ကဲ့သို့ဖွစျစခွေငျးငှါ စိတ်ပျက်စရာ က Pre-Bayesian နေ့ရက်ကာလ၌ဖြစ်သကဲ့သို့ (သို့မဟုတ်တောင်မှပိုဆိုး) ။ ဒါဟာအစသျောလညျး, spam များကိုအများစုမျိုးများအတွက်စျေးကွက်ပျက်စီးကြမည်, ဤသို့ရှည်လျားဘို့ကြာရှည်လိမ့်မည်မဟုတ်ပါ။

ခိုင်မာတဲ့ညွှန်းကိန်းတစ်ခု Bayesian ပမ် Filter ကို & # 39 ဖြစ်နိုင်သလား; s ကို Achilles & # 39; ခွေဖနောငျ့

တဦးတည်းခြွင်းချက်ပင်၎င်းတို့၏ပုံမှန်အကြောင်းအရာနှင့် Bayesian filter များမှတဆင့်၎င်းတို့၏လမ်းအလုပ်လုပ် Spam တွေကိုအဘို့ရိပ်မိနိုင်ပါတယ်။ ဒါဟာစစ်ထုတ်ခြင်းဖြင့်ဝက်ပေါင်ခြောက်အဖြစ် rated ခံရရန် spam များကိုတူသောရှာဖွေနေထံမှမည်သည့်မက်ဆေ့ခ်ျကိုဖွင့်ဖို့အဖြစ်ကအရမ်းမကြာခဏကောင်းသောမေးလ်ထဲမှာပေါ်လာလိမ့်မယ်တစကားလုံးသို့မဟုတ်ဝိသေသဒါသိသာစေနိုင်ပါတယ်ကြောင်း Bayesian စာရင်းဇယား၏သဘောသဘာဝ၌တည်ရှိ၏။

Spam တွေကိုသင့်ရဲ့သေချာ-မီးကောင်းသော-mail ကိုစကားများဖြင့် အသုံးပြု. ဆုံးဖြတ်ရန်နည်းလမ်းရှာပါလျှင် HTML ကိုပြန်လာလက်ခံဖြတ်ပိုင်းများ example- များအတွက်, သငျသညျဖွင့်လှစ်ခဲ့ရာမက်ဆေ့ခ်ျများကိုကြည့်ရှုရန်, သူတို့တစ်တွေ junk mail ကိုအတွက်သူတို့ထဲကတစ်ဦးပါဝင်သည်နှင့်ပင် well- အားဖြင့်သင်တို့ကိုရောက်ရှိနိုင်ပါတယ် Bayesian filter ကိုလေ့ကျင့်သင်ကြား။

ယောဟနျသဂရေဟမ်-Cumming နှစ်ခု Bayesian filter များတစ်ဦးချင်းစီကတခြားဆန့်ကျင်အလုပ်လုပ်ခွင့်အားဖြင့်မက်ဆေ့ခ်ျက "ကောင်းသော" filter ကိုကတဆင့်ရတွေ့ရှိထားတဲ့လိုက်လျောညီထွေက "မကောင်းတဲ့" တဦးတည်းကဒီကြိုးစားခဲ့သိရသည်။ သူကလုပ်ငန်းစဉ်ကိုအချိန်-စားသုံးခြင်းနှင့်ရှုပ်ထွေးသော်လည်းကအလုပ်လုပ်တယ်ကပြောပါတယ်။ ကျနော်တို့ကအနည်းဆုံးမအကြီးစားပေါ်, ဒီလိုအများကြီးမြင်ရပါလိမ့်မည်မထင်နှင့်တစ်ဦးချင်းစီ '' အီးမေးလ်ကဝိသေသလက္ခဏာများ လိုက်. မရကြဘူး။ Spam တွေကိုအစား (ဖို့ကြိုးစား) အဖွဲ့အစည်းများအဘို့အအချို့သောသော့ချက်စာလုံးများကိုထုတ်တွက်ဆ (ဒါနဲ့ပတ်သက်ပြီးက IBM မှာအချို့သောလူများအတွက် "Almaden" နဲ့တူတစ်ခုခု?) may ။

အများအားဖြင့်, spam များကိုအစဉ်အမြဲ (သိသိသာသာ) ပုံမှန်မေးလ်ကနေမတူညီတဲ့ဖြစ်လိမ့်မည်သို့မဟုတ်ပါကသော်လည်း, spam များကိုလိမ့်မည်မဟုတ်ပေ။

The Bottom Line: Bayesian Filtering & # 39; s ကိုခွန်အားင်း၏အားနည်းချက် Be နိုင်သလား

Bayesian spam များကို filter များအကြောင်းအရာကို-based filter များနေသောခေါင်းစဉ်:

အထူးသ Spam တွေကိုအဘို့လိုက်လျောညီထွေဖြစ်အောင်သူတို့ကိုအလွန်အမင်းထိရောက်သောနှင့်ခက်ခဲအောင်, တစ်ဦးချင်းစီကိုအီးမေးလ်အသုံးပြုသူရဲ့ spam များကိုနှင့်ကောင်းမွန်သောမေးလ်အသိအမှတ်ပြုရန်လေ့ကျင့်သင်ကြားလျက်ရှိသည်။
အစဉ်မပြတ်အများကြီးကြိုးစားအားထုတ်မှုသို့မဟုတ်လက်စွဲစာအုပ်ခွဲခြမ်းစိတ်ဖြာမရှိဘဲ Spam တွေကို '' နောက်ဆုံးပေါ်လှည့်ကွက်လိုက်လျောညီထွေဖြစ်အောင်နိုင်ပါတယ်။
အကောင့်ထဲသို့တဦးချင်းအသုံးပြုသူရဲ့ကောင်းသောမေးလ် ယူ. မမှန်သောလက္ခဏာတစ်ခုအလွန်နိမ့်မှုနှုန်းရှိသည်။
ဒီ Bayesian Anti-spam များကို filter များအတွက်မျက်စိကန်းယုံကြည်မှုကိုဖြစ်ပေါ်စေလျှင်ကံမကောင်းစွာပဲ, က ပို. ပင်လေးနက်သည့်ရံဖန်ရံခါအမှားပြန်ဆို။ မှားယွင်းသောဆိုးကျိုး (အတိအကျပုံမှန်မေးလ်တူကြောင်းစပမ်း) ၏ဆန့်ကျင်ဘက်အကျိုးသက်ရောက်မှုကိုအသုံးပြုသူများအနှောင့်ယှက်ခြင်းနှင့်ဖျက်ဖို့အလားအလာရှိပါတယ်။