Inona no tokony ho fantatra momba ny filalaovana spam Bayesian

by Heinz Tschabitscher

Fantaro hoe ahoana no ahafahan'ny statistika manadio ny fidirana ao anaty aterineto

Ireo filoham-pitenenana Bayesian dia manisa ny mety ho vokatra azo avy amin'ny hafatra iray izay mifototra amin'ny votoatiny. Tsy toy ny sivana mifototra amin'ny votoaty tsotra, ny sivana baikon'ny Bayesian dia mianatra avy amin'ny spam sy avy amin'ny mailaka tsara, ka nahatonga ny fomba fitsinjarana tena matanjaka, ny fampifanarahana ary ny fiarovana amin'ny spam, izay tsara indrindra, dia miverimberina tsy misy diso.

Ahoana no ahafantaranao ny fanararaotana mailaka?

Eritrereto ny fomba hahitanao spam . Ny fijerena haingana dia ampy matetika. Fantatrao hoe inona ny spam, ary fantatrao ny mety ho mailaka tsara.

Ny mety hitranga amin'ny spam toy ny mailaka tsara dia manodidina ny ... zero.

Mampifanaraka ny filaharan'ireo votoaty mifototra amin'ny votoaty

Moa ve tsy ho tsara raha toa ny ordinateran'ny spam-automatika toy izany?

Ny fanamarihana ny solosaina mifototra amin'ny votoatin'ny tranonkala dia manandrana fotsiny izany. Mitady teny sy toetra hafa karazana spam izy ireo. Ny endri-tsoratra tsirairay dia nomena lanjany, ary ny isa nomen'ny spam momba ny hafatra iray manontolo dia avy amin'ny isam-batan'olona. Ny sasany amin'ny fanatsarana ny sivana dia mikaroka ihany koa ny endriky ny mailaka ara-drariny, mampidina ny isa farany amin'ny hafatra.

Ny fomba fanatsarana ny filtre dia miasa, saingy misy ihany koa ny tsy fahampiana marobe:

Ny lisitry ny toetr'andro dia naorina avy amin'ny spam (sy ny mailaka tsara) ho an'ny injenieran'ny sivana. Mba hahatakarana tsara ny karazana spam izay mety ho azon'olon-kafa, dia alefa amin'ny adiresy mailaka an-jatony ny mailaka. Izany dia mampihena ny fahombiazan'ny sivana, indrindra satria ny fahasamihafan'ny mailaka tsara dia ho hafa amin'ny olona tsirairay , saingy tsy raisina an-tsakany izany.
Ny toetra mampiavaka azy dia mijanona amin'ny vato . Raha miezaka ny mampifanaraka ny spamera (ary manamboatra mailaka ho an'ny sivana ny spam-ny), ny toetra mampiavaka ny sivana dia tsy maintsy atao amin'ny fomba manokana - ezaka lehibe kokoa.
Ny isa voatondro isaky ny teny dia mety miorina amin'ny tombanana tsara, saingy mbola tsy misy dikany izany. Ary toy ny lisitry ny toetoetra, tsy manitsy na ny tontolo miovaova amin'ny spam amin'ny ankapobeny na amin'ny filan'ny mpisera tsirairay.

Ireo Spam Filaminana Bayesian dia manentana ny tenany, miezaka kokoa sy tsara kokoa

Ireo filoham-pitenenana Bayesian dia karazana filistaly mifototra amin'ny votoatiny ihany koa. Ny fomba fanaony dia manalavitra ireo olan'ny fanatsarana tsotra ny sivana spam, ary izany dia miharihary. Koa satria ny fahalemen'ny filatr'ireo sivana dia ao anatin'ny lisitry ny toetoetran'ny sariitatra sy ny lisitr'izy ireo, ity lisitra ity dia fongana.

Raha ny filalaovana spam Bayesian kosa dia manangana ny lisitry ny tenany. Ny tsara indrindra dia manomboka amin'ny alim-bitsika (lehibe) navoakanao ho toy ny spam, ary ny andiany iray amin'ny mailaka tsara. Ny sivana dia mijery ny roa ary manadihady ny mailaka ara-dalàna ary koa ny spam mba hamaritana ny mety ho karazana karazana miseho amin'ny spam, sy amin'ny mailaka tsara.

Ahoana ny fomba fijerin'ny filtering Spam an'i Bayesian?

Ny toetoetran'ny filtre Spam Bayesian dia afaka jerena:

ireo teny ao amin'ny vatan'ny hafatra, mazava ho azy, ary
Ny lohateniny (senders sy ny lalan-teny , ohatra!), fa koa
zavatra hafa toy ny HTML / CSS code (toy ny loko sy ny endrika hafa), na dia
teny pairs, andian-teny ary
fampahalalana meta (izay misy fehezanteny manokana, ohatra).

Raha misy teny hoe, "Cartesian", ohatra, dia tsy hita ao amin'ny spam fa matetika ao amin'ny mailaka ara-dalàna azonao, ny mety ho "Cartesian" manondro ny spam dia akaiky ny zero. Ny "Toner", etsy ankilany, dia miseho ivelany, ary matetika, amin'ny spam. "Toner" dia manana teboka tena azo tsinontsinoavina amin'ny spam, fa tsy ambany loatra 1 (100%).

Rehefa tonga ny hafatra vaovao, dia mandinika ny sivana spam Bayesian, ary ny mety ho votoatin'ny hafatra feno dia spam amin'ny alalan'ny toetra manokana.

Alaivo sary an-tsaina ny "Cartesian" sy ny "toner". Avy amin'ireto teny ireto fotsiny dia tsy mbola mazava tsara raha toa ka manana mailaka na mailaka izahay. Ireo toetra hafa dia (manantena ary indrindra indrindra) dia manondro ny mety hitranga izay ahafahan'ny sivana mametraka ny hafatra ho toy ny spam na mailaka tsara.

Afaka mianatra avy hatrany ireo filter Spam Bayesian

Ankehitriny fa manana ny fananganana isika, ny hafatra dia azo ampiasaina hanofanana ny sivana ho an'ny tenany. Amin'ity tranga ity, na ny mety hitranga "Cartesian" manondro mailaka tsara dia ambany (raha toa ka asiana spam ny hafatra misy "Cartesian" sy "toner"), na ny mety ho fahombiazan'ny "toner" manondro spam dia tsy maintsy dinihina.

Amin'ny fampiasana fomba fiasa maoderina, ny filteres Bayesian dia afaka miana-javatra avy amin'ny azy manokana sy ny fanapahan-kevitry ny mpampiasa (raha manitsy ny fahadisoana amin'ny sivana izy). Ny fampifanarahana amin'ny sivana Bayesian dia manome antoka ihany koa fa mahomby izy ireo ho an'ny mpampiasa mailaka tsirairay. Na dia manana toetra mitovy amin'izany aza ny ankamaroan'ny olona, ny hafainganam-pandehan'ny mailaka dia tsy mitovy amin'ny olon-drehetra.

Ahoana no ahafahan'ny spamers mahazo ny Bayesian Filters taloha?

Ny toetra mampiavaka ny mailaka ara-drariny dia manan-danja ihany koa ho an'ny fizotry ny sivana Bayesiana ho toy ny spam. Raha ampiofanina manokana ho an'ny mpampiasa rehetra ny sivana, dia ho sarotra kokoa ny fotoana ahafahan'ny spam rehetra miasa amin'ny manodidina ny olon-drehetra (na ny ankamaroan'ny olona) amin'ny spam, ary ny filtres dia afaka mampifanaraka amin'ny saika ny mpitsikilo rehetra.

Ireo mpitsikilo dia tsy hanao afa-tsy ny filaharambe Bayesian tsara efa nampiofanina raha toa ka manome ny hafatra manahirana azy ireo amin'ny mailaka tsotra toy ny mailaky ny ordinatera.

Tsy mandefa mailaka matetika toy izany ny spam. Aoka hojerentsika izany satria ny mailaka dia tsy miasa toy ny mailaka fanelezana. Noho izany, mety tsy ho vitan'izy ireo izany raha ny mailaka tsotra sy maharikoriko no hany fomba hahatonga azy io ho lasa filaharan'ireo spam.

Raha toa ka mifindra amin'ny mailaka maimaika matetika ireo spamers, dia ho hitantsika indray ny spam ao amin'ny Inboxes indray, ary ny mailaka dia mety ho sahiran-tsaina tahaka ny tamin'ny andro pre-Bayesian (na ratsy kokoa). Ho simba ihany koa ny tsena amin'ny karazana spam, ary dia tsy haharitra ela izany.

Ny mari-pototra mahery vaika Mety ho filalaovana Spam Bayesian & # 39; s Achilles & # 39; ombelahin-tongony

Ny fisokafan'ny iray dia azo raisina ho an'ny mpitsangatsangana amin'ny alàlan'ny filoloha Bayesian na amin'ny votoatiny mahazatra. Ao amin'ny toetoetry ny statistika Bayesian dia misy teny iray na toetra iray tena mipoitra amin'ny mailaka tsara dia mety ho manan-danja toy ny mamadika ny hafatra avy amin'ny fijerena spam toy ny hamamin'ny sivana.

Raha hitan'ny mpitsikilo ny fomba hamaritana ny teny tsara momba ny teny tsara azo antoka - amin'ny fampiasana ny taratasy fanontana HTML hijery ireo hafatra nosoratanao, ohatra-, dia afaka mampiditra ny iray amin'izy ireo amin'ny mailaka an-jatony ary mahatratra anao amin'ny alalan'ny fantsom- fampiofanana Bayesian.

John Graham-Cumming dia nanandrana izany tamin'ny famelana ireo filtre Bayesian roa hifanohitra, ny "ratsy" iray izay manitsy ny hafatra entina hahazoana ny sivana "tsara". Milaza izy fa miasa izy io, na dia mandany fotoana sy sarotra aza izany. Tsy heverinay fa hahita ny ankamaroan'ity tranga ity isika, farafaharatsiny tsy amin'ny ankapobeny, fa tsy mifanaraka amin'ny tarehimarika mailaky ny olona. Ireo spamman dia mety (miezaka) mamantatra ireo teny fototra amin'ny fikambanana (zavatra toy ny "Almaden" ho an'ny olona sasany ao IBM angamba).

Amin'ny ankapobeny dia tsy mitovy amin'ny mailaka tsy tapaka ny spam na dia tsy spam aza izany.

Ny Toe-tsipika: Ny Bayesian Filtration & # 39; s ny hery dia mety ho ny fahalemeny

Ireo filaharambe Spam Bayesian dia filtre mifototra amin'ny votoaty :

dia nampiofana manokana hahafantarana ny mpampiasa mailaka mailaka sy ny mailaka tsara , ka mahatonga azy ireo ho mahomby sy sarotra ny mampifanaraka amin'ny spam.
dia afaka mitohy tsy misy ezaka na fandalinana amin'ny tanana manoloana ireo tricks farany amin'ny spam.
alaivo ny mombamomba ny mpampiasa tsirairay ary manefa ny tahan'ny tsy fahampiana diso .
Mampalahelo fa raha miteraka fitokisana amin'ny masoivoho Bayesian manohitra ny spam izany, dia mahatonga ny fahadisoana tsindraindray ho sarotra kokoa izany . Ny vokatra mifanohitra amin'ny disadisa diso (spam izay mitovitovy amin'ny mailaka) dia afaka manelingelina sy manimba ny mpampiasa.