Inona no atao hoe cluster?

Fitrandrahana data miaraka amin'ny algorithm k-midika

Ny k- midika hoe algorithm ny clustering dia fitaovana fandinihana angon-drakitra sy fitaovana fampiasa amin'ny milina ampiasaina mba hanombohana ny fandinihana ny vondrona mifangaro izay tsy misy fahalalana mialoha momba izany fifandraisana izany. Amin'ny alàlan'ny famandrihana, ny algorithm dia manandrana maneho ny sokajy na cluster, ny angon-drakitra, ny isan'ny cluster izay voafaritra amin'ny sanda k.

Ny k- dia ny algorithm dia iray amin'ireo teknika tsotra indrindra ary matetika izy io no ampiasaina amin'ny fitantanana ara-pahasalamana, biometrika ary sehatra mifandraika amin'izany. Ny tombony amin'ny k- midika hoe clustering dia manambara momba ny angon-drakitrao (mampiasa ny endrika tsy voatsikera) fa tsy hoe mila mampianatra ny algorithm momba ny angona ianao amin'ny voalohany (mampiasa ny endrika fanaraha-maso ny algorithm).

Indraindray dia antsoina hoe Algorithm amin'ny Lloyd izy io, indrindra indrindra amin'ny faritry ny sehatry ny informatika satria ny algorithm natoraly dia natolotr'i Stuart Lloyd tamin'ny taona 1957. Ny teny hoe "k-means" dia novolavolain'i James McQueen tamin'ny 1967.

Ny fomba fiasa Algorithm k-dia

Ny k- algorithm dia ny algorithm evolutionary izay mahazo ny anarany amin'ny fomba fiasan-dry zareo. Ny algorithm clusters dia manondro ny vondrona k , izay omena ho ny mari-pamantarana fidirana. Avy eo dia nanendry ny fijerena tsirairay izy ireo ho an'ny clusters izay mifototra amin'ilay akaiky ny mpikaroka. Ny dikan'ny cluster dia avy eo averina indray ary manomboka indray ny dingana. Toy izao no ataon'ilay algorithm:

  1. Ny algorithm dia mifidy araka ny tokony ho izy ny kintany ho toy ny tobim-pifandraisana voalohany (ny fitaovana).
  2. Ny teboka tsirairay ao amin'ny daty dia voatendry ho an'ny cluster mihidy, mifototra amin'ny elanelana Eukclidean eo anelanelan'ny tendrony sy ny foibe tsirairay.
  3. Ny foibem-pifandraisana tsirairay dia averina averina ho toy ny salan'isa amin'ny teboka ao amin'io cluster io.
  4. Dingana 2 sy 3 avereno mandra-pihaonan'ny cluster. Ny fifanoheran-kevitra dia azo faritana amin'ny fomba samihafa arakaraky ny fampiharana, fa matetika dia midika fa na oviana na oviana tsy misy fanamarihana dia manova ny cluster rehefa manomboka ny dingana 2 sy 3, na ny fanovana dia tsy manova fahasamihafana eo amin'ny famaritana ireo cluster.

Mifidy ny isa ny cluster

Ny iray amin'ireo haavon-kevitra lehibe indrindra ho an'ny k- midika hoe clustering dia ny hoe tokony hamaritra ny isa ny clusters ho fampidirana ny algorithm. Araka ny noforonina, ny algorithm dia tsy afaka mamaritra ny isa misy ny cluster ary miankina amin'ny mpampiasa mba hamantatra izany mialoha.

Ohatra, raha manana vondron'olona izay tokony hiorina amin'ny maha-lahy na maha vavy anao ianao, miantso ny algorithm fampiasa mampiasa k = 3 dia mety hanery ny olona ho antoko telo raha roa na mihoatra Ny endrik'i k = 2, dia hanome endrika ara-boajanahary kokoa.

Tahaka izany koa, raha vondron'olona maromaro mora marim-pototra mifototra amin'ny toetoetran'ny toetr'andro ianao ary midika hoe algorithm amin'ny k = miditra k = 20, ny valiny dia mety ho azo alamina mba hahomby.

Noho izany antony izany matetika dia tsara ny manandrana manandrana ny soatoavin'ny k mba hamantarana ny sandany izay mifanandrify tsara amin'ny data. Azonao atao koa ny te hijery ny fampiasana algorithm hafa momba ny harena ankibon'ny tany amin'ny fikarohanao fahalalana momba ny fiara.