Principal Altres Anàlisi de clústers de K-Means

Anàlisi de clústers de K-Means

Visió general

Programari

Descripció

Llocs web

mag d'Oz en algun lloc de l'arc de Sant Martí

Lectures

Cursos

Visió general

L’anàlisi de clústers és un conjunt de tècniques de reducció de dades dissenyades per agrupar observacions similars en un conjunt de dades, de manera que les observacions del mateix grup siguin tan semblants entre si com sigui possible i, de manera similar, les observacions en diferents grups siguin tan diferents entre si com possible. En comparació amb altres tècniques de reducció de dades com l’anàlisi de factors (FA) i l’anàlisi de components principals (PCA), que tenen com a objectiu agrupar per similituds entre variables (columnes) d’un conjunt de dades, l’anàlisi de clúster pretén agrupar les observacions per semblances entre files.

Descripció

K-means és un mètode d'anàlisi de grups que agrupa les observacions minimitzant les distàncies euclidianes entre elles. Les distàncies euclidianes són anàlogues a la mesura de la hipotenusa d’un triangle, on les diferències entre dues observacions sobre dues variables (x i y) es connecten a l’equació pitagòrica per resoldre la distància més curta entre els dos punts (longitud de la hipotenusa). Les distàncies euclidianes es poden ampliar a n-dimensions amb qualsevol nombre n, i les distàncies fan referència a diferències numèriques en qualsevol variable contínua mesurada, no només distàncies espacials o geomètriques. Per tant, aquesta definició de distància euclidiana requereix que totes les variables que s’utilitzen per determinar l’agrupació mitjançant k-mitjans siguin contínues.

Procediment

Per tal de realitzar agrupacions de mitjans k, l'algoritme assigna aleatòriament k centres inicials (k especificats per l'usuari), ja sigui escollint aleatòriament punts en l'espai euclidià definits per totes les n variables, o mostrejant k punts de totes les observacions disponibles per servir com a centres inicials. A continuació, assigna iterativament cada observació al centre més proper. A continuació, calcula el nou centre per a cada clúster com la mitjana del centreide de les variables de clusterització per al nou conjunt d’observacions de cada clúster. K-significa que reitera aquest procés, assignant observacions al centre més proper (algunes observacions canviaran de clúster). Aquest procés es repeteix fins que una nova iteració ja no reassigna cap observació a un nou clúster. En aquest punt, es considera que l'algorisme ha convergit i les assignacions finals de clúster constitueixen la solució de clusterització.

Hi ha diversos algoritmes de mitjans k disponibles. L’algorisme estàndard és l’algorisme Hartigan-Wong, que té com a objectiu minimitzar les distàncies euclidianes de tots els punts amb els seus centres de clúster més propers, minimitzant la suma d’errors quadrats (SSE) dins del clúster.

Programari

K-means està implementat en molts programes de programari estadístic:

A R, al paquet de clúster, utilitzeu la funció: k-means (x, centres, iter.max = 10, nstart = 1). L'objecte de dades sobre el qual es realitza l'agrupació es declara en x. L'usuari especifica el nombre de clústers k en centres = #. k-means () es repetirà amb diferents centroides inicials (mostrejats aleatòriament de tot el conjunt de dades) nstart = # vegades i tria la millor execució (SSE més petita). iter.max = # estableix un nombre màxim d'iteracions permeses (per defecte és 10) per execució.

A STATA, utilitzeu l'ordre: cluster kmeans [varlist], k (#) [opcions]. Utilitzeu [varlist] per declarar les variables de clusterització, k (#) per declarar k. Hi ha altres opcions per especificar mesures de semblança en lloc de distàncies euclidianes.

A SAS, utilitzeu l'ordre: PROC FASTCLUS maxclusters = k; var [varlist]. Això requereix especificar k i les variables de clusterització a [varlist].

A SPSS, utilitzeu la funció: Analitza -> Classifica -> Clúster K-Means. Hi ha fitxers d’ajuda addicionals disponibles en línia.

Consideracions

El clúster K-significa que totes les variables siguin contínues. Altres mètodes que no requereixen que totes les variables siguin contínues, inclosos alguns mètodes d’agrupació heràrquics, tenen supòsits diferents i es discuteixen a la llista de recursos següent. L'agrupació K-significa també requereix una especificació a priori del nombre de clústers, k. Tot i que això es pot fer empíricament amb les dades (utilitzant un diagrama de pantalla per representar gràficament SSE dins del grup amb cada solució de clúster), la decisió hauria de ser impulsada per la teoria i les decisions incorrectes poden conduir a clústers erronis. Consulteu l’escriptura R en línia de Peeples en línia per a l’anàlisi de clúster K-means a continuació per obtenir exemples d’elecció de solucions de clúster.

L’elecció de variables de clusterització també té una importància especial. En general, els mètodes d’anàlisi de clústers requereixen la suposició que les variables escollides per determinar els clústers són una representació completa del constructe d’interès subjacent que agrupa observacions similars. Tot i que l’elecció de les variables continua sent un tema debatut, el consens al camp recomana agrupar-se en tantes variables com sigui possible, sempre que el conjunt s’adapti a aquesta descripció i les variables que no descriuen gran part de la variància en les distàncies euclidianes entre les observacions contribuiran menys a l'assignació de clústers. Es recomanen les anàlisis de sensibilitat mitjançant diferents solucions de clúster i conjunts de variables de clusterització per determinar la robustesa de l'algorisme de clusterització.

Per defecte, el mitjà K té com a objectiu minimitzar la suma dins del grup d'errors quadrats mesurats per les distàncies euclidianes, però això no sempre es justifica quan no es compleixen els supòsits de dades. Consulteu llibres de text i guies en línia a la secció de recursos que hi ha a continuació, especialment el bloc R de Robinson: l’agrupació K-means no és un dinar gratuït per obtenir exemples dels problemes relacionats amb l’agrupació k-means quan es infringeixen les suposicions.

Finalment, els mètodes d’anàlisi de clústers són similars a altres tècniques de reducció de dades, ja que són eines exploratòries en gran part, per la qual cosa els resultats s’han d’interpretar amb precaució. Existeixen moltes tècniques per validar els resultats de l'anàlisi de clústers, inclosa la interna amb validació creuada o arrencada, validació en grups conceptuals teoritzats a priori o amb opinió d'experts, o validació externa amb conjunts de dades separats. Una aplicació habitual de l’anàlisi de clústers és com una eina per predir la pertinença a clústers en futures observacions mitjançant dades existents, però no descriu per què les observacions s’agrupen d’aquesta manera. Com a tal, l’anàlisi de clústers s’utilitza sovint juntament amb l’anàlisi de factors, on s’utilitza l’anàlisi de clúster per descriure com les observacions són similars i l’anàlisi de factors per descriure per què les observacions són similars. En última instància, la validesa dels resultats de l'anàlisi de clústers s'hauria de determinar per teoria i per la utilitat de les descripcions de clústers.

Lectures

Llibres de text i capítols

  1. Aldenderfer MS i Blashfield RK (1984). Anàlisi de clústers. Sage University Paper series on Quantitative Applications in the Social Sciences, sèrie núm. 07-044. Newbury Park, Califòrnia: Sage Publications. El llibre verd d’anàlisi de clústers és un text de referència clàssic sobre teoria i mètodes d’anàlisi de clústers, així com pautes per informar de resultats.

  2. Everitt BS, Landau S, Leese M, Stahl D (2011). Cluster Analysis, 5a ed. Sèrie Wiley. Descripcions profundes i contemporànies dels diversos tipus de mètodes d’anàlisi de clústers a mesura que s’ha desenvolupat el camp.

  3. Lorr M (1983). Anàlisi de clústers per a científics socials. Sèrie de ciències socials i del comportament de Jossey-Bass. El text clàssic de Lorr detalla mètodes relacionats amb dades que normalment es troben a les ciències socials: K suposa que les suposicions de dades sovint són difícils de complir amb les dades de ciències socials i es discuteixen alternatives.

    què és la ciència política

Articles metodològics

  1. Hauser J i Rybakowski J (1997). Tres grups d’alcohòlics masculins. Les drogues dependen de l'alcohol; 48 (3): 243-50. Un exemple de tipus de comportament agrupats en la investigació de l’addicció.

  2. Breuhl S, et al. (1999). Ús d’anàlisi de clústers per validar els criteris de diagnòstic IHS per a migranya i cefalea tipus tensió. Cefalea; 39 (3): 181-9. Un estudi de la validació de criteris diagnòstics mitjançant mitjans k en patrons de símptomes.

  3. Guthrie E, et al. (2003). L'anàlisi de símptomes i el comportament de recerca de salut diferencien els subgrups de pacients amb síndrome d'intestí irritable greu. Tripa; 52 (11): 1616-22. Els patrons de comportament que busquen atenció es diferencien mitjançant l’anàlisi de clústers.

Articles d'aplicació

  1. MacQueen J (1967). Alguns mètodes de classificació i anàlisi d'observacions multivariants. Actes del V Simposi Berkeley sobre Matemàtiques. Estadística. i Prob., vol. 1. Els primers mètodes estadístics sobre k-significa l'algorisme de clusterització d'un dels primers desenvolupadors.

  2. Salim SZ i Ismail MA. (1984). Algoritmes de tipus K: un teorema de convergència generalitzat i caracterització de l'optimitat local. IEEE Trans Pattern Anal Mach Intell; 6 (1): 81-7. Consideracions metodològiques i recomanacions per a l'ús de l'agrupació de mitjans k.

  3. Saeed F, et al. (2012). La combinació de K-significa agrupacions d’estructures químiques mitjançant un algorisme de particionament de similitud basat en clústers. Comunicacions en informàtica i ciències de la informació; 322: 304-312. Un article recent sobre la millora del rendiment de les solucions de clúster k-means mitjançant enfocaments de iteració múltiple i combinació.

Llocs web

Diversos passos a continuació per utilitzar el programari R per dur a terme anàlisis de clúster de mitjans k, amb exemples aplicats i codi de mostra.

  1. statmethods.net: Quick-R: anàlisi de clústers http://www.statmethods.net/advstats/cluster.html

  2. 2. Blog d'estadístiques R: K-significa agrupació http://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/

  3. 3. Peeples MA (2011). R Script per a l'anàlisi de clústers K-means http://www.mattpeeples.net/kmeans.html

  4. 4. Robinson D (2015). R bloggers: K-significa que l'agrupació no és un dinar gratuït http://www.r-bloggers.com/k-means-clustering-is-not-a-free-lunch/

Recursos tècnics de R

  1. Universitat de York: comandaments de l'anàlisi de clústers R. http://wiki.math.yorku.ca/index.php/R:_Cluster_analysis

  2. R kmeans () fitxer d'ajuda https://stat.ethz.ch/R-manual/R-devel/library/stats/html/kmeans.html

Tècniques de reducció de dades relacionades

  1. Anàlisi de factors exploratoris (EPT) sobre epidemiologia avançada

  2. Anàlisi de components principals (PCA) sobre epidemiologia avançada

Articles D'Interès

L'Elecció De L'Editor

La Guia de Columbia sobre el cas dels documents del Pentàgon
La Guia de Columbia sobre el cas dels documents del Pentàgon
Max Frankel ’52CC’, 53GSAS recorda la primera vegada que va posar els ulls en els papers del Pentàgon. Era el març de 1971 i Frankel era el cap de l’oficina de Washington del New York Times. Un periodista, Neil Sheehan, li havia portat algunes pàgines d’un informe governamental classificat que una font anònima li havia ofert. El material tractava de la guerra del Vietnam i, segons Frankel, les pàgines estaven estampades i eren extremadament secretes.
La persona més vella que ha estat nomenada premi Nobel
La persona més vella que ha estat nomenada premi Nobel
Als noranta-sis anys, el físic i premi Nobel Arthur Ashkin encara treballa activament.
Per què el vostre encaminador sense fil Jio mostra llums indicadores de càrrega sense un connector al port de càrrega?
Per què el vostre encaminador sense fil Jio mostra llums indicadores de càrrega sense un connector al port de càrrega?
Per què el vostre encaminador sense fil Jio mostra llums indicadores de càrrega sense un connector al port de càrrega? Aquest és el motiu pel qual el vostre Jiowifi
Trobar una paparra? Feu una foto
Trobar una paparra? Feu una foto
Els científics ciutadans poden ajudar a combatre la malaltia de Lyme amb The Tick App, una aplicació gratuïta per a smartphones desenvolupada per Maria Diuk-Wasser i col·legues.
Samsung Galaxy S9 Plus Preu, especificacions, data de llançament, preu a l'Índia, impermeable, càmera
Samsung Galaxy S9 Plus Preu, especificacions, data de llançament, preu a l'Índia, impermeable, càmera
Samsung Galaxy S9 Plus preu, especificacions, colors, preu a l'Índia, càmera, bateria. Característiques del Samsung Galaxy S9 Plus, data de llançament, evolució, preu en USD
Plans de fibra BSNL Uttarakhand 2021 amb preu i validesa
Plans de fibra BSNL Uttarakhand 2021 amb preu i validesa
BSNL Fibre Plans Uttarakhand 2021 Preu, BSNL Fiber Plans Uttarakhand 2021 Validesa, Uttarakhand bsnl ftth plans 2021 Devbhoomi
Guanyadors del premi Pulitzer 2021
Guanyadors del premi Pulitzer 2021
La Universitat de Columbia va anunciar els premis Pulitzer 2021, atorgats per recomanació de la Junta del Premi Pulitzer.