ANALISIS DE CLUSTER CON SPSS - WordPress

Transcription

ANALISIS DE CLUSTERCON SPSS:INMACULADA BARRERA

ANALISIS DE CLUSTER EN SPSS Opción: AnalizarClasificar

ANALISIS DE CLUSTER EN SPSS Tres posibles OPCIONES1.- Cluster en dos etapas2.- K-means3.- Jerárquicos

ANALISIS DE CLUSTER EN SPSS 1.- Cluster en dos etapas.etapas está pensado paraminería de datos, es decir para estudios con unnúmero de individuos grande que pueden tenerproblemas de clasificación con los otrosprocedimientos.Otra peculiaridad es que permite trabajarconjuntamente con variables de tipo mixto (cualiy cuantitativas). Puede realizarse cuando elnúmero de cluster es conocido a priori ytambién cuando no se conoce.

ANALISIS DE CLUSTER EN SPSS 2.- Cluster no jerárquicos .- sólo puedeser aplicado a variables cuantitativas yrequiere conocer el número de cluster apriori.Puede realizarse para un número deobjetos relativamente grande pues norequiere el cálculo de todas las posiblesdistancias.

ANALISIS DE CLUSTER EN SPSS 3.- Jerárquicos.- Para variables cuantitativas o bien paravariables cualitativasSi no se conoce el número de cluster apriori y cuando el número de objetos noes muy grande.

CLUSTER JERÁRQUICOS. El primer paso es la selección de variables:Como se observa pueden etiquetarse los grupos con una delas variables del fichero.También es posibles realizar conglomerados no para objetos sino paravariables, (agrupar variables por el parecido que presentan en lasrespuestas de los individuos)

CLUSTER JERÁRQUICOS. OPCIÓN METODO:-Podremos estandarizar las variablesutilizadas en el análisis antes deutilizarlas el cálculo de las similaridadessi fuese necesario. Los métodosdisponibles son varios.-Permite seleccionar la medida usadapara ver el parecido entre individuos condistintas distancias dependiendo si lavariable es binaria, frecuencias o deintervalo.-Es posible también elegir el método paraobtener los conglomerados Todos losvistos .Los dos primeros vinculación Inter.grupos y dentro de grupos secorresponde a la opción denominadaUPGMA (método del promedio) y unavariante de este donde se consideranpara el cálculo de la distancia media lacorrespondiente a todos los posiblespares del grupo resultante y no sólo a losformados con un elemento de cada grupocomo en el anterior.

ESTANDARIZAR

MEDIDA

METODO

CLUSTER JERÁRQUICOS. OPCIÓN ESTADISTICOS:Historial muestra los casos oconglomerados combinadosen cada etapa, las distanciasentre los casos combinados yel último nivel del proceso deaglomeración en el que cadacaso se unió al conglomeradocorrespondiente

CLUSTER JERÁRQUICOS. OPCIÓNESTADISTICOS:Matriz distanciasConglomerado de pertenencianos da el conglomerado al que seasigna cada caso pudiendo elegirentre una única solución o unrango de soluciones En el ejemplohemos seleccionado entre 2 y 3cluster.

CLUSTER JERÁRQUICOS. OPCIÓN GRÁFICOSPermiteobtenereldendrograma y los verticalu horizontal icicle plots, odiagramas de témpanos.

CLUSTER JERÁRQUICOS.765distancia764Cluster 23250412Cluster 1345objetoCluster C37625distanciadistancia11Cluster B04Cluster 2321Cluster A23objeto451Cluster 301Cluster 123objeto45

CLUSTER JERÁRQUICOS. OPCIÓN paraunasolución única o para unrango de soluciones. Lasvariablesguardadaspuedenemplearseenanálisis posteriores paraexplorar otras diferenciasentre grupos.

PROCEDIMIENTO K-MEANSUna vez seleccionadas las variables y determinado el número de conglomeradosque deseamos obtener podemos elegir entre iterar y clasificar o sólo clasificar.Para obtener máxima eficacia, podemos tomar una muestra de casos utilizar elmétodo iterar y clasificar para determinar los centros de los conglomerados.Seleccionamos escribir finales en archivo.Después repetimos el análisis con sólo clasificar leyendo los iniciales del archivoanterior

PROCEDIMIENTO K-MEANS OPCIÓN ITERAR Para la opción iterar se puededeterminar el número máximo deiteraciones, o bien fijar un criterio deconvergencia mayor de cero y menor deuno. La opción usar medias actualizadasrecalcula centroides con cada individuoasignado al grupo, sino deseleccionaesta opción no se recalculan hasta quetodos los individuos están asignados.

PROCEDIMIENTO K-MEANS Opción guardar permite crear una nuevavariable que indica para cadacaso el conglomerado al quepertenece y si se quiere otravariable con la distancia entrecada caso y su centro declasificación.

PROCEDIMIENTO K-MEANS BOTÓN OPCIONESCentros iniciales de los eradofrutasverduras4,204,203,801Distancias entre los centros de los conglomerados finales1214,925214,925314,864314,86429,69829,698

PROCEDIMIENTO K-MEANS BOTÓN 2,589Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que losconglomerados han sido elegidos para maximizar las diferencias entre los casos endiferentes conglomerados. Los niveles críticos no son corregidos, por lo que no puedeninterpretarse como pruebas de la hipótesis de que los centros de los conglomerados soniguales.

PROCEDIMIENTO K-MEANS BOTÓN OPCIONESNúmero de casos en cada dos15,00025,000,000

PROCEDIMIENTO DE CLUSTEREN DOS PASOS Está basado en un algoritmo que produce resultadosóptimos si todas las variables son independientes, lascontinuas normalmente distribuidas y las categóricasmultinomiales, pero funciona razonablemente bien enausencia de estos supuestos.La solución final depende del orden de entrada de los datos.Para minimizar el efecto habríamos de ordenar el fichero deforma aleatoria.Pasos:primer paso: formación de precluster de los casosoriginales, Estos son clusters de los datos originales que seutilizarán en lugar de las filas del fichero original pararealizar los cluster jerárquicos en el segundo paso.paso Todoslos casos pertenecientes a un mismo precluster se tratancomo un entidad sencilla.

PROCEDIMIENTO DE CLUSTEREN DOS inuasqueformaran parte del análisis-Elegiremos las distancias:-Cuando se tengan datos mixtos ladistancia que debemos de utilizar esel log-verosimilitud. La distanciaentre dos clusters dependerá deldecremento en el log-verosimilitudcuando ambas se combinan en unúnico cluster. Si se trata de datoscontinuos se puede usar la distanciaeuclídea entre los centros de losclusters.

PROCEDIMIENTO DE CLUSTEREN DOS PASOS La opción número de clusterspermite especificar el númerodeseado de conglomerados odejar que el algoritmoseleccione el número declusters basado en dos criteriosBIC (criterio Bayesiano) o AIC(criterio de información deAkaike).El método requiereestandarización de todas lasvariables por lo que por defectola efectúa y nos informa delnúmero de variables aestandarizar.

PROCEDIMIENTO DE CLUSTEREN DOS PASOSOPCIÓN GRÁFICOS-Gráfico de porcentaje intra conglomerado:Muestra los gráficos que indican variación decada variable dentro de los conglomerados.En categóricas se genera un gráfico de barrasagrupado, mostrando la frecuencia de lascategorías en cada conglomerado.En las contínuas un grafico de barras de errorpara la variable en cada conglomerado.

PROCEDIMIENTO DE CLUSTEREN DOS PASOS OPCIÓN GRÁFICOS-Gráfico de sectores deconglomerados: :Tamaño de conglomeradoporcentaje y frecuencia de individuosen cada conglomerado.Número deconglomerados en dosfases123

PROCEDIMIENTO DE CLUSTEREN DOS PASOS OPCIÓN GRÁFICOS Gráfico de importancia devariables : ::Muestra varios gráficos que indican laimportancia de cada variable en cadaconglomerado.Los resultados se pueden ordenar según el nivelde importancia de cada variable porconglomerado o por variable. En el primercaso para cada conglomerado se crearangráficos por orden de importancia devariables. En el segundo caso para cadavariable por conglomerados.

PROCEDIMIENTO DE CLUSTEREN DOS PASOSOPCIÓN GRÁFICOS Medida de importancia devariables : ::La opción permite seleccionar la medida de laimportancia para representar en el gráfico:chi-cuadrado o t-student (categóricas ycuantitativas respectivamente).Hay que seleccionar el nivel de significaciónglobal si se quiere que aparezcan las líneascorrespondientes al valor críticoHuevosAjuste de Bonferroni aplicadoValor críticoEstadístico decontraste2Conglomerado 13-40-200t de Student2040

ANALISIS DE CLUSTER EN SPSS 1.-Cluster en dos etapas.-está pensado para minería de datos, es decir para estudios con un número de individuos grande que pueden tener problemas de clasificación con los otros procedimientos. Otra peculiaridad es que permite trabajar conjuntamente con variables de tipo mixto (cuali y cuantitativas).File Size: 295KB