Más

Crea clústeres usando long y lat

Crea clústeres usando long y lat


Tengo unas 4000 tiendas en todo el país. Basado en la distancia larga / latitud y el nivel comercial, deseo crear alrededor de 200 clústeres que puedan administrar entre 15 y 25 tiendas cada uno. Deseo saber cómo hacer esto para encontrar estos 200 grupos. ¿Es posible hacer esto? Si tiene alguna sugerencia, sugiera cómo hacerlo.


Crear clústeres usando long y lat - Sistemas de información geográfica

Explore el mundo del análisis espacial y la cartografía con sistemas de información geográfica (SIG). En esta clase, aprenderá los conceptos básicos de la herramienta de software líder en la industria, ArcGIS, durante cuatro módulos de una semana de duración: Semana 1: Aprenda cómo GIS creció de mapas en papel a los paquetes de software electrónicos integrados globalmente de hoy. Instalará ArcGIS en su computadora y aprenderá a usar la ayuda en línea para responder preguntas técnicas. Semana 2: abra ArcGIS y explore los datos con ArcMap. Aprenda los conceptos fundamentales de SIG, cómo analizar datos y haga su primer mapa. Semana 3: ¡Crea tus propios mapas! Simbolice los datos y cree un producto final llamativo. Semana 4: comparta sus datos y mapas y aprenda a almacenar y organizar sus datos. Tome Fundamentos de SIG como un curso independiente o como parte de la Especialización en Sistemas de Información Geográfica (SIG). Al completar la primera clase de la especialización, obtendrá las habilidades necesarias para tener éxito en el programa completo. Los estudiantes que necesiten una licencia de ArcGIS recibirán una licencia de estudiante no comercial de 1 año para participar en este curso y especialización.


Contenido

La noción de "agrupación" no se puede definir con precisión, que es una de las razones por las que existen tantos algoritmos de agrupación. [5] Hay un denominador común: un grupo de objetos de datos. Sin embargo, diferentes investigadores emplean diferentes modelos de conglomerados, y para cada uno de estos modelos de conglomerados nuevamente se pueden dar diferentes algoritmos. La noción de clúster, tal como la encuentran diferentes algoritmos, varía significativamente en sus propiedades. Comprender estos "modelos de clúster" es clave para comprender las diferencias entre los distintos algoritmos. Los modelos de clúster típicos incluyen:

  • Modelo de conectividad s: por ejemplo, la agrupación jerárquica crea modelos basados ​​en la conectividad a distancia.
  • Centroide modelo s: por ejemplo, el algoritmo de k-medias representa cada grupo mediante un solo vector de media.
  • Modelo de distribución s: los conglomerados se modelan utilizando distribuciones estadísticas, como distribuciones normales multivariadas utilizadas por el algoritmo de maximización de expectativas.
  • Modelo de densidad s: por ejemplo, DBSCAN y OPTICS definen los clústeres como regiones densas conectadas en el espacio de datos.
  • Modelo subespacial s: en biclustering (también conocido como co-clustering o clustering de dos modos), los clústeres se modelan con miembros del clúster y atributos relevantes.
  • Modelo de grupo s: algunos algoritmos no proporcionan un modelo refinado para sus resultados y solo proporcionan la información de agrupación.
  • Modelos basados ​​en gráficos s: una camarilla, es decir, un subconjunto de nodos en un gráfico tal que cada dos nodos del subconjunto están conectados por un borde puede considerarse como una forma prototípica de clúster. Las relajaciones del requisito de conectividad completo (puede faltar una fracción de los bordes) se conocen como cuasi-camarillas, como en el algoritmo de agrupación de HCS.
  • Modelos de gráficos firmados: Cada camino en un gráfico con signo tiene un signo del producto de los signos en los bordes. Bajo los supuestos de la teoría del equilibrio, los bordes pueden cambiar de signo y dar como resultado un gráfico bifurcado. El "axioma de agrupabilidad" más débil (ningún ciclo tiene exactamente un borde negativo) produce resultados con más de dos grupos, o subgrafos con solo bordes positivos. [6]
  • Modelo neuronal s: la red neuronal no supervisada más conocida es el mapa autoorganizado y estos modelos generalmente se pueden caracterizar como similares a uno o más de los modelos anteriores, e incluyen modelos subespaciales cuando las redes neuronales implementan una forma de análisis de componentes principales o análisis de componentes independientes.

Un "agrupamiento" es esencialmente un conjunto de dichos grupos, que generalmente contiene todos los objetos del conjunto de datos. Además, puede especificar la relación de los grupos entre sí, por ejemplo, una jerarquía de grupos integrados entre sí. Las agrupaciones se pueden distinguir a grandes rasgos como:

  • Agrupación dura : cada objeto pertenece a un clúster o no
  • Agrupación suave (además:
  • agrupamiento difuso): cada objeto pertenece a cada grupo en un cierto grado (por ejemplo, una probabilidad de pertenecer al grupo)

También hay posibles distinciones más finas, por ejemplo:

  • Clúster de particionamiento estricto : cada objeto pertenece exactamente a un grupo
  • Clúster de particionamiento estricto con valores atípicos : los objetos tampoco pueden pertenecer a ningún clúster y se consideran valores atípicos
  • Agrupación superpuesta (además: agrupamiento alternativo, agrupación en clústeres de múltiples vistas): los objetos pueden pertenecer a más de un clúster que generalmente implican clústeres duros
  • Agrupación jerárquica : los objetos que pertenecen a un clúster secundario también pertenecen al clúster principal
  • Agrupación subespacial: mientras se trata de una agrupación superpuesta, dentro de un subespacio definido de forma única, no se espera que las agrupaciones se superpongan

Como se mencionó anteriormente, los algoritmos de agrupación en clústeres se pueden clasificar en función de su modelo de agrupación. La siguiente descripción general solo enumerará los ejemplos más destacados de algoritmos de agrupación en clústeres, ya que posiblemente haya más de 100 algoritmos de agrupación en clústeres publicados. No todos proporcionan modelos para sus grupos y, por lo tanto, no se pueden clasificar fácilmente. Se puede encontrar una descripción general de los algoritmos explicados en Wikipedia en la lista de algoritmos estadísticos.

No existe un algoritmo de agrupación objetivamente "correcto", pero como se señaló, "la agrupación está en el ojo del espectador". [5] El algoritmo de agrupamiento más apropiado para un problema particular a menudo necesita ser elegido experimentalmente, a menos que exista una razón matemática para preferir un modelo de agrupamiento sobre otro. Un algoritmo diseñado para un tipo de modelo generalmente fallará en un conjunto de datos que contenga un tipo de modelo radicalmente diferente. [5] Por ejemplo, k-means no puede encontrar agrupaciones no convexas. [5]

Agrupación en clústeres basada en conectividad (agrupación jerárquica) Editar

Agrupación en clústeres basada en conectividad, también conocida como agrupación jerárquica, se basa en la idea central de que los objetos están más relacionados con los objetos cercanos que con los más lejanos. Estos algoritmos conectan "objetos" para formar "grupos" basados ​​en su distancia. Un grupo se puede describir en gran medida por la distancia máxima necesaria para conectar partes del grupo. A diferentes distancias, se formarán diferentes grupos, que se pueden representar mediante un dendrograma, que explica de dónde proviene el nombre común "agrupamiento jerárquico": estos algoritmos no proporcionan una única partición del conjunto de datos, sino que proporcionan una amplia jerarquía de grupos que se fusionan entre sí a determinadas distancias. En un dendrograma, el eje y marca la distancia a la que se fusionan los grupos, mientras que los objetos se colocan a lo largo del eje x de manera que los grupos no se mezclan.

La agrupación en clústeres basada en la conectividad es una familia completa de métodos que se diferencian por la forma en que se calculan las distancias. Además de la elección habitual de funciones de distancia, el usuario también debe decidir el criterio de vinculación (dado que un grupo consta de varios objetos, hay varios candidatos para calcular la distancia) para usar. Las opciones populares se conocen como agrupación de un solo enlace (el mínimo de distancias de objeto), agrupación de enlace completo (el máximo de distancias de objeto) y UPGMA o WPGMA ("Método de grupo de pares ponderados o no ponderados con media aritmética", también conocido como enlace promedio agrupación). Además, la agrupación jerárquica puede ser aglomerativa (comenzando con elementos individuales y agregándolos en grupos) o divisiva (comenzando con el conjunto de datos completo y dividiéndolo en particiones).

Estos métodos no producirán una partición única del conjunto de datos, sino una jerarquía a partir de la cual el usuario aún debe elegir los grupos adecuados. No son muy robustos frente a los valores atípicos, que aparecerán como agrupaciones adicionales o incluso provocarán la fusión de otras agrupaciones (conocido como "fenómeno de encadenamiento", en particular con agrupación de un solo enlace). En el caso general, la complejidad es O (n 3) < displaystyle < mathcal > (n ^ <3>)> para agrupamiento aglomerativo y O (2 n - 1) < displaystyle < mathcal >(2^)> para agrupamiento divisivo, [7] lo que los hace demasiado lentos para grandes conjuntos de datos. Para algunos casos especiales, métodos eficientes óptimos (de complejidad O (n 2) < displaystyle < mathcal > (n ^ <2>)>) son conocidos: SLINK [8] para enlace simple y CLINK [9] para agrupamiento de enlace completo. En la comunidad de minería de datos, estos métodos se reconocen como una base teórica del análisis de conglomerados, pero a menudo se consideran obsoletos [ cita necesaria ]. Sin embargo, proporcionaron inspiración para muchos métodos posteriores, como el agrupamiento basado en densidad.

Enlace único sobre datos gaussianos. En 35 grupos, el grupo más grande comienza a fragmentarse en partes más pequeñas, mientras que antes todavía estaba conectado al segundo más grande debido al efecto de enlace único.

Enlace único en clústeres basados ​​en densidad. Se extrajeron 20 grupos, la mayoría de los cuales contienen elementos únicos, ya que el agrupamiento de enlaces no tiene una noción de "ruido".

Agrupación basada en centroides Editar

En la agrupación basada en centroides, las agrupaciones están representadas por un vector central, que puede no ser necesariamente un miembro del conjunto de datos. Cuando el número de clústeres se fija en k, k-significa que el agrupamiento da una definición formal como un problema de optimización: encuentre el k centros de agrupación y asigne los objetos al centro de agrupación más cercano, de modo que se minimicen las distancias cuadradas desde la agrupación.

Se sabe que el problema de optimización en sí es NP-difícil y, por lo tanto, el enfoque común es buscar solo soluciones aproximadas. Un método aproximado particularmente conocido es el algoritmo de Lloyd, [10] a menudo denominado simplemente "algoritmo de k-medias"(aunque otro algoritmo introdujo este nombre). Sin embargo, solo encuentra un óptimo local y, por lo general, se ejecuta varias veces con diferentes inicializaciones aleatorias. Variaciones de k- los medios a menudo incluyen optimizaciones como elegir la mejor de varias ejecuciones, pero también restringir los centroides a los miembros del conjunto de datos (k-medoides), eligiendo medianas (kagrupación de medios), eligiendo los centros iniciales de forma menos aleatoria (k-means ++) o permitir una asignación de clúster difusa (difusa c-means).

La mayoría k-los algoritmos de tipo medio requieren el número de clústeres - k - a especificar de antemano, que se considera uno de los mayores inconvenientes de estos algoritmos. Además, los algoritmos prefieren grupos de tamaño aproximadamente similar, ya que siempre asignarán un objeto al centroide más cercano. Esto a menudo conduce a bordes cortados incorrectamente de los grupos (lo cual no es sorprendente ya que el algoritmo optimiza los centros de los grupos, no los bordes de los grupos).

K-means tiene varias propiedades teóricas interesantes. Primero, divide el espacio de datos en una estructura conocida como diagrama de Voronoi. En segundo lugar, está conceptualmente cerca de la clasificación de vecino más cercano y, como tal, es popular en el aprendizaje automático. En tercer lugar, puede verse como una variación del agrupamiento basado en modelos y el algoritmo de Lloyd como una variación del algoritmo de maximización de expectativas para este modelo que se analiza a continuación.

k-significa que separa los datos en celdas de Voronoi, lo que supone clústeres de igual tamaño (no es adecuado aquí)

k-los medios no pueden representar clústeres basados ​​en densidad

Problemas de agrupamiento basados ​​en centroides como k-significa y kLos medoides son casos especiales del problema de ubicación de instalaciones métricas sin capacidad, un problema canónico en las comunidades de investigación de operaciones y geometría computacional. En un problema básico de ubicación de instalaciones (del cual existen numerosas variantes que modelan configuraciones más elaboradas), la tarea es encontrar las mejores ubicaciones de almacén para brindar un servicio óptimo a un conjunto dado de consumidores. Se pueden ver los "almacenes" como centroides de agrupaciones y las "ubicaciones de los consumidores" como los datos que se van a agrupar. Esto hace posible aplicar las soluciones algorítmicas bien desarrolladas de la literatura de ubicación de instalaciones al problema de agrupamiento basado en centroides que se considera actualmente.

Agrupación en clústeres basada en distribución Editar

El modelo de agrupación más estrechamente relacionado con las estadísticas se basa en modelos de distribución. Los clústeres se pueden definir fácilmente como objetos que probablemente pertenezcan a la misma distribución. Una propiedad conveniente de este enfoque es que se parece mucho a la forma en que se generan los conjuntos de datos artificiales: muestreando objetos aleatorios de una distribución.

Si bien la base teórica de estos métodos es excelente, adolecen de un problema clave conocido como sobreajuste, a menos que se impongan restricciones a la complejidad del modelo. Un modelo más complejo normalmente podrá explicar mejor los datos, lo que hace que la elección del modelo apropiado sea intrínsecamente difícil.

Un método destacado se conoce como modelos de mezcla gaussianos (que utilizan el algoritmo de maximización de expectativas). Aquí, el conjunto de datos generalmente se modela con un número fijo (para evitar el sobreajuste) de distribuciones gaussianas que se inicializan aleatoriamente y cuyos parámetros se optimizan iterativamente para ajustarse mejor al conjunto de datos. Esto convergerá a un óptimo local, por lo que múltiples ejecuciones pueden producir resultados diferentes. Para obtener una agrupación dura, los objetos a menudo se asignan a la distribución gaussiana a la que probablemente pertenecen para agrupaciones blandas, esto no es necesario.

La agrupación en clústeres basada en la distribución produce modelos complejos para los clústeres que pueden capturar la correlación y la dependencia entre atributos. Sin embargo, estos algoritmos suponen una carga adicional para el usuario: para muchos conjuntos de datos reales, es posible que no haya un modelo matemático definido de manera concisa (por ejemplo, asumir distribuciones gaussianas es una suposición bastante sólida sobre los datos).

Los clústeres basados ​​en densidad no se pueden modelar utilizando distribuciones gaussianas

Agrupación basada en densidad Editar

En la agrupación basada en densidad, [11] las agrupaciones se definen como áreas de mayor densidad que el resto del conjunto de datos. Los objetos en áreas dispersas, que se requieren para separar grupos, generalmente se consideran puntos de ruido y de frontera.

El método de agrupamiento basado en densidad más popular [12] es DBSCAN. [13] En contraste con muchos métodos más nuevos, presenta un modelo de clúster bien definido llamado "densidad de alcance". De manera similar a la agrupación basada en vínculos, se basa en puntos de conexión dentro de ciertos umbrales de distancia. Sin embargo, solo conecta puntos que satisfacen un criterio de densidad, en la variante original definida como un número mínimo de otros objetos dentro de este radio. Un grupo consta de todos los objetos conectados por densidad (que pueden formar un grupo de una forma arbitraria, en contraste con muchos otros métodos) más todos los objetos que están dentro del rango de estos objetos. Otra propiedad interesante de DBSCAN es que su complejidad es bastante baja (requiere un número lineal de consultas de rango en la base de datos) y que descubrirá esencialmente los mismos resultados (es determinista para los puntos centrales y de ruido, pero no para los puntos fronterizos) en cada ejecución, por lo tanto, no es necesario ejecutarlo varias veces. OPTICS [14] es una generalización de DBSCAN que elimina la necesidad de elegir un valor apropiado para el parámetro de rango ε < displaystyle varepsilon>, y produce un resultado jerárquico relacionado con el de la agrupación de enlaces. DeLi-Clu, [15] Density-Link-Clustering combina ideas de clustering de enlace único y OPTICS, eliminando el parámetro ε < displaystyle varepsilon> por completo y ofreciendo mejoras de rendimiento sobre OPTICS mediante el uso de un índice de árbol R.

El principal inconveniente de DBSCAN y OPTICS es que esperan algún tipo de caída de densidad para detectar los bordes de los conglomerados. En conjuntos de datos con, por ejemplo, distribuciones gaussianas superpuestas, un caso de uso común en datos artificiales, los bordes del grupo producidos por estos algoritmos a menudo parecerán arbitrarios, porque la densidad del grupo disminuye continuamente. En un conjunto de datos que consta de mezclas de gaussianos, estos algoritmos casi siempre son superados por métodos como el agrupamiento EM que son capaces de modelar con precisión este tipo de datos.

El desplazamiento medio es un enfoque de agrupamiento en el que cada objeto se mueve al área más densa en su vecindad, según la estimación de la densidad del kernel. Finalmente, los objetos convergen hacia los máximos locales de densidad. De manera similar al agrupamiento de k-medias, estos "atractores de densidad" pueden servir como representantes del conjunto de datos, pero el desplazamiento medio puede detectar grupos de formas arbitrarias similares a DBSCAN. Debido al costoso procedimiento iterativo y la estimación de la densidad, el desplazamiento medio suele ser más lento que DBSCAN o k-Means. Además de eso, la aplicabilidad del algoritmo de desplazamiento medio a los datos multidimensionales se ve obstaculizada por el comportamiento irregular de la estimación de la densidad del kernel, que da como resultado una fragmentación excesiva de las colas de los grupos. [15]

Agrupación basada en densidad con DBSCAN.

DBSCAN asume clústeres de densidad similar y puede tener problemas para separar los clústeres cercanos.

OPTICS es una variante de DBSCAN, que mejora el manejo de clústeres de diferentes densidades

Agrupación en clústeres basada en cuadrículas Editar

La técnica basada en cuadrículas se utiliza para un conjunto de datos multidimensionales. [16] En esta técnica, creamos una estructura de cuadrícula y la comparación se realiza en cuadrículas (también conocidas como celdas). La técnica basada en cuadrículas es rápida y tiene baja complejidad computacional. Hay dos tipos de métodos de agrupación en clústeres basados ​​en cuadrículas: STING y CLIQUE. Los pasos involucrados en el algoritmo de agrupación en clústeres basado en cuadrícula son:

  1. Divida el espacio de datos en un número finito de celdas.
  2. Seleccione aleatoriamente una celda "c", donde c no se debe atravesar de antemano.
  3. Calcule la densidad de "c"
  4. Si la densidad de "c" es mayor que la densidad umbral
    1. Marque la celda "c" como un nuevo grupo
    2. Calcule la densidad de todos los vecinos de "c"
    3. Si la densidad de una celda vecina es mayor que la densidad umbral, agregue la celda en el grupo y repita los pasos 4.2 y 4.3 hasta que no haya un vecino con una densidad mayor que la densidad umbral.

    Desarrollos recientes Editar

    En los últimos años, se ha realizado un esfuerzo considerable para mejorar el rendimiento de los algoritmos existentes. [17] [18] Entre ellos se encuentran CLARANOS, [19] y ABEDUL. [20] Con la reciente necesidad de procesar conjuntos de datos cada vez más grandes (también conocidos como big data), la disposición a intercambiar el significado semántico de los clústeres generados por el rendimiento ha ido en aumento. Esto llevó al desarrollo de métodos de agrupamiento previo, como el agrupamiento de dosel, que puede procesar grandes conjuntos de datos de manera eficiente, pero los "grupos" resultantes son simplemente una partición previa aproximada del conjunto de datos para luego analizar las particiones con métodos más lentos existentes, como como agrupación de k-medias.

    Para datos de alta dimensión, muchos de los métodos existentes fallan debido a la maldición de la dimensionalidad, lo que hace que las funciones de distancia particulares sean problemáticas en espacios de alta dimensión. Esto llevó a nuevos algoritmos de agrupación en clústeres para datos de alta dimensión que se centran en la agrupación subespacial (donde solo se utilizan algunos atributos y los modelos de agrupación incluyen los atributos relevantes para la agrupación) y agrupaciones de correlación que también buscan subespacios rotados arbitrariamente ("correlacionados"). conglomerados que pueden modelarse dando una correlación de sus atributos. [21] Ejemplos de tales algoritmos de agrupamiento son CLIQUE [22] y SUBCLU. [23]

    Las ideas de los métodos de agrupación basados ​​en densidad (en particular la familia de algoritmos DBSCAN / OPTICS) se han adaptado a la agrupación subespacial (HiSC, [24] agrupación subespacial jerárquica y DiSH [25]) y agrupación de correlación (HiCO, [26] correlación jerárquica agrupación, 4C [27] utilizando "conectividad de correlación" y ERiC [28] explorando agrupaciones de correlación jerárquicas basadas en densidad).

    Se han propuesto varios sistemas de agrupación diferentes basados ​​en información mutua. Uno es de Marina Meilă variación de información métrica [29] otro proporciona agrupamiento jerárquico. [30] Utilizando algoritmos genéticos, se puede optimizar una amplia gama de diferentes funciones de ajuste, incluida la información mutua. [31] También la propagación de creencias, un desarrollo reciente en ciencias de la computación y física estadística, ha llevado a la creación de nuevos tipos de algoritmos de agrupamiento. [32]

    La evaluación (o "validación") de los resultados de la agrupación es tan difícil como la agrupación en sí. [33] Los enfoques populares implican "interno"evaluación, donde la agrupación se resume en una única puntuación de calidad",externo"evaluación, donde la agrupación se compara con una clasificación existente de" verdad fundamental ","manual"evaluación por un experto humano, y"indirecto"evaluación mediante la evaluación de la utilidad de la agrupación en su aplicación prevista. [34]

    Las medidas de evaluación interna adolecen del problema de que representan funciones que en sí mismas pueden considerarse un objetivo de agrupamiento. Por ejemplo, se podría agrupar el conjunto de datos por el coeficiente de silueta, excepto que no existe un algoritmo eficiente conocido para esto. Al utilizar una medida interna de este tipo para la evaluación, uno compara más bien la similitud de los problemas de optimización, [34] y no necesariamente la utilidad de la agrupación.

    La evaluación externa tiene problemas similares: si tenemos tales etiquetas de "verdad fundamental", entonces no necesitaríamos agrupar y en aplicaciones prácticas generalmente no tenemos tales etiquetas. Por otro lado, las etiquetas solo reflejan una posible partición del conjunto de datos, lo que no implica que no exista una agrupación diferente, y tal vez incluso mejor.

    Por lo tanto, ninguno de estos enfoques puede juzgar en última instancia la calidad real de una agrupación, pero esto requiere una evaluación humana, [34] que es muy subjetiva. Sin embargo, tales estadísticas pueden ser bastante informativas para identificar agrupaciones malas, [35] pero no se debe descartar la evaluación humana subjetiva. [35]

    Evaluación interna Editar

    Cuando un resultado de agrupación en clúster se evalúa en función de los datos que se agruparon en sí, esto se denomina evaluación interna. Estos métodos generalmente asignan la mejor puntuación al algoritmo que produce clústeres con alta similitud dentro de un clúster y baja similitud entre clústeres. Un inconveniente de utilizar criterios internos en la evaluación de conglomerados es que los puntajes altos en una medida interna no necesariamente dan como resultado aplicaciones efectivas de recuperación de información. [36] Además, esta evaluación está sesgada hacia algoritmos que utilizan el mismo modelo de clúster. Por ejemplo, la agrupación de k-medias optimiza naturalmente las distancias de los objetos, y un criterio interno basado en la distancia probablemente sobrevalorará la agrupación resultante.

    Por lo tanto, las medidas de evaluación interna son las más adecuadas para obtener una idea de situaciones en las que un algoritmo funciona mejor que otro, pero esto no implica que un algoritmo produzca resultados más válidos que otro. [5] La validez medida por dicho índice depende de la afirmación de que este tipo de estructura existe en el conjunto de datos. Un algoritmo diseñado para algún tipo de modelos no tiene ninguna posibilidad si el conjunto de datos contiene un conjunto de modelos radicalmente diferente, o si la evaluación mide un criterio radicalmente diferente. [5] Por ejemplo, la agrupación de k-medias solo puede encontrar agrupaciones convexas, y muchos índices de evaluación asumen agrupaciones convexas. En un conjunto de datos con clusters no convexos ni el uso de k-medios, ni de un criterio de evaluación que asume convexidad, es acertado.

    Existen más de una docena de medidas de evaluación interna, generalmente basadas en la intuición de que los elementos del mismo grupo deberían ser más similares que los elementos de diferentes grupos. [37]: 115-121 Por ejemplo, los siguientes métodos se pueden utilizar para evaluar la calidad de los algoritmos de agrupación en clústeres según un criterio interno:

    Evaluación externa Editar

    En la evaluación externa, los resultados de la agrupación en clústeres se evalúan en función de los datos que no se utilizaron para la agrupación, como las etiquetas de clase conocidas y los puntos de referencia externos. Dichos puntos de referencia consisten en un conjunto de elementos preclasificados, y estos conjuntos a menudo son creados por humanos (expertos). Por lo tanto, los conjuntos de puntos de referencia pueden considerarse un estándar de oro para la evaluación. [33] Estos tipos de métodos de evaluación miden qué tan cerca está el agrupamiento de las clases de referencia predeterminadas. Sin embargo, recientemente se ha discutido si esto es adecuado para datos reales, o solo en conjuntos de datos sintéticos con una verdad de base fáctica, ya que las clases pueden contener estructura interna, los atributos presentes pueden no permitir la separación de grupos o las clases pueden contener anomalías. [39] Además, desde el punto de vista del descubrimiento del conocimiento, la reproducción del conocimiento conocido puede no ser necesariamente el resultado esperado. [39] En el escenario especial de agrupamiento restringido, donde la metainformación (como etiquetas de clase) ya se usa en el proceso de agrupamiento, la retención de información para propósitos de evaluación no es trivial. [40]

    Varias medidas se adaptan de las variantes utilizadas para evaluar las tareas de clasificación. En lugar de contar el número de veces que una clase se asignó correctamente a un solo punto de datos (conocido como verdaderos positivos), tales par contando Las métricas evalúan si se predice que cada par de puntos de datos que está realmente en el mismo grupo estará en el mismo grupo. [33]

    Al igual que con la evaluación interna, existen varias medidas de evaluación externa [37]: 125-129, por ejemplo:

    • Pureza: La pureza es una medida del grado en que los grupos contienen una sola clase. [36] Su cálculo se puede pensar de la siguiente manera: Para cada grupo, cuente el número de puntos de datos de la clase más común en dicho grupo. Ahora tome la suma de todos los grupos y divida por el número total de puntos de datos. Formalmente, dado un conjunto de clústeres M < displaystyle M> y algún conjunto de clases D < displaystyle D>, ambos con particiones N < displaystyle N> puntos de datos, la pureza se puede definir como:
    • Índice Rand[41]

    Un problema con el índice Rand es que los falsos positivos y los falsos negativos se ponderan por igual. Esta puede ser una característica indeseable para algunas aplicaciones de agrupamiento. La medida F aborda esta preocupación, [ cita necesaria ] al igual que el índice Rand ajustado corregido por azar.

    • Medida F
    • Índice de Jaccard
    • Índice de dados
    • Índice Fowlkes-Mallows[42]
    • El información mutua es una medida teórica de la información de cuánta información se comparte entre un agrupamiento y una clasificación de verdad fundamental que puede detectar una similitud no lineal entre dos agrupamientos. La información mutua normalizada es una familia de variantes corregidas por azar de esto que tiene un sesgo reducido para los números de conglomerados variables. [33]
    • Matriz de confusión

    Tendencia de clúster Editar

    Medir la tendencia de los conglomerados es medir hasta qué punto existen conglomerados en los datos que se van a agrupar, y se puede realizar como prueba inicial, antes de intentar la agrupación. Una forma de hacer esto es comparar los datos con datos aleatorios. En promedio, los datos aleatorios no deben tener agrupaciones.


    Grupos de cáncer

    Obtenga más información sobre el trabajo de los CDC / ATSDR y rsquos para actualizar las pautas para evaluar y responder a posibles grupos de cáncer.

    A racimo de cáncer se define como una cantidad mayor de lo esperado de casos de cáncer que ocurren dentro de un grupo de personas en un área geográfica durante un período de tiempo. Consulte Acerca de los grupos de cáncer para obtener más información.

    Los departamentos de salud locales o estatales, junto con los registros de cáncer, responden a las preguntas del grupo de cáncer y tienen los datos locales más actualizados. Si sospecha que hay un grupo de cáncer en su comunidad o lugar de trabajo, o si desea información como estadísticas o tendencias del cáncer en su área, primero comuníquese con su departamento de salud local o estatal o con el registro de cáncer estatal.

    Cuando las personas se comunican con los CDC con inquietudes sobre un posible grupo de cáncer, los CDC brindan información general sobre los grupos de cáncer y los remiten al departamento de salud local o estatal o al registro de cáncer correspondiente. Los CDC también brindan asesoramiento técnico a los estados según lo soliciten y desarrollan orientación para los departamentos de salud estatales, territoriales, locales y tribales sobre cómo responder a las inquietudes de los grupos de cáncer.


    Disponibilidades

    La carga de trabajo del estudiante para esta asignatura de 3 créditos es de aproximadamente 130 horas.

    • 26 horas de conferencias (didácticas o interactivas)
    • 26 horas prácticas
    • evaluación y estudio autodirigido

    La carga de trabajo del estudiante para esta asignatura de 3 créditos es de aproximadamente 130 horas.

    La carga de trabajo del estudiante para esta asignatura de 3 créditos es de aproximadamente 130 horas.

    • 26 horas de conferencias (didácticas o interactivas)
    • 26 horas prácticas
    • evaluación y estudio autodirigido

    Nota: Pueden producirse variaciones menores debido al proceso continuo de mejora de la calidad de la asignatura y, en caso de variaciones menores en los detalles de la evaluación, el esquema de la asignatura representa la información oficial más reciente.


    Resultados del programa

    • Describir los conceptos fundamentales y la terminología de SIG.
    • Analice el papel de los SIG en los negocios, el gobierno, la topografía y los recursos naturales.
    • Cree y manipule datos usando ArcView
    • Explicar los principios y aplicaciones de la teledetección.
    • Analice los fundamentos de los sistemas de posicionamiento global (GPS), incluida la historia y las aplicaciones.
    • Utilice MS Access para crear y manipular datos mediante tablas, consultas, formularios y bases de datos relacionales.
    • Diseñar y mantener un Sistema de Información Geográfica.
    • Analice los tipos y variaciones de la cartografía de Internet.

    Ciencias de la información geoespacial

    Nuestros títulos de pregrado y posgrado y nuestros programas de certificación en Ciencias de la Información Geoespacial preparan a los estudiantes para trabajar en un campo de rápido crecimiento que implica el uso de tecnología para recopilar, almacenar, administrar y analizar datos geográficos. Los estudiantes adquieren habilidades utilizando tecnologías que incluyen sistemas de información geográfica (GIS), sistema de posicionamiento global (GPS) y detección remota basada en satélites.

    El programa de Ciencias de la Información Geoespacial ocupó el primer lugar en la nación en Ciencias GIS / Computación y Análisis espacial / Estadísticas por perspectivas geográficas. La Agencia Nacional de Inteligencia Geoespacial y el Servicio Geológico de EE. UU. Designaron al programa como Centro de Excelencia Académica, el único en Texas y uno de los 17 a nivel nacional, y el Instituto de Investigación de Ciencias Ambientales (ESRI) lo nombró uno de sus centros de desarrollo. Nuestra facultad incluye destacados expertos en el campo e investigadores pioneros en Ciencias de la Información Geoespacial.

    Los estudiantes tienen la oportunidad de adquirir experiencia a través de pasantías, investigación y participación en organizaciones estudiantiles. El programa también ofrece becas y becas a través de una asociación con Pioneer Natural Resources.


    Disponibilidades

    La carga de trabajo del estudiante para esta asignatura de 3 créditos es de aproximadamente 130 horas.

    • 26 horas de conferencias (didácticas o interactivas)
    • 26 horas prácticas
    • evaluación y estudio autodirigido

    La carga de trabajo del estudiante para esta asignatura de 3 puntos de crédito es de aproximadamente 130 horas.

    La carga de trabajo del estudiante para esta asignatura de 3 créditos es de aproximadamente 130 horas.

    • 26 horas de conferencias (didácticas o interactivas)
    • 26 horas prácticas
    • evaluación y estudio autodirigido

    Nota: Es posible que se produzcan variaciones menores debido al proceso continuo de mejora de la calidad de la asignatura y, en caso de variaciones menores en los detalles de la evaluación, el esquema de la asignatura representa la información oficial más reciente.


    Troncos y colmillos

    Las orejas de elefante irradian calor para ayudar a mantener frescos a estos grandes animales, pero a veces el calor africano es demasiado. A los elefantes les gusta el agua y disfrutan de la ducha succionando agua en sus trompas y rociándola sobre sí mismos. Posteriormente, a menudo se rocían la piel con una capa protectora de polvo.

    An elephant's trunk is actually a long nose used for smelling, breathing, trumpeting, drinking, and also for grabbing things—especially a potential meal. The trunk alone contains about 40,000 muscles. African elephants have two fingerlike features on the end of their trunk that they can use to grab small items. (Asian elephants have just one.)

    Both male and female African elephants have tusks, which are continuously growing teeth. Savanna elephants have curving tusks, while the tusks of forest elephants are straight. They use these tusks to dig for food and water and strip bark from trees. Males, whose tusks tend to be larger than females', also use their tusks to battle one another.

    Elephants eat roots, grasses, fruit, and bark. An adult elephant can consume up to 300 pounds of food in a single day. These hungry animals do not sleep much, roaming great distances while foraging for the large quantities of food that they require to sustain their massive bodies.

    African elephants range throughout the savannas of sub-Saharan Africa and the rainforests of Central and West Africa. The continent’s northernmost elephants are found in Mali’s Sahel Desert. The small, nomadic herd of Mali elephants migrates in a circular route through the desert in search of water.

    Because elephants eat so much, they’re increasingly coming into contact with humans. An elephant can destroy an entire season of crops in a single night. A number of conservation programs work with farmers to help them protect their crops and provide compensation when an elephant does raid them.


    Informática, medio ambiente y sistemas urbanos

    Informática, medio ambiente y sistemas urbanos is an interdisciplinary journal publishing cutting-edge and innovative computer-based research en urban systems, systems of cities, and built and natural environments , that privileges the geoespacial perspectiva. The journal provides a stimulating presentation.

    Informática, medio ambiente y sistemas urbanos is an interdisciplinary journal publishing cutting-edge and innovative computer-based research en urban systems, systems of cities, and built and natural environments , that privileges the geoespacial perspectiva. The journal provides a stimulating presentation of perspectives, research developments, overviews of important new technologies and uses of major computational, information-based, and visualization innovations. Applied and theoretical contributions demonstrate the scope of computer-based analysis fostering a better understanding of urban systems, the synergistic relationships between built and natural environments, their spatial scope and their dynamics.

    Application areas include infrastructure and facilities management, physical planning and urban design, land use and transportation, business and service planning, coupled human and natural systems, urban planning, socio-economic development, emergency response and hazards, and land and resource management. Examples of methodological approaches include decision support systems, geocomputation, spatial statistical analysis, complex systems and artificial intelligence, visual analytics and geovisualization, ubiquitous computing, and space-time simulation.

    Contributions emphasizing the development and enhancement of computer-based technologies for the analysis and modeling, policy formulation, planning, and management of environmental and urban systems that enhance sustainable futures are especially sought. The journal also encourages research on the modalities through which information and other computer-based technologies mold environmental and urban systems.

    Audience:
    Urban and regional planners and policy analysts, environmental planners, economic geographers, geospatial information scientists and technologists, regional scientists and policy makers, architectural designers.