Problems |
---|
Clustering |
Dimensionality reduction |
Structured prediction |
Anomaly detection |
Neural nets |
Theory |
El análisis de agrupamiento o clustering es la tarea de agrupar un conjunto de objetos de tal manera que los objetos en el mismo grupo (llamado acluster) son más similares (en un sentido u otro) entre sí que a las de otros grupos (clusters). Es una tarea principal de la minería de datos de exploración, y una técnica común para el análisis de datos estadísticos, que se utiliza en muchos campos, incluyendo el aprendizaje automático, reconocimiento de patrones, análisis de imágenes, recuperación de información, y la bioinformática.
El análisis de conglomerados en sí no es un algoritmo específico, pero la tarea general que hay que resolver. Se puede lograr por diversos algoritmos que difieren significativamente en su noción de lo que constituye un clúster y cómo encontrar de manera eficiente. Nociones populares de grupos incluyen grupos con pequeñas distancias entre los miembros del clúster, áreas densas del espacio de datos, intervalos o particulares distribuciones estadísticas. Por lo tanto Clustering puede formularse como un problema de optimización multi-objetivo. La configuración del algoritmo de agrupamiento y de parámetros apropiados (incluidos los valores tales como la función de distancia de usar, un umbral de densidad o el número de grupos esperados) dependen del conjunto de datos individuales y el uso de los resultados previstos. El análisis de conglomerados, como tal, no es una tarea automática, sino un proceso iterativo de descubrimiento de conocimiento o la optimización multi-objetivo interactiva que implica el juicio y el fracaso. A menudo será necesario modificar los parámetros de preprocesamiento y modelo de datos hasta que el resultado alcanza las propiedades deseadas.
Además el término agrupación, hay una serie de términos con significados similares, incluyendo la clasificación automática, taxonomía numérica, botryology (del griego βότρυς "uva") y el análisis tipológico. Las sutiles diferencias son a menudo en el uso de los resultados: mientras que en la minería de datos, los grupos resultantes son el asunto de interés, en la clasificación automática el poder discriminativo resultante es de interés. Esto conduce a menudo a malentendidos entre los investigadores procedentes de los campos de la minería de datos y aprendizaje automático, ya que utilizar los mismos términos y con frecuencia los mismos algoritmos, pero tienen diferentes objetivos.
El análisis de conglomerados se originó en antropología por el conductor y Kroeber en 1932 y se presentó a la psicología por Zubin en 1938 andRobert Tryon en 1939] y famoso utilizado por Cattell a partir de 1943 para la clasificación teoría de los rasgos de la psicología de la personalidad.
ver más: https://en.wikipedia.org/wiki/Cluster_analysis
No comments:
Post a Comment