27/4/24

GENERALIDADES SOBRE ANÁLISIS DE CONGLOMERADOS O CLUSTERING



El Análisis de Clúster, también conocido como clustering o análisis de conglomerados, es una técnica multivariada y de aprendizaje no supervisado, que clasifica elementos en grupos homogéneos llamados clústeres o conglomerados; su objetivo principal es identificar estructuras o patrones naturales en los datos y organizar la información en categorías basadas en similitudes.

Este método es descriptivo y no inferencial por lo que no se realiza inferencias estadísticas mediante muestras, tampoco es necesario tener categorías predefinidas, convirtiéndolo en una herramienta exploratoria ideal para entender aquellos datos complejos. Para saber qué tan similares o diferentes son los elementos, utiliza criterios como la distancia euclidiana, correlación y selección de algoritmos de clasificación adecuados; los grupos obtenidos deben mostrar alta homogeneidad interna (los elementos dentro de un clúster son lo más similares posible) y gran heterogeneidad externa (los elementos entre clústeres son lo más diferentes posible); en contraste con otras técnicas como el análisis factorial que reduce el número de variables, el análisis de clúster, agrupa observaciones o casos.

El clustering permite identificar tendencias y validar hipótesis, las soluciones dependen del conjunto de variables y el método utilizado, lo que afecta significativamente a los resultados por lo que no siempre son definitivos; aun así, esta herramienta es útil para explorar e interpretar datos, encontrar patrones y apoyar decisiones informadas. Se utiliza ampliamente en muchas disciplinas como en marketing para segmentar clientes, en biología para clasificar genes, en investigación de mercados, en aprendizaje automático, en reconocimiento de patrones, etc.


¿QUÉ ES UN CLÚSTER? 

Se llama clúster al conjunto de elementos u objetos que tienen características similares entre sí, pero que son diferentes a elementos de otros grupos; para el análisis de datos, los clústeres son subconjuntos de datos homogéneos agrupados por su similitud y distancia que están dentro de un conjunto de datos más grande, entonces, un clúster es una unidad formada por elementos más pequeños que tienen su propia identidad y que al agruparse, presentan características comunes que facilitan su clasificación y análisis.


 

TIPOS DE CLÚSTERES

Los tipos de clústeres se clasifican según las características de los datos y del enfoque de agrupamiento:

1. Según forma del clúster

- Clústeres esféricos. Los elementos se agrupan uniformemente alrededor de un punto central, siguiendo un patrón circular; esto se puede observar en algoritmos K-Means.

- Elípticos. Son clústeres alargados que se extienden en distintas direcciones, normalmente se asocian a datos que no tienen una distribución uniforme y se pueden detectar mediante modelos como los Gaussian Mixture Models o GMM.

- Arbitrarios o no convexos. Estos clústeres tienen formas irregulares y complejas ya sean curvas o  patrones no lineales, son detectados mediante DBSCAN y OPTICS.

- Clústeres superpuestos. Cuando la forma de los clústeres es difusa pues algunos elementos pertenecen a más de un clúster; se pueden reconocer utilizando técnicas de clustering difuso.
.


2. Según la densidad

- Densos. Los elementos en estos clústeres tienen una alta densidad en el espacio agrupándose de forma compacta, incluso cuando hay ruido; para su detección se utilizan los algoritmo basados en densidad como el DBSCAN.

- Dispersos. Los elementos en clústeres dispersos muestran una alta variabilidad; cuanto más dispersos están los datos, presentan una menor densidad, no obstante, los patrones son reconocibles y requieren de algoritmos que puedan manejar densidades bajas como el clustering jerárquico.


3. Según la naturaleza del clúster

- Homogéneos: Los elementos dentro de estos clústeres son muy similares, este patrón de agrupaciones es típico en los estudios de segmentación de mercados y en biología.

- Heterogéneos: Este tipo de clústeres presenta mayor variabilidad entre sus elementos, pero puede diferenciarse de otros clústeres.


4. Según el tamaño

- Clústeres equitativos: Todos los clústeres tienen tamaños muy similares, este tipo de clústeres suelen ser generados por K-Means.

- Clústeres desiguales: Cuando las agrupaciones de los datos son significativamente más grandes o más pequeñas que otros clústeres; puede verificarse con DBSCAN o clustering jerárquico, ya que no imponen restricciones.


5. Según el contexto de los datos

- Clústeres de objetos. En este caso, los clústeres son agrupaciones de personas, clientes, productos u otros objetos discretos, se usa mucho en segmentación de mercados.
 
- Clústeres de variables o atributos. Aquí, los clústeres son agrupaciones de características o atributos (en lugar de personas), puede observarse en investigación científica, determinando las relaciones entre diferentes variables.

- Clústeres temporales. se observan en clústeres de datos con componentes de temporalidad o en análisis de comportamientos a lo largo del tiempo (series temporales).

 


EL ALGORITMO DE FLOCKING

 


El algoritmo de Flocking se refiere a la simulación del movimiento colectivo de entidades autopropulsadas (que se desplazan de manera autónoma), tomando como base el comportamiento de rebaños de animales en la naturaleza, como bandadas de aves, cardúmenes de peces, enjambres de insectos o grupos de bacterias; este modelo no requiere una coordinación central, ya que las acciones generales resultan de reglas locales aplicados por los individuos. Este fenómeno fue explicado por primera vez en 1987 por Craig Reynolds en su programa "Boids" (bird-oid object), donde se representan unos agentes que se mueven siguiendo tres principios fundamentales: separación (evitar colisiones), alineación (sincronizar la dirección con los vecinos) y cohesión (dirigirse hacia el centro del grupo); gracias a esta lógica, las aves pueden adaptar su vuelo en función de los movimientos de sus compañeras, logrando así que las bandadas se desplacen de manera sincronizada y fluida; este trabajo fue formalizado en el artículo "Flocks, Herds, and Schools: A Distributed Behavioral Model" y sentó las bases de modelos computacionales bioinspirados.

En clustering, el algoritmo de flocking se aplica en el agrupamiento de datos con un enfoque basado en agentes, donde cada agente es un punto de datos que se visualiza como un "boid" interactuando con sus vecinos más cercanos, lo que da lugar a agrupaciones autoorganizadas; a diferencia de métodos como k-means, este enfoque no necesita semillas iniciales ni particiones predefinidas, además, permite trabajar con datos en alta dimensión al proyectarlos en una cuadrícula bidimensional, facilitando así su visualización y recuperación.

Este algoritmo, además de ser clasificado como basado en agentes, también se relaciona con algoritmos de clustering dinámico, en este caso, los grupos de agentes pueden formarse, disolverse y reorganizarse de manera dinámica dependiendo de las interacciones y del entorno; asimismo, podemos considerarlo un algoritmo evolutivo y natural, ya que se inspira en el comportamiento natural de aves, peces, etc; por último, es un algoritmo distribuido, dado que cada agente toma decisiones de manera independiente, basadas en información local.


REGLAS DEL FLOCKING

1. Separación: Los agentes evitan acercarse a otros agentes, ya que podrían ocurrir colisiones.
 


2. Alineación: Los agentes alinean su dirección de movimiento con la dirección media de sus vecinos.


 

3. Cohesión: Los agentes tienden a dirigirse hacia el centro de masa de sus vecinos, para agruparse.


Otras reglas opcionales son:

4. Límites del entorno: Evitar que los agentes salgan del área definida.

5. Evitar obstáculos: Adaptar la trayectoria con el fin de esquivar obstáculos en el entorno.

APUNTES SOBRE LA TEORÍA DE LA INFORMACIÓN

 
 
 

 

La teoría de la información también denominada teoría matemática de la comunicación, es un área de la matemática informática y la probabilidad matemática, que estudia el procesamiento de los datos al transmitir información mediante un mensaje, desde un emisor hasta un receptor a través de un determinado canal; en este sentido, estudia la capacidad que tienen los sistemas de comunicación para procesar e intercambiar información de manera sistemática, midiéndola y representándola. La teoría de la información fue propuesta en 1949 por Claude Shannon y Warren Weaver, con aportes previos de Markovi y Hartley y posteriores como el de Alan Turing; los estudios dedicados a este campo del conocimiento tienen el objetivo de mejorar los canales de comunicación para enviar mensajes sin afectar su calidad.


¿Quiénes son Shannon y Weaver?

Claude Elwood Shannon (30 de abril de 1916, Petoskey, Míchigan, EE.UU.  24 de febrero del 2001, Medford, Massachusetts). Fue un ingeniero eléctrico y matemático, denominado el "padre de la teoría de la información", realizó sus estudios de matemáticas y electrónica en la Universidad de Michigan, alcanzando grado de doctor en 1940 en el Instituto de Tecnología de Massachusetts. En 1948, publicó su artículo "A Mathematical Theory of Communication", en el que se consideraron las bases de la teoría de la información, llegando a entender cuánta información tiene el mensaje transmitido por un canal, también para resolver diferentes tipos de problemas en un sistema, como por ejemplo mejorar la fiabilidad de las comunicaciones.

En su obra, Shannon logra transformar la percepción de la información introduciendo métodos matemáticos para analizar su cuantificación en bits y estudiar la probabilidad de distorsión, redundancia y ruido en la comunicación. También establece el teorema del muestreo, dejando claro que todas las fuentes de información se pueden medir y que cada canal tiene una capacidad máxima para una determinada transmisión. Las aportaciones de Shannon también se extienden a la teoría de la criptografía, la computación y la inteligencia artificial.


 

Warren Weaver (Reedsburg, Wisconsin, EE.UU., 17 de julio de 1894 - New Milford, Connecticut, 24 de noviembre de 1978). Fue un científico estadounidense que trabajo en diversas disciplinas como matemáticas, física y biología así como en la traducción automática, estudió en la Universidad de Wisconsin-Madison y trabajó en la Fundación Rockefeller y en Instituto Sloan-Kettering para la Investigación del Cáncer. Warren Weaver es reconocido por su colaboración con Claude Shannon en la formulación de la teoría matemática de la comunicación, pues la amplió al pasar del lenguaje de las máquinas a la comunicación en general, juntos crearon el esquema lineal de la comunicación: fuente-codificador-canal-descodificador-destino. Este modelo permitió una mejor comprensión de la función de los medios y los filtros técnicos en la comunicación.



Principales objetivos de la Teoría de la Información

- Calcular la cantidad de información que podemos obtener de un conjunto de datos.
- Desarrollar métodos adecuados para almacenar, procesar y transmitir información.
- Estudiar la transmisión de la información a través de un canal de comunicación, teniendo en cuenta el ruido y otras perturbaciones.
- Lograr la máxima transferencia de información minimizando la redundancia.
- Desarrollar algoritmos y técnicas de compresión de datos para almacenar información compacta, conservando su validez.
- Asegurar la seguridad y confiabilidad de los sistemas de comunicación.
- Aplicar los principios de la teoría de la información en campos como la ingeniería de las comunicaciones, la criptografía, la compresión de datos, la inteligencia artificial, la biología, etc.

Elementos - Modelo de Shannon y Weaver

El modelo de Shannon-Weaver, conocido también como el modelo lineal de la comunicación principalmente consta de los siguientes elementos:

 

TEST MOSS DE ADAPTABILIDAD SOCIAL

 


 

El Test de Moss es una prueba psicométrica desarrollada por Rudolf y Berenice Moss, consta de 30 preguntas elaboradas para identificar y calificar diversas habilidades sobre liderazgo, destacando entre ellas, la adaptabilidad social (que mide la capacidad para relacionarse en diversos entornos laborales), las habilidades blandas (como la comunicación y la formulación de objetivos) y los estilos de liderazgo (que evalúan enfoques que contribuyen positivamente en el funcionamiento de equipos y objetivos organizacionales). Este test tiene como objetivo facilitar la identificación de líderes en potencia y proporcionar datos sobre su desempeño actual así como los aspectos a mejorar.

El Test de Moss es ampliamente utilizado en los procesos de selección de vacantes para los niveles gerencial, supervisión y/o dirección; las empresas de reclutamiento o headhunters lo utilizan para detectar líderes que tengan la capacidad para influir positivamente en los equipos, verificar el encaje entre el perfil de los candidatos y las demandas específicas del puesto; entonces, esta herramienta sirve para mejorar el proceso de búsqueda tanto del talento interno como externo.

Para mejorar su eficacia, sea en la valoración de talentos como en el seguimientos de los mismos, el Test de Moss puede complementarse con otros recursos cuantitativos, cualitativos, tecnológicos, etc.,  estableciendo planes de desarrollo individual y de equipo, para fijar objetivos y fomentar el feedback entre líderes y colaboradores.


ESCALAS O ÁREAS DE MEDICIÓN
 

1. Habilidades de supervisión. Este área mide la capacidad de un líder para dirigir y monitorear el desempeño de su equipo; un buen líder se asegura de que las tareas se hagan bien pero sin ser controlador ni afectar la confianza de los demás, logrando que el equipo se sienta motivado y comprometido con el trabajo.

2. Capacidad de decisión en las Relaciones Humanas. Se examinan las habilidades para asignar tareas, establecer estrategias y resolver problemas que pueden afectar al equipo; un líder en este área aborda los conflictos de manera constructiva y promueve la cohesión y el bienestar del equipo, asegurando un equilibrio entre la productividad y las necesidades humanas de sus integrantes.  

3. Capacidad de evaluación de Problemas Interpersonales. Se centra en la capacidad de analizar y resolver situaciones conflictivas o problemáticas dentro del equipo, por medio de la escucha, el análisis de la situación y la comunicación clara; los líderes en este área son capaces de transformar desafíos en oportunidades y promover relaciones saludables y un clima laboral positivo.  

4. Habilidad para establecer Relaciones Interpersonales. Mide la capacidad que tiene el líder para generar confianza, empatía y buenas relaciones con los miembros del equipo, logrando que las personas se sientan valoradas y, en consecuencia, comprometidas con los objetivos de la organización.  

5. Sentido común y tacto en las Relaciones Interpersonales. Mide la capacidad para manejar situaciones complejas con sensibilidad, ética y respeto; los líderes que sobresalen en este área poseen una intuición aguda para entender las dinámicas humanas y toman decisiones equilibradas que benefician tanto al individuo como al grupo.  


CARACTERÍSTICAS

- Título: Test de Moss (Cuestionario de Adaptabilidad de Moss)

- Autor: Rudolf H. Moss y Berenice L. Moss

- Origen: Universidad de Stanford, Estados Unidos, 1979 (adaptado al español en 1989).

- Objetivo: Evaluar la adaptabilidad social y las habilidades para manejo de supervisión y relaciones interpersonales.

- Número de ítems: 30 con cuatro alternativas de respuesta cada una.

- Administración: Individual y colectiva.

- Duración: aproximadamente 20 - 30 minutos


ESCALAS Y/O ÁREAS DE EVALUACIÓN

Las escalas o áreas de evaluación están compuestas por los siguientes ítems:

 

RONALD FISHER

 


 

Ronald Aylmer Fisher (Londres, Reino Unido, 17 de febrero de 1890 - Adelaida, Australia, 29 de julio de 1962)

Ronald Fisher fue un destacado estadístico, genetista y biólogo evolutivo de nacionalidad británica, considerado uno de los pioneros de la estadística moderna y la genética de poblaciones. Introdujo el uso de la estadística en genética y biomatemáticas, integrando las matemáticas para combinar las leyes de Mendel con la teoría darwinista, respecto a que la evolución puede explicarse mediante la selección natural, contribuyendo con ello al inicio de la síntesis evolutiva moderna. Fisher desarrolló diversos métodos estadísticos, como las pruebas de hipótesis, el análisis de varianza (ANOVA), el diseño experimental, la estimación de los parámetros, etc.

Desde muy joven, Fisher mostró un talento notable para las matemáticas a pesar de su miopía, desarrolló una gran habilidad para resolver problemas mediante cálculos mentales, indicando que las soluciones se visualizaban en su mente en forma geométrica, antes de materializarlas en lápiz y papel, fue su madre quién estimuló su talento leyéndole libros sobre astronomía. Con 14 años, Fisher fue admitido en Harrow School y posteriormente fue admitido en Gonville and Caius College de la Universidad de Cambridge, donde estudió matemáticas, obteniendo una calificación con honores en el año 1912.

Entre los años 1913 y 1919, Fisher trabajó como estadístico en Londres, al mismo tiempo que se dedicó a ser profesor de física y matemáticas en varios colegios de educación secundaria; en este periodo, Fisher fue desarrollando sus ideas en estadística y genética en un texto que fue publicado en 1918 con el título de "The Correlation Between Relatives on the Supposition of Mendelian Inheritance", donde introdujo el concepto de varianza. En 1919 comenzó a trabajar en Rothamsted Research (una empresa agrícola dedicada a la experimentación), oportunidad que le sirvió para introducir una nueva forma de realizar experimentos con la información acumulada, dando lugar a una serie de publicaciones entre las que destacan "Statistical Methods for Research Workers" (1925) y "The Design of Experiments" (1935). En estos documentos, se fue creando el concepto de la hipótesis nula y el uso del p-valor, formalizando así la experimentación científica y al mismo tiempo sentando las bases matemáticas para reducir la varianza en los datos.

En 1929, Fisher fue seleccionado como miembro de la Royal Society y se le otorgaron galardones como la Medalla Copley y la Medalla Darwin-Wallace. en 1952, fue nombrado Caballero (Sir) por la reina Isabel II y, en 1959, se fue a vivir a Australia donde trabajó en estadística matemática en la Organización de Investigación Científica e Industrial de la Commonwealth (CSIRO). En 1962, falleció, a los 72 años, a causa de un cáncer colorrectal; lógicamente, este genio de las matemáticas, es recordado como uno de los científicos más influyentes del siglo XX; dejando una huella permamente en el ámbito de la estadística y la genética.



Referencias: (1), (2), (3), (4), (5), (6), (7).


INTRODUCCIÓN AL ANÁLISIS DE VARIANZA (ANOVA)



El Análisis de Varianza o Analysis of Variance (ANOVA) es una familia de métodos estadísticos utilizados para comparar las medias de tres o más grupos y determinar si existen diferencias significativas entre ellas, se basa en la comparación de la variabilidad entre y dentro de los grupos para establecer si al menos una de las medias es diferente, para el contraste de hipótesis se usa la prueba F. El objetivo principal del ANOVA es evaluar si la variabilidad de los datos se debe a la influencia de ciertos factores o se debe al azar.

El ANOVA fue desarrollado por Ronald Fisher en 1918, al introducir el término “varianza” en un artículo sobre genética de poblaciones, más adelante en 1925, incluye al análisis de varianza (ANOVA) en su libro Statistical Methods for Research Workers, donde compara de una manera eficiente a diversos grupos sin aumentar la probabilidad de error tipo I (falsos positivos), realizando múltiples pruebas t independientes. En 1935 publica y formaliza los principios de experimentación en su libro The Design of Experiments, posteriormente surgen aplicaciones a los campos de psicología, biología, agricultura e ingeniería.

Cabe indicar que el ANOVA es una extensión de la Prueba t para comparar más de dos grupos y en caso de encontrar diferencias significativas es necesario utilizar pruebas post-hoc para identificar qué grupos son distintos; como se mencionó, para el contraste de hipótesis en una prueba de ANOVA, se utiliza la distribución F que, dicho sea de paso, también fue desarrollada por Fisher.

 

CONCEPTOS CLAVE

- Factor: Variable independiente categórica.
- Nivel: Diferentes valores dentro de un factor.
- Varianza: Medida de dispersión de los datos.
- Estadístico F: Razón de la varianza entre grupos y la varianza dentro de grupos.
- p-valor: Probabilidad de que las diferencias observadas sean debidas al azar (por ejemplo si p < 0.05, se rechaza la hipótesis nula).
- Efecto de interacción: Cuando dos factores combinados, por separado, tienen un efecto diferente al esperado.
- Diseño de experimentos: También Design of Experiments (DOE), es una metodología de la estadística aplicada de recopilación y análisis de datos que permite estudiar la relación entre múltiples variables de entrada o factores y variables de salida o respuesta.

 

SUPUESTOS PREVIOS DEL ANOVA

- Normalidad: Los datos de los grupos deben tener una distribución normal y se puede comprobar a través de pruebas como Shapiro-Wilk o Kolmogorov-Smirnov.

- Homocedasticidad: O también, homogeneidad de varianzas, las varianzas de los grupos deben ser aproximadamente iguales, puede ser medido mediante pruebas como Levene, Brown-Forsythe, entre otros.

- Independencia: Las observaciones deben ser independientes entre sí, determinándose a partir del diseño del estudio.

En caso de incumplir alguno de estos supuestos, se pueden emplear pruebas alternativas como ANOVA de Welch, ANOVA no paramétrico Kruskal-Wallis, etc.


PROCEDIMIENTO BÁSICO PARA UN ANÁLISIS DE VARIANZA

1. Planteamiento del Problema 

- Definir la pregunta de investigación e identificar la variable dependiente o respuesta y la variable independiente o factor.
- Establecer las hipótesis estadísticas; por ejemplo para ANOVA de una vía:

Hipótesis nula (\(H_0\)): No hay diferencias significativas entre las medias de los grupos.  \(\mu_1=\mu_2=...=\mu_k\)
Hipótesis alternativa (\(H_1\)): Al menos una de las medias es diferente. \(μ_i≠μ_j\)


2. Diseño del experimento

- Determinar la asignación de los tratamientos y las unidades experimentales.
- Establecer el número de grupos y muestras por grupo, asegurando la aleatorización y control de factores externos.


3. Recopilación de datos

- Obtener las observaciones para cada grupo.
- Verificar la calidad de los datos y detectar valores atípicos.


4. Verificación de supuestos

- Normalidad.
- Homocedasticidad.
- Independencia.


5. Cálculo del ANOVA

- Determinar la variabilidad total y dividirla en variabilidad entre grupos (efecto del factor) y variabilidad dentro de los grupos (error aleatorio).

- Calcular el estadístico F:

\[F=\frac{\text{Variabilidad entre grupos}}{\text{Variabilidad dentro de los grupos}}\]
- Comparar el estadístico \(F\) con el valor \(F_{crítico}\) de la tabla F,

Si \(F_{calculado} > F_{crítico}\), se rechaza \(H_0\).
Si \(F_{calculado} ≤ F_{crítico}\), no se rechaza \(H_0\).

También se puede obtener el \(p\)-valor para determinar la significancia estadística.


6. Interpretación de resultados

Por ejemplo, si comparamos  \(p\)-valor con el nivel de significancia (p.e. \(\alpha\) = 0.05), entonces:

Si \(p ≤ 0.05\), se rechaza \(H_0\) y se concluye que hay diferencias significativas.
Si \(p > 0.05\), no se rechaza \(H_0\) y se concluye que no hay evidencia suficiente para afirmar diferencias.


7. Pruebas Post Hoc

Si concluimos que existen diferencias significativas, entonces aplicamos las pruebas post-hoc para identificar qué grupos difieren entre sí (por ejemplo pruebas de Tukey, Bonferroni, etc.).

GRÁFICO DE RADAR

 


El gráfico de radar, también llamado gráfico radial, gráfico de araña, gráfico de telaraña, gráfico polar, gráfico web, polígono irregular o diagrama de Kiviat, es una herramienta gráfica que permite visualizar datos multivariados en un plano bidimensional; las variable cuantitativas son representadas por ejes que parten desde un punto central y se distribuyen radialmente, manteniendo escalas iguales; los valores de las variables se unen formando un polígono, entonces la forma y extensión de este polígono permiten comparar diferentes dimensiones del conjunto de datos.

El gráfico de radar tiene un origen incierto, pero se le atribuye su desarrollo a Georg von Mayr, un estadístico alemán que en 1877 lo utilizó para representar ciertos tipos de datos; cabe indicar sin embargo, que en 1856, Florence Nightingale había usado ya, diagramas polares para ver estadísticas médicas. Este gráfico es ideal para identificar patrones, valores atípicos o similitudes entre variables; además, representa fortalezas y debilidades del rendimiento de productos, de equipos o de personas, utilizando un análisis sobre comparación de entidades y toma de decisiones; su aplicación puede darse en sectores como marketing, análisis de ventas, investigación, educación, etc. 

 

ELEMENTOS DE UN GRÁFICO DE RADAR

 - Ejes: Representan cada una de las variables o categorías que se evalúan, situándose cada eje desde el centro hacia el exterior de la gráfica de manera equidistante.

- Centro: Es el origen de todos los ejes de la gráfica, representa el valor mínimo (por lo general 0).

- Escala: Se utiliza para medir los valores de cada variable en cada eje; las escalas generalmente son uniformes en todos los ejes.

- Puntos de datos: Son las ubicaciones específicas de cada eje y representan el valor de una variable.

- Polígono de datos: Es el polígono que resulta de conectar los puntos de los datos de cada variable y que permite ver patrones, similitudes o diferencias existentes entre las variables; el área que se forma puede tener relleno de color o ser transparente.

- Variables o Dimensiones: Cada eje de la gráfica representa una variable, dimensión o indicador a evaluar, analizar o comparar.

- Líneas de referencia: Pueden formar círculos o polígonos que están unidos a los ejes de la gráfica radial, las que nos reflejan más claridad a la visualización o lectura de los valores (su uso es opcional).

- Leyenda: Se usa para poder identificar las categorías o series, sobre todo, cuando hay varios polígonos en la gráfica.



 

CONSTRUCCIÓN E INTERPRETACIÓN

- Definir las variables, categorías o dimensiones que se desea comparar, éstas deben ser cuantitativas y comparar entre 3 y 7 variables para mantener la claridad.
- Definir la escala estableciendo un rango uniforme de valores para todas las variables.
- Trazar los ejes radiales desde el centro y marcar los valores correspondientes a la escala.
- Escribir el nombre de cada variables al final de cada eje.
- Marcar el valor correspondiente al eje de cada variable y conectar los puntos con líneas para formar un polígono de datos.
- Personalizar usando colores o patrones para diferenciar las series de datos.
- Añadir etiquetas de leyenda.
- En la interpretación, para comparar variables se debe considerar que los valores cercanos al centro suelen ser más bajos y los valores alejados, indican mayor puntuación.  
- Identificar patrones, diferencias y similitudes observando la forma y extensión del polígono.  
- Buscar áreas del gráfico donde los valores sobresalgan o queden rezagados respecto al resto.  
- Relacionar las formas del polígono con el propósito del análisis, como rendimiento, calidad, comparaciones, entre otros.
 

POWER BI

 

Power BI es un software de análisis empresarial que permite generar paneles e informes interactivos de forma sencilla y oportuna, esta herramienta de inteligencia empresarial (business intelligence - BI) fue desarrollada por Microsoft. Como servicio analítico en la nube, se conecta a la Power Platform de Microsoft y ayuda al usuario a visualizar y analizar datos de diversas fuentes (servicios en la nube, bases de datos, hojas de cálculo, etc.). Power BI permite conectar, transformar y combinar datos, además, analizar tendencias desde diversos ángulos y crear gráficos y paneles personalizados en tiempo real, lo que facilita la toma de decisiones informada en áreas tan diversas como finanzas, comercio y gestión empresarial.

Power BI está disponible para su uso en diversos dispositivos y cuenta con capacidades avanzadas de análisis de datos (scripting en DAX u otros lenguajes de programación), análisis predictivo y potentes capacidades de inteligencia artificial sin necesidad de escribir código, permite además, detectar patrones y tendencias ocultos en la información de los datos; es colaborativo pues se pueden compartir informes y paneles dentro y fuera de la organización, Power BI presenta una solución práctica y flexible que transforma los datos en información mejorando las decisiones y la eficiencia operativa de la organización.

 

 ☛ Para descargas y más información, puedes visitar la Página Oficial.

 

GLOSARIO ESTADÍSTICO

 

CENSO

El censo es un proceso mediante el cual se recopilan datos estadísticos y demográficos de una población en un determinado momento para obtener información detallada sobre las personas en un área geográfica. El censo se realiza para obtener una visión completa y detallada de la población en términos de número de personas, distribución geográfica, características demográficas como edad, sexo, estado civil, datos educativos, situación laboral, etc., con el fin de facilitar la planificación de políticas, la asignación de recursos y la toma de decisiones por parte de gobiernos y organizaciones.

Datos que se recopilan en un censo:
- Número total de habitantes.
- Composición por edad, sexo y estado civil.
- Grupo étnico.
- Ubicación geográfica.
- Nivel educativo.
- Ocupación y empleo.
- Condiciones económicas e ingresos.
- Características de las viviendas y servicios disponibles.
- Datos sobre la agricultura, ganadería u otras actividades económicas.

Características del censo:
- Sistemático. Se realiza de forma organizada, sistemática y estandarizada.
- Completo. Busca incluir a todas las personas dentro del área definida para obtener una imagen precisa.
- Periódico. Se realiza periódicamente a intervalos regulares, comúnmente cada 10 años.
- Confidencial. Los datos recopilados están legalmente protegidos y solo pueden utilizarse para análisis estadísticos.
- Obligatorio. La participación suele ser obligatoria para todas las personas que residen en la región censada, con el fin de que sea lo más representativo y preciso posible.

Ejecución del Censo:
- Planificación. Definición del alcance, objetivos y métodos del censo.
- Recopilación de Datos. Obtención de datos de forma personal, telefónica, por internet o mediante la combinación de estas opciones.
- Procesamiento. Organización y análisis de los datos recopilados.
- Publicación de Resultados. Presentación de los resultados de forma clara y puesta a disposición de las autoridades y del público en general.

Tipos de Censo:
- Censo de Población. Contabiliza la población de una zona específica y recopila datos demográficos básicos.
- Censo de Vivienda. Recopila datos sobre el tamaño y tipo de vivienda, servicios disponibles, entre otros.
- Censo Económico. Busca recopilar datos sobre la actividad económica de empresas y personas, como el empleo, los ingresos y las actividades comerciales.
- Censo Agropecuario. Se centra en las actividades agrícolas y ganaderas, recopilando datos sobre la producción y el uso de la tierra.
- Censo Escolar. Registra datos educativos como la matrícula, la asistencia, la deserción, etc.
- Censo Étnico o Racial. Se centra en datos de comunidades étnicas o raciales para reflejar la diversidad cultural de un país.
- Censo de Personas sin Hogar: Proporciona datos sobre las personas sin vivienda permanente y que viven en la calle, en albergues temporales o en cualquier otro tipo de alojamiento inseguro.
- Entre otros tipos de censos.

El censo es, por lo tanto, una herramienta fundamental para que los gobiernos tomen decisiones en materia de servicios públicos, como educación, salud, vivienda, transporte, etc., en relación con las necesidades y las características de la población; así como para la investigación, formulación de políticas y asignación de recursos. Entonces, es obligatorio participar en el censo ya que es beneficioso para todos, además, está protegido por ley para que los datos no sean divulgados y se utilicen solo para fines estadísticos.

Referencias: (1), (2), (3), (4).

 


ENCUESTA


Una encuesta es un método de investigación para la recopilación de datos y opiniones de la muestra representativa de una población, para lo cual se utilizan preguntas estructuradas sobre un tema específico para obtener información sobre actitudes, opiniones o comportamientos y que luego se analiza estadísticamente para identificar tendencias o relaciones que servirán al tomar decisiones. Las encuestas se pueden utilizar en estudios de mercado, investigación social, investigación académica, evaluación de programas, entre otros; y pueden realizarse a través de diferentes medios, como cuestionarios en papel, entrevistas telefónicas o en línea. Entonces, una encuesta es como una "entrevista escrita" que proporciona información valiosa sobre una población de interés.

Características de una encuesta:
- Estructurada. Las preguntas son predefinidas y se presentan de la misma manera a todos los participantes.
- Representativa. La muestra seleccionada debe ser representativa de la población objetivo, para garantizar la validez de los resultados.
- Objetiva. Se busca obtener respuestas precisas y no sesgadas, sin influencia del encuestador.
- Cuantitativa: Las respuestas suelen ser cuantificables y susceptibles de análisis estadístico.
- Ética. Se debe garantizar el consentimiento informado y la confidencialidad de los participantes.

Procedimientos para realizar una encuesta:
1. Definir el objetivo y las preguntas de la encuesta.
2. Seleccionar el método de muestreo y la muestra.
3. Diseñar el cuestionario y validar su contenido.
4. Administrar la encuesta a los participantes.
5. Recopilar y registrar las respuestas de los participantes.
6. Asignar códigos numéricos a las respuestas para facilitar el análisis.
7. Organización de los datos en tablas para su análisis.
6. Analizar los datos recopilados mediante técnicas estadísticas.
7. Interpretar los resultados y elaborar conclusiones.

Ventajas:
- Puede utilizarse en una amplia variedad de contextos y temas.
- Permite recopilar datos de manera rápida y relativamente económica.
- Las preguntas predefinidas facilitan la comparación de resultados.
- Al ser estándar, ayuda a minimizar la influencia del encuestador en las respuestas.

Desventajas:
- Puede haber sesgo de selección cuando la muestra no es completamente representativa de la población objetivo.
- Puede generarse sesgo de respuesta cuando los participantes proporcionan respuestas deseables en lugar de respuestas honestas.
- Los participantes pueden malinterpretar las preguntas, lo que lleva a respuestas incorrectas.
- La elaboración, administración y análisis de encuestas pueden requerir muchos recursos, ser costosos y consumir mucho tiempo.

Las encuestas son una herramienta valiosa para la investigación, pero es importante tener en cuenta sus limitaciones y considerar cuidadosamente el diseño y la implementación para garantizar la validez y la fiabilidad de los resultados obtenidos.

Referencias: (1), (2), (3), (4).




CONGLOMERADO

Un conglomerado hace referencia a un grupo de elementos con una característica común y como unidad forman parte de la muestra, es decir, que para formar una muestra, en lugar de seleccionar elementos individuales de una población, se seleccionan conglomerados o grupos completos para obtener información de los elementos de esos grupos. Por ejemplo, en un estudio educativo, se seleccionan al azar, los conglomerados que serían las escuelas, para luego recopilar información de todos los estudiantes dentro de cada escuela seleccionada.

El muestreo por conglomerados es útil, especialmente, cuando no es posible enumerar y seleccionar cada elemento individual de la población, lo que permite ahorrar tiempo y recursos en la recopilación de datos, manteniendo siempre la representatividad, para obtener resultados precisos, válidos y generalizables.

En general, un conglomerado puede ser cualquier grupo o conjunto de elementos que comparten una característica común y que son tratados como una unidad en el proceso de muestreo.

Referencias: (1), (2), (3).

 



ESTRATIFICACIÓN

La estratificación es un proceso mediante el cual se divide a la población general en grupos más pequeños y homogéneos llamados estratos, para facilitar la recolección de datos. Cada estrato es la representación de una subpoblación con unas características similares dentro del total de la población; asegurando así que cada tipo de individuo esté representado en la muestra de manera proporcional, mejorando la precisión de los resultados. Se pueden crear estratos a partir de variables como edad, género, nivel académico, nivel de ingresos, ubicación geográfica, entre otras; una vez estratificada la población, se puede tomar una muestra aleatoria de cada estrato utilizando algún método de muestreo, como puede ser muestreo aleatorio simple, muestreo sistemático, etc.

La estratificación también tiene la ventaja de disminuir la variabilidad dentro de cada estrato, permitiendo así una mayor eficiencia durante el muestreo; por ejemplo, al realizar un estudio relacionado con el ingreso familiar, los estratos serían los rangos de ingresos económicos y dentro de cada estrato, se puede seleccionar una muestra aleatoria de familias que pasarían a formar parte de la muestra total.

Referencias: (1), (2), (3), (4).

 



TENDENCIA

La tendencia, es la dirección general o patrón de variación, en la que cambian los datos a lo largo del tiempo o en relación con una determinada variable; puede indicar que los datos están aumentando,  disminuyendo o que se mantienen relativamente constantes en un periodo de tiempo. Las tendencias pueden ayudar a hacer pronósticos de los datos y así tomar decisiones informadas.

Tipos de tendencias:
- Tendencia lineal. Los datos muestran un cambio constante en el tiempo, en cierta dirección, ya sea aumentando o disminuyendo, a través de una línea recta en un gráfico.
 - Tendencia no lineal. Los datos indican un cambio que no es constante, ya que muestra una curva o patrón irregular y no una línea recta.
- Tendencia estacional. Los datos indican variaciones regulares o periódicas que se repiten en un determinado tiempo como horas, días, meses, estaciones, etc.
 - Tendencia irregular. Los datos muestran variaciones impredecibles o aleatorias que no siguen patrones específicos, en parte, debido a los factores externos no controlados.
 - Tendencia exponencial. Los datos indican un crecimiento o decrecimiento relativamente acelerado con el tiempo, siguiendo una curva exponencial.
 - Tendencia periódica. Los datos indican variaciones periódicas que se repiten en intervalos específicos, no necesariamente vinculados al tiempo, como por ejemplo, los patrones estacionales de la bolsa de valores.
 - Tendencia aleatoria o estocástica. Los datos muestran cambios aleatorios sin un patrón definido.

Las tendencias pueden ser identificadas y analizadas de distintas maneras y con diferentes métodos estadísticos como: gráficos y visualización de datos para encontrar patrones de tendencias como rectas, curvas o fluctuaciones periódicas; regresión lineal para conocer la dirección o la magnitud de una tendencia lineal; series temporales para datos que se recopilan a lo largo del tiempo; modelos de regresión no lineales; análisis de tendencias estacionales; entre otras técnicas.

El análisis de tendencias conlleva importantes implicaciones en la toma de decisiones en diversos campos como la economía, salud pública, climatología, marketing, planificación urbana, etc
.

Referencias: (1), (2), (3).



LIBROS RECOMENDADOS

ANÁLISIS MULTIVARIADO PARA DATOS BIOLÓGICOS: TEORÍA Y SU APLICACIÓN UTILIZANDO EL LENGUAJE R (1RA ED.) - FACUNDO X. PALACIO, MARÍA J. APODACA & JORGE V. CRISCI 

 

DOING META-ANALYSIS IN R: A HANDS-ON GUIDE - MATHIAS HARRER, PIM CUIJPERS, TOSHI FURUKAWA & DAVID EBERT

E-BOOK

 

INTELIGENCIA DE NEGOCIOS Y ANALÍTICA DE DATOS - LUIS JOYANES

E-BOOK

 

LIBRO VIVO DE CIENCIA DE DATOS - PABLO CASAS

E-BOOK

 

SPATIO-TEMPORAL STATISTICS WITH R. - CHRISTOPHER K. WIKLE, ANDREW ZAMMIT-MANGION & NOEL CRESSIE

E-BOOK

 

 

 

LOS DADOS DE MOZART

 


El "Juego de Dados Musical" o "Juego de dados de Mozart" es un sistema diseñado para componer música, mediante el uso de dos dados; lo que da lugar a una combinación de música, matemáticas y probabilidades. Este juego fue publicado, por vez primera en 1972, en un manuscrito titulado en alemán "Ein Musikalisches Würfelspiel" (K. 516f) , un año después de la muerte de Mozart; aunque es posible que Mozart haya influido en la idea de este juego o inspirado su desarrollo, no existe evidencia concluyente que demuestre que este célebre compositor lo ideara en su totalidad; no obstante, este juego representa una fascinante fusión entre el arte y el azar, que refleja el ingenio y la creatividad que caracterizaron al periodo clásico.

 

GENERALIDADES

Esta obra incluye partituras para piano y consta de siete páginas y una carátula; se divide en tres secciones: instrucciones, dos tablas de cifrados y una tabla de música (partituras) que contiene 176 compases numerados en orden progresivo; cada sección aporta al funcionamiento del juego y se describe a continuación:


a) Instrucciones 

La primera sección consiste en una hoja de instrucciones traducida en 4 idiomas (alemán, francés, ingles e italiano), la traducción aproximada al español sería:



Para componer sin el menor conocimiento de música, el vals alemán o Schleifer, lanzando un determinado número, con dos dados.
1. Las letras A—H, ubicadas en el encabezado de las 8 columnas de las tablas de números, muestran las 8 melodías de cada parte del vals. Es decir, A, la primera, B, la segunda, C, la tercera, etc. y los números en la columna debajo de las letras, muestran el número del tiempo en las notas.
2. Los números del 2 al 12 muestran la suma del número, que se puede arrojar.
3. Por ejemplo, al lanzar por primera vez para la primera parte del vals, con dos dados, se obtiene el número 6, se busca el número en la columna A, obteniéndose 148 en las notas. Este tiempo se anota y constituye el comienzo del vals. — Para la segunda parte, por ejemplo, al lanzar se obtiene el número 9, se busca en la columna B de la tabla y se encontrará el número 84. Esta vez, se coloca junto a la primera y se continúa de esta manera hasta que se lancen 8 veces los dados, momento en el que termina la primera parte del vals. Se coloca el signo de repetición y se comienza la segunda parte; en caso de que se desee un vals más largo, se vuelve a comenzar de la misma manera y se continua con el procedimiento.

Lo que significa que para generar un vals único, se lanzan dos dados un total de 18 veces, una vez para cada columna en las dos tablas de cifras.


b) Tabla de cifras

La primera y segunda tabla de cifras o partituras, son tablas que contienen 11 filas cada una, numeradas del 2 al 12, que son los valores que se pueden obtener con dos dados, ademas, tienen 8 columnas cada una identificadas con las letras de la A a la H, y las celdas contienen los valores del 1 al 176 sin repetición, estos valores constituyen los compases de la partitura que queremos obtener para componer un vals o minueto

Las tablas originales tienen la siguiente forma:

 


 

c) Tabla de música.

Es una recopilación de fragmentos o compases musicales precompuestos y numerados secuencialmente y que están organizados en filas y columnas. Cada fragmento es una pequeña parte de la composición, y para crear una pieza musical, vals o minueto aleatorio, se lanzan los dados para seleccionar cada uno de los compases. La tabla de música contiene en total 176 compases y se muestran a continuación:


 

COMPASES CIFRADOS

"Ein Musikalisches Würfelspiel" o "Un juego de dados musical",  es una obra que puede ser vista como un experimento temprano en la música generativa para crear arte, donde los jugadores generan composiciones musicales a través del lanzamiento de dos dados cuyo número se corresponde con un fragmento musical precompuesto; entonces la posibilidad de crear piezas únicas permite al azar, dictar la estructura de la música,  desafiando las nociones tradicionales de composición, donde el compositor controla cada nota; por otra parte, el juego permite que cualquier persona participe de este proceso creativo.

Musicalmente, se puede apreciar cómo la música puede surgir de la repetición y de combinaciones de fragmentos musicales, que combinándose en distintos órdenes se crea una variación continua, similar a la técnica de desarrollo temático utilizada en la música clásica, resultando en una melodía coherente y agradable, esto nos sugiere, que el arte puede surgir de procesos automáticos y aleatorios.

Entonces, para generar un vals único, se lanzan dos dados un total de 18 veces, una vez por cada columna que aparece en las dos tablas cifradas que están incluidas en el juego; cada lanzamiento produce un número que se utiliza para seleccionar un compás específico. En la primera tabla se seleccionan los primeros 8 fragmentos y en la segunda tabla, los siguientes ocho y así se obtiene la estructura completa del vals.

La tabla de cifras funciona como el banco de opciones musicales que al lanzar los dados, se elige un fragmento de la tabla según el número obtenido, sea del 2 al 12, de esta manera se determinan según el azar, qué compases se incluirán y en qué orden.

DATA VISUAL ART

 
 {Python}

import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(0, 10, 200)
y1 = np.sin(x)
y2 = np.cos(x)

plt.fill_between(x, y1, color="lightblue", alpha=0.5)
plt.fill_between(x, y2, color="orange", alpha=0.5)

plt.grid(False)

plt.axis('off')
plt.show()




 

 {Python}

import numpy as np
import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize=(6, 6))
ax.set_facecolor('black')

for i in range(1, 100):
   x = np.linspace(0, 1, 100)

   y = np.sin(i * x * np.pi) * 0.2 + 0.5
   ax.plot(x, y, color=plt.cm.cool(i/100), alpha=0.7, linewidth=1)

plt.axis('off')
plt.show()



{R}

library(ggplot2)
set.seed(5)
diamonds.subset <- 100="" br="" diamonds="" nrow="" sample="">

qplot(color, price / carat, data = diamonds, geom = "jitter",
alpha = I(1 / 5), color = color)

(Fuente)

 

  

{Python}

import numpy as np
import matplotlib.pyplot as plt

def cellular_automaton(size, rule):
   grid = np.zeros((size, size))
   grid[0, size // 2] = 1

   for i in range(1, size):
    for j in range(1, size - 1):
     neighborhood = grid[i - 1, j - 1:j + 2]
     key = int("".join(neighborhood.astype(int).astype(str)), 2)
     grid[i, j] = rule[key]
   return grid

rule = np.random.randint(0, 2, 8)
pattern = cellular_automaton(100, rule)

plt.figure(figsize=(8, 8))
plt.imshow(pattern, cmap="binary", interpolation="nearest")
plt.axis("off")
plt.show()

 

 

ARTE DIGITAL Y MATEMÁTICAS EN "ANIMATION VS MATH"

 

Como era de esperar, la matemáticas y el arte digital se entrelazan en una agradable combinación, como podemos verlo en "Animation vs Math"; en este proyecto se nos presentan a personajes animados embarcándose en aventuras dentro de un mundo matemático. Sus creadores son artistas digitales que ilustran historias a través de la creatividad visual y los principios matemáticos dando forma a historias originales y entretenidas, para nuestra suerte, este proyecto se encuentra publicado en las redes sociales, permitiéndonos apreciar y disfrutar de una experiencia divertida inspirada en estas disciplinas.


(Fuente)


Ficha técnica:
Título: Animation vs. Math
Dirección: Alan Becker
Guion: Terkoiz
Música: Scott Buckley    
Edición: Dan Loeb
Productora: 18th Century Bear
Duración: 14 minutos
Año de estreno: 2023
Géneros: Animación, Acción, Aventura, Comedia, Ciencia ficción.




 





"En el sentido filosófico, la observación muestra y el experimento enseña." (Claude Bernard, 1813-1878)