Geocodificación y limpieza de datos

Cuando contamos con las direcciones de clientes, proveedores, o instituciones recuperadas desde los sistemas de información cómo parte de los datos generales que existen acerca de ellos, es posible llevar a cabo el proceso de geocodificación para poder localizarlas en sus coordenadas de latitud y longitud en un mapa o raster.

Una vez que las analizamos encontramos que si no se cuenta con un catálogo de colonias, o un catálogo de códigos postales la precisión de todas las direcciones no es óptima y deja mucho que desear.

Para obtener  las latitudes y longitudes de las direcciones se utilizó el servicio de Google Maps en su versión gratuita, que está limitada a 2500 solicitudes por día.

Se contó inicialmente con la dirección de 1086 individuos,  se filtraron a aquéllos cuyo municipio se encontraba entre Torreón Coahuila, Gómez Palacio y Lerdo Durango y fue así como se realizó la geocodificación para 991 registros.

Se realizaron las siguientes combinaciones de búsqueda de acuerdo a algunos de ellos de acuerdo a la siguiente tabla

Inicio NA Geolocalizados Eficiencia
1.- Domicilio, colonia, municipio 991 627 364 36.73%
2.- Domicilio, colonia 991 121 870 87.79%
3.- Domicilio, colonia, CP 991 140 851 85.87%
4.-Domicilio, colonia, CP, municipio 991 629 362 36.53%

La eficiencia se reduce cuando se añade el Municipio, y de igual forma cuando se añade el CP, por lo que contrario a lo que pensamos que añadiendo información se localiza de manera más eficiente.

Al seleccionar los datos de la combinación 2, -búsqueda con Domicilio y colonia-, los 870 registros geolocalizados se filtraron de acuerdo a las latitudes y longitudes reportadas por los valores que devolvió el geocodificador, de acuerdo al siguiente criterio arbitrario para latitudes y longitudes cercanas

Criterio
Latitudes        Longitudes
23.0442652     -122.7114
47.7333             -99.0445185

En este criterio se encuentran 584 registros por lo que en un segundo cálculo de eficiencia se obtiene un 67.13%

Los puntos anteriores se localizaron en un raster de la región, con las siguientes límites de latitud de 25.475 y 25.67 y de longitudes entre -103.55 y 103.30 quedando fuera 122 direcciones, por lo que finalmente en el mapa se encuentran 462 puntos localizados dando una eficiencia de tan solo =462/991  un  46.62%

Eficiencia de geocodificación

direcciones geolocalizadas en Torreón, Gómez, Lerdo

Puede tener ya alguna utilidad en función de la densidad de población y en la ubicación visual de los servicios prestados

Se podrá ir incrementando este indicador de eficiencia considerando parámetros de la API de Google, y también estudiando el sentido inverso de la geocodificación, con el fin de conocer cuánto es que la población da el código postal preciso de su dirección.

 

Entre puntos, líneas y áreas

La concepción de lo que es un punto, una línea y un área es sencilla de explicar, el punto son dos coordenadas, la línea son dos puntos (cuatro coordenadas), el área son más de tres líneas cerradas (6 o más coordenadas). Cuando se aplican a la elaboración de los mapas y a la identificación de espacios se va haciendo más complejo al mencionar vectores, referencias, localidades, o rasters.

México en Polígonos

México en Polígonos.

Los datos asociados para ser representados en área se refieren al total de la localidad representada en polígonos. La intensidad del color está asociada a la densidad de población.

Ahora bien en un tipo de mapa raster provisto por  Google Map o OSM podemos también asociar cantidades pero a puntos localizados. Son dos capas el raster y los puntos  con color o tamaño proporcional a la densidad de población de alumnos en un bachillerato.

Puntos color y tamaño asociado a #

Torreón y bachilleratos en Puntos.

La incorporación de la geo-codificación de lugares particulares a los mapas con sus atributos o características propias de alguna variable de estudio nos da elementos invaluables en la provisión de bienes y servicios, así como en la detección de problemas y soluciones.

Población de mujeres en las ingenierías

La proporción de mujeres que estudian ingeniería en las universidades, si bien depende de las licenciaturas abiertas en cada una de ellas también pareciera estar relacionada con la ubicación geográfica o estado.

Entre las bases de datos que pueden ser utilizadas gracias a la política de datos abiertos encontré en el sitio del Sistema de Información y Gestión Educativa SIGED localizado en http://www.siged.sep.gob.mx/ el archivo que contiene la información del número de mujeres inscritas en carreras de ingeniería, el número total de alumnos inscritos por cada entidad federativa y en 5 ciclos anuales diferentes.

Los datos en un reporte realizado con R, Markdown, Knitr y otros paquetes se localiza en el siguiente enlace.

Población femenina en licenciaturas de ingeniería

El análisis de los datos, ahora trasciende los métodos clásicos y tradicionales del muestreo, la recuperación y tratamiento de los datos.

 

 

Aprendiendo para explicar

Las operaciones conscientes son las que nos permiten darnos cuenta de lo que sucede, de acuerdo al pensamiento de Bernard Lonergan, una de las evidencias de que hemos entendido es que podemos explicarlo.

Cuando somos docentes y tratamos de explicar algo que no entendemos, actuamos como si supiéramos,  dando instrucciones confusas y rápidas, o bien nos detenemos para en ese momento utilizar nuestro razonamiento y en la intelección entender para explicar.

Asisto a un taller de periodismo de opinión en dónde nuestro maestro nos va mostrando a partir de un texto propio las observaciones y las correcciones pertinentes, ortográficas, de redacción, de sentido y hasta de tonos o críticas sobre las expresiones utilizadas.

Nos regresaba el texto con todas las correcciones en el documento resaltadas y si bien le creía y acataba las recomendaciones nunca observé cómo lo lograba apoyándose en el menú de revisión del Word.

Esta semana voy a explicarlo, de tal forma que me dí a la tarea de utilizarlo en un texto propio para poder entenderlo

Aquí les dejo las muestras de los textos que en honor al trabajo realizado se convierte en tres versiones distintas.

Original sin revisiones: LO HUMANO COMO MAQUINA, LA MAQUINA COMO HUMANO

Revisado sin aceptar las revisiones: Lo humano como máquina, la máquina como humano

Revisado y aceptadas las consideraciones y comentarios.  Documento Final. Lo humano como máquina, la máquina como humano revisado y listo

¿Las computadoras cómo le harán para explicar algo que aún no han entendido?

Robots discurren sobre discursos

En la teoría de sistemas de Niklas Luhmann la comunicación es el elemento básico de la sociedad, a partir de ella es como se logran consensos de comprensión y entendimiento entre individuos, en lo social y por tanto en lo que percibimos como realidad.

Al suceder los diferentes intercambios de comunicación entre individuos se ponen en contacto las conciencias individuales, en un ir y venir de significados del lenguaje, hasta depurar lo que en lo posible se comunica y entiende por mayoría.

Cuál no va siendo mi sorpresa que ahora podrán ser las computadoras las que a partir del análisis del discurso, discurren cómo es lo que comunica tu texto.

Sí buscas  en Google “Servicios de Análisis de Texto” o “Text analysis service” se despliegan las diferentes plataformas y servicios a partir de los cuales podrás obtener el análisis de textos de propios y extraños y así poder conocer el tono, si está polarizado,  y si es objetivo, en la mayoría de ellas en forma gratuita.

También en este enlace se encuentra la  recopilación de dichas herramientas http://www.butleranalytics.com/20-text-mining-and-text-analysis-tools/

Este texto en particular lo he sometido a análisis  en la opción de demostración del siguiente enlace  https://www.meaningcloud.com/ y me reportan lo que muestro a continuación y que después de haberme leído podrás juzgar su apreciación al lado de la tuya.

Global sentiment

This text is Positive with a confidence of a 97 percent. The polarities detected in it are indisagreement. The text is objective and without irony.

Nube comparativa se sentimientos  México en inglés

Méxicosent

México en 100 tuits

 

El carbono todo un personaje de la química

En algún momento leí que la química estaba llena de reglas y de excepciones, y aún así confiando en sus regularidades, se crean las reglas de nomenclatura, reglas de precipitación, reglas de los estados de oxidación, reglas de los ocho electrones o del octeto,  etc..

Entre ellas el Carbono aparece como un compuesto que tiene 4 electrones, lo que significa que igual puede donarlos y trabajar con valencia de +4 o bien recibir otros cuatro para trabajar con valencia de -4. Se le ubica como elemento que forma enlaces covalentes en  múltiples estructuras desde el grafito hasta el diamante, pero aún así después de romper reglas a diestra y siniestra también cambia su valencia de donador o receptor de protones según de con quien esté en cercanía.

Me surge un gran desconcierto al balancear la ecuación de la oxidación del etanol con permanganato, en una reacción en dónde está el Manganeso que se reduce y que necesariamente el que se oxida es el segundo Carbono, pero de cuál a cuál valencia.

CH3CH2OH + MnO4 —–> CH3COO + MnO2(s).

Resultando que presenta las siguientes valencias

valenciaCorgánico

Esta particularidad del Carbono, seguramente le da toda la potencialidad para crear toda una especialidad de la Química, la Orgánica o bien conocida también como Química del Carbono, no me queda más que ponerme de pie, saludar y presentar mis respetos a este elemento tan particularmente especial, que toma y da según sea la necesidad de cada circunstancia.

Utilidad de las preguntas a priori

Las prácticas de laboratorio tienen una estructura particular en la que se da una introducción al tema, se establecen los objetivos de la práctica, se enumera el material requerido y las cantidades de los reactivos necesarios, se dan instrucciones precisas de los procedimientos a realizar, se solicitan observaciones particulares, cálculos, tomas de fotos durante el procedimiento, conclusiones y el envío del documento completo que incluye algo de investigación posterior y preguntas relacionadas con ella.

El documento se prepara y se les proporciona a los alumnos unos días antes de la práctica con la intención de que lo vayan leyendo, que lo impriman y que se preparen para el día de la práctica.

Sin embargo invariablemente acuden al laboratorio y la pregunta inicial al llegar es ¿qué vamos a hacer hoy?, y al preguntar, ¿traen la práctica impresa? .. no, ¿saben que necesitan pedir al almacén?… no. y literalmente la mayoría no tiene idea de lo que se va a hacer.

Leyendo la propuesta que se hace en este documento: AUTO-EVALUACIÓN PREVIA A LAS PRÁCTICAS DE LABORATORIO QUÍMICO: INTRODUCCIÓN AL AUTOAPRENDIZAJE  por Patricia Noguera, Murray Luis Antonio, Tortajada Genaro Julia, Atienza Boronat M.ª Asunción Herrero Villé me di a la tarea de crear las preguntas previas para la práctica de preparación de soluciones.

En este documento se encuentran las preguntas y en este otro la práctica, en términos generales la experiencia en el laboratorio mejoró, pronto se encontraron todos en la tarea, se interesaron en los procedimientos y mejoró la participación interna de los equipos, hay preguntas que responden utilizando el mismo documento, cómo cuando les pregunto cómo se prepara una solución a partir de un compuesto sólido, copian y pegan el procedimiento de la práctica con todo y la molaridad solicitada.

Seguiré utilizando la propuesta de preguntar antes de realizar la práctica, de esa forma al menos habrá una intención previa de entender o de leer para poder responder y así llevar una plataforma en la que se podrán desarrollar en mejor medida la prácticas y los experimentos del laboratorio, gracias por la idea a mis colegas docentes.

Desde las preguntas hacia el tratamiento de datos

En las diferentes ocasiones en las que he impartido la materia de estadística la presentación de las diferentes metodologías del manejo de los datos la he hecho desde los datos, para que una vez construidas por ejemplo las tablas de distribución de frecuencias se pudieran establecer algunas proposiciones válidas.
Por ejemplo

De una tabla como esta de la variable de la edad de las mamases de bebés prematuros

tabla de frecuencias

Establecer que el valor promedio de la edad de las mamás con bebés prematuros es 26.16 años, que la edad más frecuente en la que las mamás tienen bebés es entre 21 y 24 años, que la desviación estándar de la edad con respecto a la media es de 6.51 años, que la diferencia de edad entre la mamá más joven y la de mayor edad es de 30 años, etcc.

El día de hoy partí de las preguntas, una vez que han sido ilustrados los procedimientos de la construcción de las tablas y del cálculo de las medidas de tendencia central y de variabilidad.

Las preguntas elaboradas las pueden ver en el siguiente documento

Preguntas sobre el nacimiento de bebés prematuros

y los datos para responderlas en el archivo  Datos bebés prematuros

La dinámica de la clase cambió radicalmente, había más dudas porque había incertidumbre de cómo hacerlo.

Diseño Inverso es la clave, qué quiero y luego ver cómo le hago para resolverlo.

Y la transferencia siguiendo patrones hacia lo complejo

La solución de los sistemas con igual número de variables y de incógnitas se presenta desde diversas metodologías, así encontramos el método de igualación, el de sustitución o el de eliminación.

En ellos se va siguiendo la lógica de si A=B y B=C entonces si igualo A=C, si sustituyo A=C .. cuando se añade una nueva variable el procedimiento se complica porque ya no solo A=B o B=C sino quizás hay A = D y B=D y C= A… más ecuaciones, y pasos intermedios de igualación, sustitución o eliminación.

Los determinantes, -números calculados de arreglos matriciales- hacen su aparición, el cálculo de uno 2X2, sencillo, el de 3X3 con un arreglo simple posible, el 4X4  más complicado a través de cofactores y de simplificación de determinantes o ya expresado en alguna fórmula de 19 términos cómo puede verse en el siguiente video

Y finalmente utilizado en los procedimientos generalizados para los sistemas dos por dos, o tres por tres el cálculo para un sistema cuatro por cuatro, utilizando el Excel como el calculador de los valores para el determinante

Así aparece sencillo seguir el patrón y solucionar cualquier sistema del mismo número de incógnitas y de ecuaciones, hasta el límite del Excel

 

Las flores concoides

Las relaciones entre dos variables, representadas y graficadas a través de una tabulación y de sus gráficas suelen ser asociadas a rectas, parábolas, hipérboles. Actualmente nos podemos auxiliar en software gratuito que además del trabajo algebraico, dibuja el trazo de las funciones. Geogebra es utilizado ampliamente por profesores de matemáticas, nos permite graficamente ir evaluando los conceptos que se van desarrollando como la periodicidad, la continuidad, la simetría, así como las operaciones y combinaciones de las funciones.

Las gráficas de las relaciones y la facilidad de parametrizarlas nos devela por ejemplo que las flores son concoides y que responden a una relación matemática.
ecuacionmargarita

El parámetro C que acompaña al valor del ángulo determina el número de pétalos de la margarita… cómo lo podemos ver en el siguiente video

Belleza en las flores, belleza en las relaciones matemáticas, ¿cuál fue primero, la flor o la relación?