Releases: ucd-dnp/leila
Releases · ucd-dnp/leila
v0.2b
v0.2
LEILA v0.2
0.2.0 (2021-12-15)
Agregado
- Se agrega sección Columnas en este conjunto de datos en reportes generados para conjuntos del portal de Datos Abiertos Colombia mediante la función generar_reporte() del módulo reporte.
- Se agregó la función DatosGov.metadatos() para consultar los metadatos del conjunto de datos de interés publicado en el portal de Datos Abiertos Colombia .
- Se agregó la función DatosGov.to_dataframe() para retornar el conjunto de datos descargado del portal Datos Abiertos Colombia en formato pandas.DataFrame
Cambiado
Código
- Se reestructuró el modulo datos_gov en la clase DatosGov()
- Se agregó parámetro filtro dentro de la función tabla_inventario() del módulo datos_gov , que permite filtrar por palabras clave.
- Se reemplazó el parámetro df por datos dentro de la función generar_reporte()
- Se agregó soporte para lectura directa de archivos tipo '.xlsx', y '.csv' por parte de la clase CalidadDatos()
- Se agregó soporte para lectura directa de objetos tipo leila.DatosGov() por parte de la clase CalidadDatos()
- Se agregó parámetro especificas dentro de la función generar_reporte(), que permite personalizar el reporte automático.
- Se agregó el parámetro 'limite_filas' a los métodos 'CantidadDuplicados' y 'EmparejamientoDuplicados' de la clase 'CalidadDatos'. Este parámetro define el límite de filas que se tendrá en cuenta al calcular los duplicados por columnas (el valor por defecto es 30.000)
- Se ajustó el código de los siguientes métodos de la clase 'CalidadDatos', para no copiar el conjunto de datos de entrada y evitar problemas de memoria: CorrelacionCategoricas, DescripcionNumericas, DescripcionCategoricas, CantidadDuplicados, EmparejamientoDuplicados
- Se adecuó el código de la librería al estilo PEP-8
- Se ajustó el código del método 'TipoColumnas' de la clase CalidadDatos para mejorar los tiempos de ejecución
- Se adecuó el código de la clase CalidadDatos para que el tipo específico y el tipo general de las columnas se calculen cuando se crea la clase y no cuando se ejecutan los métodos que hacen uso de los tipos
- Los módulos "calidad_datos" y "reporte" tendrán el nuevo parámetro "castDatos", el cual indica si se desean convertir las columnas al mejor tipo de columna, según la función 'convert_dtypes' de la librería Pandas. Este parámetro remplazará a "castNumero", el cual será deprecado en un futuro
Repositorio
- Se redactó guía en GitHub en español para reportar issues en la librería
- Se redactó guía en español para realizar colaboraciones y adiciones a la librería en GitHub
- Se añaden nuevos ejemplos de uso de la librería en la carpeta de ejemplos
- Se actualiza documentación de LEILA con respecto a los nuevos cambios.
Memoria y tiempo de ejecución
- Se mejoró los tiempos de ejecución para las funciones 'CantidadDuplicados' y 'EmparejamientoDuplicados' de la clase 'CalidadDatos'
- Se redujeron los tiempos de ejecución generales y los requisitos de memoria.
- Las funciones de la librería se pueden ejecutar para conjuntos de datos más grandes
- Las funciones generan resultados más rápidos para los mismos conjuntos de datos
Wiki de LEILA
El Wiki de LEILA se encuentra en el repositorio web de GitHub y contiene la siguiente información:
- Proceso de trabajo de los desarrolladores de LEILA
- Guía para hacer preguntas de uso, reportar errores y solicitar nuevas características para LEILA
- Guía para hacer contribuciones y pull-request a LEILA
- Reglas de comunidad
Obsoleto
- Ya no es necesario el parámetro token dentro de las funciones cargar_base() y en generar_reporte()
Borrado
- Se eliminó función filtrar_tabla() del módulo datos_gov()
Arreglado
- Se corrigieron errores generados por conflictos de librerías de soporte al instalar la librería
Ajustes en la documentación - v0.1b
Versión 0.1b
Este release es equivalente en funcionalidad a la versión v0.1 de LEILA. Sin embargo, se hace un nuevo release para poder gestionar unos archivos relacionados con la documentación de la librería y facilitar el versionamiento de esta.
- Se borra la carpeta docs
- Se agrega la carpeta sphinx
Lanzamiento librería - v0.1
Versión 0.1
La librería de calidad de datos tiene como objetivo principal ser una herramienta que facilite la verificación de contenido de bases de datos y dé métricas de calidad para que usuarios puedan decidir si sus bases de datos necesitan modificarse para ser utilizadas en los proyectos.