Aula 1
En esta primera lección de "Inmersión en Datos Proyecto Final", se realizan las siguientes acciones:
- Se monta Google Drive para acceder a los datos.
- Se importa la biblioteca pandas y se carga un conjunto de datos de inmuebles en Bogotá desde un archivo CSV.
- Se realiza una exploración inicial de los datos, que incluye cambiar nombres de columnas, verificar tipos de datos y calcular estadísticas descriptivas básicas.
- Se filtran inmuebles específicos en función de criterios como el barrio y se calculan promedios y conteos.
- Se crea un nuevo DataFrame para propiedades en un barrio específico.
- Se exploran los datos mediante gráficos de barras para mostrar la cantidad de propiedades en diferentes barrios y UPZ.
Desafío 1: Se plantean dos desafíos en esta lección:
- Calcular el promedio del área de los inmuebles en los 10 barrios principales.
- Consultar otros datos estadísticos, como conteo, mediana, valor mínimo y máximo.
Aula 2
En la segunda lección, se abordan los siguientes temas:
- Visualización de datos mediante histogramas y gráficos de barras.
- División de datos para entrenar y evaluar modelos.
- Creación de un modelo de regresión lineal para predecir los precios de inmuebles en Bogotá.
Desafío 2: En este desafío, se solicita refinar un gráfico de valores de inmuebles y calcular el precio por metro cuadrado por barrio, representándolo adecuadamente en un gráfico.
Aula 3
En esta lección, se importan datos del DANE (Departamento Administrativo Nacional de Estadística) relacionados con la encuesta multipropósito de Bogotá. Luego, se fusionan estos datos con los datos de inmuebles para enriquecer el análisis.
Desafío 3: Se proponen dos desafíos:
- Examinar la base de datos del DANE para entender las variables conceptualmente.
- Organizar el notebook para presentar mejor el proyecto.
Aula 4
La cuarta lección se centra en la preparación de datos para entrenar un modelo de regresión lineal. Se filtran valores extremos en los precios de inmuebles y se calculan métricas de evaluación del modelo.
Desafío 4: Se plantea un desafío adicional para construir un modelo de regresión lineal y evaluar su rendimiento utilizando métricas como el error absoluto medio y el coeficiente de determinación (R2).
En resumen, el proyecto implica la exploración y análisis de datos de inmuebles en Bogotá, la incorporación de datos socioeconómicos del DANE, la preparación de datos y la construcción de modelos para predecir los precios de los inmuebles. Cada lección y desafío contribuye a este proceso de análisis de datos y modelado.