La obtención y limpieza de datos es un proceso crítico en la ciencia de datos que implica recolectar, preparar y transformar los datos para su análisis. Estos son los pasos generales en el proceso de obtención y limpieza de datos:

  1. Recolección de datos: los datos se pueden recolectar de varias fuentes, como bases de datos, hojas de cálculo, archivos, encuestas, sensores, etc. Es importante asegurar que los datos recolectados sean relevantes y de alta calidad.
  2. Validación de datos: una vez que los datos están recolectados, es necesario verificar su calidad y exactitud. Se busca detectar y corregir errores, duplicados y valores faltantes.
  3. Integración de datos: a menudo, los datos provienen de diferentes fuentes y deben ser integrados en un único conjunto de datos para su análisis. Es importante asegurar que los datos sean coherentes y compatibles entre sí.
  4. Transformación de datos: los datos a menudo deben ser transformados para que sean compatibles con las técnicas de análisis seleccionadas. Esto puede incluir la creación de nuevas variables, la normalización de los datos o la eliminación de outliers.
  5. Anotación de datos: finalmente, es importante etiquetar los datos y proporcionar una descripción detallada de lo que representan para facilitar su comprensión y análisis.

En resumen, la obtención y limpieza de datos es un proceso crítico en la ciencia de datos que implica recolectar, preparar y transformar los datos para su análisis.

Es importante asegurar que los datos sean relevantes y de alta calidad, coherentes y compatibles, y que estén etiquetados y descritos adecuadamente para facilitar su comprensión y análisis.



Sobre el Curso Gratis

Antes de poder trabajar con datos, debe obtener algunos. Este curso cubrirá las formas básicas en que se pueden obtener los datos.

El curso cubrirá la obtención de datos de la web, de API, de bases de datos y de colegas en varios formatos.

También cubrirá los conceptos básicos de la limpieza de datos y cómo hacer que los datos estén «ordenados». Los datos ordenados aceleran drásticamente las tareas de análisis de datos posteriores.

El curso también cubrirá los componentes de un conjunto de datos completo que incluye datos sin procesar, instrucciones de procesamiento, libros de códigos y datos procesados.

El curso cubrirá los conceptos básicos necesarios para recopilar, limpiar y compartir datos.

Con este curso aprenderás:

  • Comprender los sistemas comunes de almacenamiento de datos.
  • Aplique los conceptos básicos de limpieza de datos para que los datos estén «ordenados»
  • Use R para la manipulación de texto y fecha
  • Obtenga datos utilizables de la web, las API y las bases de datos

Y las habilidades que obtendrás:

  • Manipulación de datos
  • Expresión regular (REGEX)
  • Programación R
  • Limpieza de datos

Este curso es ofrecido por la Universidad Johns Hopkins

La misión de la Universidad Johns Hopkins es educar a sus estudiantes y cultivar su capacidad para el aprendizaje permanente, fomentar la investigación independiente y original y llevar los beneficios del descubrimiento al mundo.


Coursera prueba gratis

Accede a este Curso

Si te ha parecido interesante y quieres inscribirte a este curso gratuito, solo debes dar clic o tocar el botón de aquí abajo. Recuerda que, al ser un sitio externo, este puede presentar fallas o retirar el curso sin previo aviso. ¡Éxito!



Encuentra cursos y libros gratuitos, además de cupones de Udemy, en:



Jesús Amaro

Si lees esto, es por que sabes leer. Un saludo...