Cuando hablamos de pandas no nos estamos refiriendo a un grupo de ositos en blanco y negro devoradores de bambú, hablamos de la librería Pandas en Python, especializada en el manejo y análisis de estructura de datos, de código abierto y dependiente de la librería Numpy.
Con pandas podemos representar datos tabulares con columnas con etiquetas y filas y series temporales.
Para formarte y conocer en profundidad estos conceptos, puedes hacerlo con nuestro máster en Programación avanzada en Python para Big Data, Hacking y Machine Learning. Además, al ser un máster dual podrás integrar el proceso de aprendizaje con prácticas en empresas.
Herramientas de la librería pandas
Nos proporciona herramientas que nos permiten leer y escribir datos en varios formatos como por ejemplo, CSV, Microsoft Excel, bases SQL y formato HDF5.
También nos permiten seleccionar y filtrar las tablas de datos, fusionar y unir datos, transformarlos aplicando funciones tanto global como por ventanas, manipular las series temporales e incluso hacer gráficas.
Pandas dispone de tres estructuras de datos diferentes:
- Series, son estructuras de una dimensión
- DataFrame, estructuras de dos dimensiones (tablas)
- Panel, estructuras de tres dimensiones (cubos)
Vamos a ver un ejemplo de los dos primeros de una forma rápida y sencilla.
Series
Son estructuras de una dimensión, similares a los arrays, dispone de un índice que asocia un nombre a cada elemento de la serie para acceder al mismo.
DataFrame
Son conjuntos de datos estructurados en forma de tabla donde cada columna es un objeto de tipo Series, todos los datos de una misma columna son del mismo tipo y las filas pueden contener tipos distintos.