Como ya sabemos, el paradigma low-code minimiza o elimina la codificación manual para el desarrollo de soluciones tecnológicas, bajo esta premisa nacen herramientas como Power BI (bajo el paraguas de Microsoft Power Platform) que nos permite desarrollar potentes visualizaciones de nuestros datos. Sin embargo, existen ciertas necesidades específicas sobre las cuales el uso de código se hace indispensable, es por ello que en este post hablaremos acerca de las utilidades de integrar el uso de Python en Power BI.
Python es uno de los lenguajes de programación más populares en la actualidad. Su facilidad para ser aprendido, versatilidad y cantidad de librerías disponibles (entre otras razones) lo han erigido como uno de los lenguajes más usados en campos como la ciencia de datos en la actualidad.
Lo que no es tan conocido es que Power BI permite la ejecución de scripts de Python para distintas tareas como la carga de datos o la generación de visualizaciones customizadas. En el presente post nos centraremos en la primera de las tareas: la carga de datos y veremos 3 razones por las que se hace interesante realizarla utilizando Python en Power BI.
¿Por qué utilizar Python durante la importación en los modelos de datos de Power BI?
1. Integrar numerosos ficheros en una sola consulta:
Imaginemos que necesitamos cargar datos de ventas de los últimos años de una compañía y los datos vienen particionados de manera mensual dando como resultado decenas de ficheros. Utilizando Power Query de manera tradicional, deberíamos ir cargándolos uno a uno para posteriormente unificarlos en una sola consulta.
Sin embargo, tal y como se puede leer en la documentación de Microsoft, podemos ejecutar scripts gracias al conector de Python del que dispone Power Query. De este modo, gracias a la librería pandas y unas pocas líneas de código en las que iteramos sobre cada fichero, podemos unificarlos en un solo dataframe que Power BI obtendrá para el modelo de datos en tan solo unos pocos segundos:
En la siguiente ventana solo tendremos que seleccionar la tabla con el nombre que contiene nuestros datos. Esto nos permitirá cargar este dataset en el modelo al igual que cualquier otro conector.
De este modo conseguimos ahorrarnos la tediosa tarea de tener que cargar decenas de ficheros uno a uno y la posterior unificación.
2. Realizar transformaciones previas a la carga
Si eres un profesional de la ciencia de datos lo más normal es que la mayoría de las transformaciones de los datos ya las hayas realizado en los pasos previos a la carga de datos (ETL). Pese a que Power Query es un potente motor que nos permite transformar y preparar nuestros datos mediante una interfaz gráfica, es interesante realizar dicha transformación previo a la carga gracias a Python, de este modo conseguiremos aligerar la carga y actualización de los datos de nuestros informes.
3. Añade valor a tus datos antes de cargarlos
Como mencionamos anteriormente, Python es uno de los lenguajes de referencia en la ciencia de datos en la actualidad, posee numerosas librerías como Scikit-learn dedicadas en exclusiva a la analítica avanzada de datos. Ahora bien, imagina poder realizar una predicción de ventas de los próximos 3 meses o realizar una segmentación de nuestros clientes en base a sus semejanzas y diferencias en el paso previo a la carga.
¿Qué te ha parecido? Gracias al conector de Python todas este proceso de enriquecimiento de los datos puede hacerse obteniendo un informe mucho más enriquecido desde el origen.