Chat GPT no incluye bases de datos relacionales sobre las que pedir información o análisis, pero sí puede ayudarnos en tareas relacionadas con ETL, sobre todo en escenarios en los que se las variables pueden tomar un rango discreto de valores.
Con un poco de Prompt Engeneering certero, de hecho, podemos pedirnos que nos normalice esos “flecos” que se quedan colgados en el proceso de ajuste fino (fine-tunning) de datos, siempre que, como decía antes, el conjunto de soluciones sea limitado.

Midjouney: Illustration. White Background. Blue toddler robot calculating some kind of stuff
Más concretamente, en más de una ocasión habremos tenido en una tabla una serie de países escritos de distintas maneras siendo el mismo, lo que acaba siendo un tormento para pasarlo al código internacional de 2 letras. La creatividad humana es estos casos es infernal: Estados Unidos de América te lo encuentras como EUA, EEUU, USA, US, Estados Unidos de Norteamérica, Norteamérica,… y, la verdad, no vas a ir caso a caso regularizándolo.
Para estos casos, entre otros, llamamos a Chat GPT, que ya tiene nivel de becario para estas cosas, y le pedimos que nos haga el trabajo tedioso, que para eso es un fenómeno:
Primero le preguntamos si conoce la ISO que emplearemos para normalizar los datos para meterle en contexto, y a continuación le exponemos nuestro problema, eso sí, hay que ser muy concreto con lo que quieres:
Tengo que asignar código a una serie de países que te voy a enviar a continuación, pero primero unas reglas:
1. El trabajo consiste en que intentes asignar a cada país su código internacional de 2 letras.
2. En ocasiones, el país ya está escrito con el código de 2 letras, no hace falta hacer nada.
3. Los países pueden venir en distintos idiomas.
4. En los países viene un número. Es necesario quitarlo.
5. Si hay comentarios entre paréntesis, quítalos.
6. Otras veces, viene la capital en vez de el país.
7. Es posible que el país esté mal escrito, o incluso con faltas de ortografía. Si no eres capaz de determinar el país, utiliza como código de 2 letras, pero deja el nombre original.
8. En otras ocasiones, el país quizás ya no exista, en ese caso, utiliza el código «XX».
9. Deseo la respuesta en formato de tabla, con los nombres de los países entrecomillados y en un formato que me permita exportarlo a CSV fácilmente.
Le pasé una lista de unos 400 países coun un poco de todo, sabiendo que sólo tendría que revisar los códigos XX y – de la salida, y funcionó bastante bien.
De todas formas, Chat GPT suele generarte un pequeño informe de qué obstáculos ha encontrado en el camino:

Sin embargo, a pesar de que le pedimos en la regla 9 que lo queríamos para exportar a CSV, está juguetón y ha pasado de nosotros:

CSV (Comma separated values) es un formato común para la importación y exportación de información a hojas de cálculo, bases de datos,…
Y debería haber separado los valores por comas además de poner los valores entre comillas, pero no pasa nada, se le insiste y ya está:

De esta manera, se pueden normalizar provincias, ciudades o cualquier otro conjunto de elementos en el que el núemro de posibilidades sea discreto (pequeño) y conocido por Chat GPT.
En la siguiente entrada, conoceremos los problemas que tuvo Chat GPT para decidir si las personas que había en una tabla de excel eran la misma o no, cuando les cambiamos el orden de los términos o tienen segundo nombre.
