El mes pasado, GOV.UK publicó discretamente los resultados de su prueba piloto con el asistente de programación basado en IA. Sin bombo ni platillos. Sin rueda de prensa ministerial. Solo datos sólidos que mostraban que más de 1 000 desarrolladores de 50 departamentos habían ahorrado casi una hora al día gracias al uso de herramientas de IA.
Después de escribir sobre el fiasco de Microsoft Copilot, que costó 54 000 libras y solo aportó unas mejoras «mínimas» en la productividad, esto me pareció un poco diferente. El mismo Gobierno que había fracasado estrepitosamente en la implantación de una IA en un ámbito había acertado de pleno en otro.
¿Y qué hicieron de diferente?
La prueba del AI Coding Assistant (AICA) se llevó a cabo entre noviembre de 2024 y febrero de 2025. A diferencia del enfoque indiscriminado de Copilot, esta iniciativa fue específica: se ofrecieron 2.500 licencias a desarrolladores que se dedican profesionalmente a la programación. Los resultados fueron notables.
El ahorro de tiempo fue, de media, de 56 minutos por jornada laboral. Eso supone un ahorro de 28 días laborables al año por desarrollador. No son 2,2 horas a la semana, como en otras pruebas, sino casi una hora cada día.
Y lo que es más importante, los indicadores de satisfacción mostraban una realidad muy diferente:
- El 72 % afirmó que las herramientas ofrecían una buena relación calidad-precio para su organización
- El 58 % no querría volver a trabajar sin la ayuda de la IA
- El 65 % completó las tareas más rápido, el 56 % resolvió los problemas de forma más eficaz
Compárese esto con la prueba general de Copilot, en la que solo el 30 % lo utilizaba a diario y la mayoría no era capaz de detectar cuándo la IA se inventaba cosas.
Lo que han acertado: los fundamentos
Eligieron a las personas adecuadas. En lugar de seleccionar al azar a funcionarios públicos y cruzar los dedos, se centraron en los desarrolladores, personas que ya conocían la revisión de código, la depuración y el control de calidad. Estos usuarios contaban con las habilidades necesarias para evaluar de forma crítica los resultados de la IA.
Eligieron las herramientas adecuadas. GitHub, Copilot y Google Gemini Code Assist no son perfectas, pero están diseñadas específicamente para tareas de programación. Estas herramientas se adaptaban al trabajo, a diferencia de los chatbots de uso general a los que se les pide que lo revolucionen todo.
Miden lo que realmente importa. En lugar de promesas vagas sobre la productividad, hacen un seguimiento de indicadores concretos: el tiempo ahorrado en la creación, el análisis y la revisión del código. Los datos muestran que los desarrolladores ahorraron 24 minutos al día solo en la programación y el análisis.
Mantuvieron los estándares de calidad. Solo el 15,8 % del código sugerido por la IA se aceptó sin modificaciones. Esto demuestra que los desarrolladores estaban haciendo bien su trabajo, revisando y mejorando los resultados de la IA en lugar de aceptarlos sin más.
El factor humano, intacto
Una de las diferencias más llamativas de esta prueba es que no pretendía sustituir a los desarrolladores. Por el contrario, se centró en potenciar sus habilidades actuales.
El 39 % de los usuarios que afirmaron haber utilizado código sugerido por la IA seguían tomando decisiones fundamentadas sobre qué aceptar, modificar o rechazar. La IA se convirtió en un sofisticado sistema de autocompletado, no en un sustituto del programador.
Tal y como afirman los expertos de The Gen AI Academy:
«Las mejores aplicaciones de la inteligencia artificial no eliminan el criterio humano, sino que proporcionan a las personas una base de trabajo más sólida». Erik Schwartz
«La mayoría de los éxitos que he observado en las empresas que han emprendido este camino se deben a que han partido de los usuarios, de sus dificultades o carencias, y les han ayudado, mediante formación y orientación, a incorporar las herramientas adecuadas. Con unas reglas básicas y unos objetivos claros, pueden contribuir a su consecución y medir sus resultados en función de ellos» Hugo MC Pinto
Esta prueba tuvo éxito precisamente porque conservó el factor humano que hace posible un buen desarrollo de software: el pensamiento crítico, la revisión de la calidad y la comprensión del contexto.
Por qué esto es importante más allá del ámbito gubernamental
El ensayo de programación ofrece un modelo para implementar con éxito la inteligencia artificial en cualquier lugar:
Empieza por los usuarios con experiencia. No esperes que la IA convierta por arte de magia a las personas sin experiencia en expertas. Utilízala con personas que ya conozcan el ámbito y sean capaces de evaluar los resultados.
Adapta las herramientas a las tareas. Deja de intentar usar la IA general para todo. Las herramientas especializadas funcionan mejor para trabajos especializados.
Mide resultados concretos. «Aumento de la productividad» no significa nada. «24 minutos ahorrados en la creación de código» es un dato útil.
Hay que contar con la intervención humana. Si el 85 % de los resultados de la IA necesita ser revisado, eso no es un error: está funcionando tal y como se esperaba.
La incómoda verdad sobre el éxito de la IA
La prueba de programación del Gobierno tuvo éxito precisamente porque fue aburrida. No hubo grandes promesas de transformación. Tampoco se afirmó que fuera a sustituir departamentos enteros. Solo una pregunta sencilla: ¿puede la IA ayudar a los desarrolladores a escribir código más rápido?
La respuesta fue que sí, siempre que se llevara a cabo una implementación adecuada, se impartiera la formación necesaria y se tuvieran expectativas realistas.
La mayoría de las organizaciones fracasan con la IA porque intentan resolver el problema equivocado. Quieren que la IA solucione sus disfunciones, elimine sus necesidades de formación o transforme su cultura. La iniciativa gubernamental de programación funcionó porque tenía un objetivo sencillo: hacer que los buenos programadores fueran un poco más eficientes.
¿Y ahora qué?
Los resultados de la prueba no influyen en futuras contrataciones; al parecer, esa decisión recae en otra instancia del Gobierno. Sin embargo, el éxito obtenido ofrece un modelo que otros departamentos (y organizaciones) deberían estudiar detenidamente.
El contraste entre este ensayo y el fracaso de Copilot radica en la implementación, la selección de usuarios y el hecho de tener expectativas realistas y comprobables sobre lo que la IA puede hacer realmente.
Cuando escribí sobre la prueba piloto de Copilot, varias personas me preguntaron si creía que la IA en la administración pública estaba condenada al fracaso. Esta prueba de programación sugiere que no es así, pero el éxito pasa por hacer bien el trabajo, en lugar de limitarse a esperar que la tecnología por sí sola resuelva los problemas organizativos.
El Gobierno ha acertado al abordar la IA como una herramienta sofisticada que requiere usuarios cualificados, y no como una fórmula mágica capaz de convertir a cualquiera en un experto. Esa es una lección que conviene recordar a cualquiera que implemente la IA, ya sea en Whitehall o en una startup local.
Helena McAleer es cofundadora de thegenAIacademy.com . Pone en contacto a organizaciones que implementan IA con expertos del mundo real que saben cómo obtener resultados de la forma correcta —y sí, ¡sigue usando el guion largo!