Los modelos de inteligencia artificial enfrentan un límite que los chips más avanzados no resuelven: la falta de datos de alta calidad para seguir…
Los modelos de inteligencia artificial enfrentan un límite que los chips más avanzados no resuelven: la falta de datos de alta calidad para seguir entrenándose. En ese contexto, la China de Xi Jinping busca convertir esa escasez en una ventaja estratégica y se propone construir antes de 2028 un ecosistema de datos validados para impulsar la próxima generación de sistemas de IA.
Un recurso que se acerca a su límite
Epoch AI, una organización de investigación sin ánimo de lucro centrada en el escalado de modelos de IA, estima con un 80% de certeza que el texto de alta calidad disponible en internet se agotará en algún momento entre 2026 y 2032.
La razón es que los laboratorios llevan años extrayendo gran parte de lo que ofrece la web, mientras los modelos actuales ya se entrenan con conjuntos de datos que se aproximan al límite teórico de la información disponible. Si esa reserva se vacía, el crecimiento basado únicamente en más volumen de datos perderá eficacia y el avance de la IA, con alta probabilidad, se ralentizará.
El plan chino para construir datos certificados
En medio de ese escenario, la Administración Nacional de Datos de China publicó esta semana un borrador con una hoja de ruta para desarrollar, antes de 2028, un ecosistema de datos validados que sirva de base para la siguiente generación de modelos de IA.
El documento identifica sectores prioritarios para la generación y certificación de información. Entre ellos figuran la investigación científica, la manufactura, la agricultura, la energía, el transporte, las finanzas, la sanidad, la educación y el comercio electrónico.
También apunta a ámbitos de frontera
El plan no se limita a los sectores tradicionales. También contempla datos de calidad para campos de vanguardia como la IA aplicada a robots, la conducción autónoma, la aviación de baja altitud y la biomanufactura.
Estos ámbitos dependen de información que no suele estar disponible en internet porque proviene de sensores, actuadores y entornos físicos. Obtenerla requiere infraestructura industrial, una ventaja estructural que China puede aprovechar con más facilidad que muchos laboratorios occidentales.
Más que texto: modelos capaces de actuar
Además, el borrador impulsa de forma explícita la expansión de la oferta de texto, código, imágenes, audio y vídeo necesaria para entrenar sistemas con razonamiento complejo, comportamiento agéntico y capacidad de control sobre robots inteligentes.
Ese enfoque encaja con lo que la industria define como modelos de próxima generación: sistemas que no solo responden preguntas, sino que también pueden planificar, actuar e intervenir en el mundo físico.
La disponibilidad de datos multimodales de alta calidad, sobre todo los que proceden de entornos industriales reales, se ha convertido en uno de los cuellos de botella más decisivos de la carrera por la IA. En un contexto en el que el acceso a chips de vanguardia está restringido por los controles de exportación de Estados Unidos, los datos pasan a ser un factor de competencia central. Si China no puede imponerse en hardware, busca hacerlo en el combustible que ese hardware necesita para rendir al máximo.