Soberanía de datos indígenas: la frontera que la IA aún no respeta

Por Yves Laurent | 2026-06-03

Hay una tendencia que se repite a lo largo de la historia con precisión llamativa. Alguien llega con herramientas de registro superiores, documenta lo que comunidades enteras refinaron durante generaciones y ese saber reaparece después en otro contexto, con otro nombre, generando riqueza para quien lo capturó. Lo que distingue el pasado del presente no es la lógica, sino el vocabulario que la envuelve.

La pregunta relevante no es si el conocimiento indígena se integra a los modelos de IA. Eso ya ocurre. Lo que importa es bajo qué condiciones sucede, con qué formas de consentimiento y quién retiene los beneficios cuando ese saber se convierte en ventaja competitiva para un modelo de lenguaje. Los datos codifican poder.

El paralelo histórico más directo viene de las expediciones botánicas coloniales. El Real Jardín Botánico de Madrid, Kew Gardens en Londres y la expedición de Humboldt sistematizaron saberes que comunidades indígenas habían perfeccionado durante generaciones: plantas medicinales, técnicas de cultivo, propiedades de compuestos naturales. Ese saber alimentó industrias farmacéuticas cuyas ganancias nunca llegaron a las comunidades amazónicas o mesoamericanas. El Convenio sobre Diversidad Biológica de 1992 buscó corregirlo; el Protocolo de Nagoya de 2010 estableció marcos para acceso y distribución de beneficios. Más de una década después, los avances siguen siendo limitados. La distancia entre reconocimiento formal y compensación real persiste.

La estructura es siempre la misma. Un saber generado colectivamente durante generaciones es sistematizado por actores externos con recursos superiores, convertido en activo económico o propiedad intelectual, y las comunidades originarias quedan fuera del ciclo de beneficios. Décadas más tarde llega el reconocimiento simbólico, sin redistribución concreta. Lo que ocurre con la IA replica ese flujo, aunque con una velocidad de extracción multiplicada.

Quien ha trabajado con sistemas de datos sabe que el proceso de digitalización del conocimiento tradicional trae implicaciones que no saltan a la vista de inmediato. Cuando el saber botánico indígena, las prácticas de manejo forestal o los sistemas de predicción climática ancestrales se convierten en texto para entrenar un modelo, el contexto comunitario se diluye en la codificación. Un modelo no aprende el conocimiento del pueblo Kayapó sobre el manejo del fuego. Absorbe regularidades estadísticas entre conceptos. La autoría colectiva, la transmisión oral y el contexto ritual que da sentido a esa información desaparecen en la tokenización.

Aquí surge un problema técnico que rara vez aparece en los debates de gobernanza. No existen todavía mecanismos aplicados a gran escala para rastrear la procedencia de saberes indígenas dentro de modelos grandes. Los principios CARE —centrados en colectividad, autoridad, responsabilidad y ética— surgieron como contrapeso a los principios FAIR, que priorizan accesibilidad y reutilización. CARE, sin embargo, permanece como propuesta académica. No hay etiquetado obligatorio que marque qué segmento de un modelo fue entrenado con conocimiento mapuche sobre plantas medicinales y requiere compensación a la comunidad específica. Esa infraestructura falta porque los incentivos no están alineados para construirla.

Las instituciones internacionales se posicionan como guardianes del conocimiento indígena mientras los marcos que realmente importan —los de propiedad de datos y compensación económica— siguen sin fuerza vinculante. La UNESCO, el CBD y varios organismos de la ONU producen declaraciones, recomendaciones y documentos de buenas prácticas. La integración de saberes indígenas en planes nacionales de adaptación climática es una sugerencia, no un requisito obligatorio en la mayoría de jurisdicciones. Hay investigadores que llevan años señalando que esta gobernanza simbólica puede funcionar como cobertura para la extracción real: mientras la conversación se centra en reconocimiento e inclusión, evita hablar de quién controla los modelos entrenados con ese conocimiento.

Técnicamente es viable diseñar alternativas, aunque políticamente resulte inconveniente. Los consentimientos informados se pueden codificar en contratos que establezcan condiciones de uso, límites y compensaciones automáticas. Las licencias para datos colectivos pueden incluir cláusulas específicas, similares a las que diferencian usos en Creative Commons. Las arquitecturas federadas permitirían a las comunidades retener dominio local mientras contribuyen a modelos más amplios. Estos enfoques enfrentan limitaciones reales, sobre todo donde las brechas digitales son profundas. No hay soluciones limpias. Aun así, la diferencia entre técnicamente difícil y técnicamente imposible importa, porque la versión dominante tiende a borrar esa distinción para justificar la inacción.

El escenario posterior a la COP30 añade urgencia e ironía. Los compromisos sobre combustibles fósiles quedaron por debajo de lo que las comunidades demandaban y, al mismo tiempo, el conocimiento de esas mismas comunidades sobre adaptación y manejo de ecosistemas es exactamente lo que los modelos necesitan para mejorar sus predicciones ambientales. Quienes más saben sobre vivir en equilibrio con ecosistemas que el resto del mundo daña son quienes menos dominio tienen sobre cómo ese saber se convierte en producto tecnológico. Esa contradicción rara vez aparece en los comunicados de las cumbres.

Lo revelador de este momento es la rapidez con que el lenguaje de la inclusión puede vaciar las demandas concretas. Gobernanza participativa, valorización del conocimiento tradicional, co-creación con comunidades: estas expresiones pueden significar consultas simbólicas que terminan en el mismo resultado de extracción, o pueden significar control real sobre los datos, veto sobre aplicaciones específicas y participación en los beneficios económicos. La diferencia no está en la retórica, sino en los detalles técnicos y legales que pocos con poder quieren negociar.

La tendencia colonial de apropiación científica no necesitaba villanos conscientes. Bastaban instituciones con incentivos para extraer y ningún contrapeso que las detuviera. Hoy las empresas que incorporan saberes tradicionales en sus modelos no requieren intención maliciosa. Solo necesitan que los marcos sigan siendo recomendatorios, que las comunidades carezcan de recursos legales para disputar la propiedad y que el debate público permanezca en principios en lugar de bajar a los contratos reales. Eso es exactamente lo que ocurre.

No tengo claro cómo resolver esto a corto plazo y sería deshonesto presentar una hoja de ruta cerrada. Lo que sí resulta evidente es que la convergencia entre gobernanza de IA y saberes indígenas generará tensiones sobre propiedad intelectual que las instituciones actuales no están equipadas para resolver. La presión tendrá que venir desde las propias comunidades que desarrollan marcos de soberanía de datos y desde quienes nombran la extracción aunque venga envuelta en lenguaje de preservación cultural.

¿Cómo haremos para que esta vez el conocimiento milenario beneficie primero a quienes lo han custodiado por generaciones?

Fuentes:

1. Convenio sobre Diversidad Biológica — Protocolo de Nagoya sobre Acceso y Participación en los Beneficios (2010), CBD Secretariat

2. Carroll, S.R. et al. — "The CARE Principles for Indigenous Data Governance", Data Science Journal (2020)

3. Wilkinson, M.D. et al. — "The FAIR Guiding Principles for scientific data management and stewardship", Scientific Data (2016)

4. Mignolo, W. — Local Histories/Global Designs: Coloniality, Subaltern Knowledges, and Border Thinking, Princeton University Press (2000)

5. Kukutai, T. & Taylor, J. (eds.) — Indigenous Data Sovereignty: Toward an Agenda, ANU Press (2016)

Soberanía de datos indígenas: la frontera que la IA aún no respeta

¿Te gusta el trabajo? Invítame un café.

Comentarios

Petra