09-07-2024

¿Cumple ChatGPT con los principios en materia de protección de datos? El CEPD publica un informe con las principales conclusiones del ChatGPT Taskforce

El CEPD, con el claro objetivo de acercar la normativa de protección de datos a otros actos jurídicos de la Unión Europea y, en especial, al Reglamento de Inteligencia Artificial, entendió necesaria la creación del ChatGPT Taskforce y, en consecuencia, del Informe que aquí se analiza.

El objetivo principal del grupo creado fue la puesta en común de las interpretaciones de las Autoridades de Control en materia de protección de datos en el marco de las investigaciones a ChatGPT. Recordemos que ChatGPT y, en general, los modelos de lenguaje de gran tamaño (en adelante, por sus siglas en inglés, “LLM”) son modelos de aprendizaje automático entrenados con grandes cantidades de datos que pueden realizar diversas tareas de procesamiento del lenguaje natural. En otras palabras, los LLM son capaces de responder al lenguaje humano produciendo un texto totalmente coherente.

Se han planteado diferentes dudas relacionadas con problemas de protección de datos derivados de su uso. Por ello, el Informe incluye un cuestionario como anexo que recoge un conjunto común de preguntas formuladas en las diferentes sesiones. En definitiva, el objetivo era promover un enfoque coordinado de las investigaciones. Varias autoridades de control utilizaron este cuestionario como punto de partida para el intercambio de información con OpenAI.

No obstante lo anterior, las conclusiones deben entenderse como opinión preliminar del CEPD. Tras las investigaciones de las autoridades de control podrá proporcionarse una descripción completa. En este sentido, debe tenerse en cuenta que las conclusiones de las investigaciones pueden cambiar con el tiempo.

El Informe resalta que, en los últimos años, los LLM han crecido exponencialmente, trayendo consigo grandes beneficios para los usuarios. No obstante, y retomando la idea de su entrenamiento con grandes cantidades de datos, no podemos olvidar los riesgos que su utilización puede conllevar. Por eso, es importante establecer acciones claras y concretas para el cumplimiento del Reglamento (UE)2016/679 del Parlamento Europeo y del Consejo, de 27 de abril de 2016, relativo a la protección de las personas físicas en lo que respecta al tratamiento de datos personales y a la libre circulación de estos datos y por el que se deroga la Directiva 95/46/CE (en adelante, el “Reglamento General de Protección de Datos” o “RGPD”).

Partiendo de lo anterior, el Informe incluye el análisis de los siguientes puntos:

1. Bases de legitimación.

Para el estudio de la licitud de los tratamientos que se llevan a cabo, es necesario distinguir entre diferentes etapas, entre ellas:

a. Recogida de los datos de entrenamiento, tratamiento previo de los datos y entrenamiento de los mismos.

Durante estas etapas, existe un claro riesgo: la recogida de datos de fuentes disponibles públicamente en internet como entrenamiento de ChatGPT (técnica denominada “web scraping”). Es casi imposible evitar la recogida de datos personales en este proceso, algunos de ellos, incluso, de carácter sensible.

Normalmente, el responsable del tratamiento intenta basar el tratamiento en el interés legítimo (artículo 6.1.f) del RGPD). Como se recuerda en el Informe, esto requiere evaluar, por un lado, el interés legítimo del responsable del tratamiento y, por otro, los derechos y libertades fundamentales de los interesados, así como sus expectativas razonables.

Adicionalmente, deberán establecerse salvaguardas adecuadas para reducir el impacto en los interesados.

Aunque estas salvaguardas están pendientes de concreción en las investigaciones actuales de las autoridades de control, el Informe adelanta algunas, entre las que figuran:

Medidas técnicas que definan criterios precisos de recogida de datos.
Garantía de la exclusión de determinadas categorías de datos o fuentes para el web scraping.
Previa anonimización de los datos personales para el entrenamiento de ChatGPT.

Además de lo anterior, para aquellos datos de categorías especiales, plantea la excepción del artículo 9.2.e) del RGPD (“el tratamiento se refiere a datos personales que el interesado ha hecho manifiestamente público”). Sin embargo, el mero hecho de que los datos personales sean de acceso público no implica que el interesado los haya hecho manifiestamente públicos. Por lo anterior, para poder acogerse a dicha excepción, el responsable del tratamiento deberá comprobar si el interesado tenía la clara intención, manifestada de forma explícita y a través de una clara acción afirmativa, de hacer accesibles sus datos personales. El Informe reconoce, no obstante, que una evaluación caso por caso resulta casi imposible.

b. Input, output y entrenamiento de ChatGPT

Estas etapas se centran en la interacción de los sujetos con ChatGPT a través de la inclusión de datos o la carga de archivos (“input”) y las respuestas facilitadas por ChatGPT (“output”). El input y el output es denominado por ChatGPT como “Contenido” y declara utilizarlo como entrenamiento para la mejora de su modelo con base en el artículo 6.1.f) del RGPD.

Lo anterior debe ser claramente informado a los usuarios, incluyendo la opción de la negativa de uso de su “Contenido” con fines de entrenamiento del modelo. Sin duda, esta circunstancia se tendrá en cuenta en la ponderación del interés legítimo.

2. Licitud, lealtad y transparencia

El artículo 5.1.a) del RGPD, en palabras del CEPD, exige que los datos personales no se traten “de manera injustificadamente perjudicial, ilegalmente discriminatoria, inesperada o engañosa para el interesado”.

El cumplimiento del párrafo anterior es una obligación del responsable del tratamiento, sin la posibilidad de transferir los riesgos al interesado. La responsabilidad de garantizar el cumplimiento del RGPD es de OpenAI y no de los interesados.

ChatGPT, por tanto, no podrá entender cumplida esta obligación con (i) la mera colocación de una cláusula en los Términos y Condiciones que indique que los interesados son responsables de los datos personales introducidos en ChatGPT o (ii) la prohibición de la inclusión de grandes volúmenes de datos en ChatGPT por parte de los interesados, pues cabe suponer que estos últimos acabarán introduciéndolos.

3. Obligaciones de transparencia e información

Las obligaciones de transparencia e información deben estudiarse desde dos puntos de vista diferentes:

a. En primer lugar, cuando los datos personales son recogidos de manera directa de fuentes de acceso público (como, por ejemplo, sitios web), se deberá cumplir con lo establecido en el artículo 14 del RGPD. No obstante lo anterior, entendiendo el gran volumen de datos recogidos mediante web scraping, facilitar información a cada uno de los usuarios no es posible. El Informe entiende aplicable, por tanto, la excepción del 14.5.b) del RGPD, siempre que se cumplan todos los requisitos que en él se imponen. Esto es, no será aplicable la obligación del artículo 14 cuando “la comunicación de dicha información resulte imposible o suponga un esfuerzo desproporcionado” tanto que “pueda imposibilitar u obstaculizar gravemente el logro de los objetivos del tratamiento”.

b. En segundo lugar, cuando los datos personales son recogidos mientras se interactúa con ChatGPT, se deberá atender a lo establecido en el artículo 13 del RGPD. Tal y como ya se adelantaba, es importante en este punto que ChatGPT informe del uso del “Contenido” del usuario con fines de entrenamiento del modelo.

4. Exactitud y actualización de los datos

Dada la metodología seguida para el entrenamiento del modelo (recogida de datos mediante web scaping, aprendizaje mediante input y output…), cabe la posibilidad de que los resultados sean sesgados e inexactos. Por ejemplo, en ocasiones, ChatGPT utilizará datos erróneos como fuente de aprendizaje y ello conllevará que los resultados facilitados por el modelo sean, de la misma forma, erróneos.

No obstante lo anterior, se deberá respetar, en todo caso, el principio de exactitud de los datos.

Es importante, además, que el responsable del tratamiento facilite información sobre la metodología utilizada para la creación de respuestas y resultados, así como de la fiabilidad de los mismos. Esto es, deberá indicar que sus resultados, aunque redactados de manera correcta, pueden contener sesgos o información inventada.

Facilitar información a los usuarios es beneficioso para evitar malas interpretaciones. No obstante, no es suficiente para el cumplimiento del principio de exactitud de los datos.

5. Derechos del interesado

El Informe resalta la importancia de que los afectados puedan ejercer sus derechos de una forma sencilla.

Para el ejercicio de derechos, OpenAI ofrece la posibilidad de contacto a través de correo electrónico, así como a través de la cuenta personal del usuario (dependiendo del derecho que el usuario quiera ejercer). Todo ello, así como el procedimiento que debe seguirse, se encuentra recogido en la Política de Privacidad.

Además, OpenAI sugiere a los usuarios la solicitud de la supresión y no de la rectificación cuando esta última no sea posible.

Como se adelantaba, las conclusiones del Informe no deben considerarse definitivas. Los resultados de las investigaciones de las autoridades de control podrán proporcionar cambios, por lo que será necesario esperar para conocerlas.

El texto completo del Informe se encuentra disponible en el siguiente enlace.

María Luisa González

Alicia Bermejo

Actualidad Protección de Datos Inteligencia Artificial

Volver al blog