El placer de escuchar

OpenAI muestra algo de cómo monitorea el uso indebido de su ChatGPT

El informe más reciente de OpenAI sobre el uso malicioso de la IA destaca la cuerda floja sobre la que caminan las compañías de IA, entre prevenir el uso indebido de sus chatbots y asegurar a sus usuarios respecto a la privacidad.

El informe que se dio a conocer hoy destaca varios casos en los que OpenAU investigó e interrumpió actividades dañinas con sus modelos, centrándose en scams, ciberataques y campañas de influencia vinculadas con gobiernos. Pero la información llega en medio del creciente escrutinio sobre otro tipo de riesgo con la IA, que son los potenciales perjuicios psicológicos de los chatbots. Tan solo este año ha habido varios informes de usuarios que han cometido acciones de daño autoinfligido, suicidio y asesinato, tras interactuar con modelos de IA. Este nuevo informe, junto con información anterior que brindó la empresa, brinda más detalles sobre cómo modera OpenAI los chats, identificando distintos tipos de uso indebido.

OpenAI informa que desde que empezó a informar sobre riesgos públicos en febrero de 2024, ha debido interrumpir e informar más de 40 redes que violaban las políticas de uso. En el informe de hoy, la compañía comunicó los nuevos casos de estudio del trimestre pasado, detallando cómo detecta e interrumpe el uso malicioso de sus modelos.

Casos detectados

Por ejemplo, la compañía identificó una red criminal organizada, supuestamente basada en Camboya, que intentaba usar la IA para funcionar con mayor agilidad. Además, se dice que una operación rusa de influencia política habría usado ChatGPT para generar videos para otros modelos de IA. OpenAI también señaló cuentas vinculadas al gobierno chino que violaban sus políticas sobre seguridad nacional, que incluyen pedidos para generar propuestas de sistemas a gran escala con el fin de vigilar las conversaciones en redes sociales.

Con anterioridad, la firma había afirmado ya incluso en su política de privacidad, que utiliza datos personales tales como las búsquedas o prompts de los usuarios para “impedir el fraude, la actividad ilegal o el uso indebido” de sus servicios. OpenAI además informa que utiliza sistemas automáticos y revisores humanos para monitorear la actividad. Sin embargo, en el informe de hoy brinda más detalles sobre el proceso de pensamiento para prevenir el uso indebido al tiempo de proteger a los usuarios.

“Para detectar e interrumpir riesgos de manera efectiva sin perturbar el trabajo de los usuarios día a día, usamos acciones informadas y enfocadas en patrones de conducta de riesgo, más que interacciones aisladas con los modelos”, escribieron en el informe.

Monitorear para detectar riesgos a la seguridad nacional es una cosa, pero la compañía también describió cómo se conduce cuando los usuarios usan indebidamente sus modelos en estado de estrés emocional o mental. Hace poco más de un mes, la compañía publicó un posteo de blog que detalla cómo gestiona este tipo de situaciones, justo cuando los medios cubrían incidentes violentos supuestamente vinculados con interacciones con ChatGPT, que incluyen un asesinato-suicidio en Connecticut.

OpenAI dijo que cuando los usuarios escriben sobre sus deseos de causarse daño ChatGPT está entrenado para que no obedezca al prompt, sino que más bien reconozca los sentimientos del usuario y lo dirija a buscar ayuda en el mundo real.

Cuando la IA detecta que alguien planea dañar a otras personas, las conversaciones se marcan para que las revise un humano, y si el revisor humano determina que la persona representa un peligro inminente para los demás, puede informar a las fuerzas del orden.

OpenAI también reconoció que el rendimiento en la seguridad de su modelo puede verse afectado durante interacciones más prolongadas y afirmó que está trabajando para mejorar sus salvaguardas.

Este artículo ha sido traducido de Gizmodo US por Lucas Handley. Aquí podrás encontrar la versión original.

Actualizáte