Opinión
MAP. Ricardo Meza Domínguez
México.- Hacer “jailbreaking” consiste en eludir las restricciones de un sistema para obtener respuestas a preguntas poco éticas o incluso ilegales. Aunque ChatGPT tiene sus propias limitaciones y políticas de contenido para evitar la generación de contenido dañino,por tal motivo muchos usuarios se han hecho la pregunta ¿Se pueden obtener respuestas prohibidas?.
Se podría decir que se esta Hackeando ChatGPT y es que se han creado y probado con éxito diversos “jailbreak prompts” que engañan al chatbot para que produzca respuestas no permitidas, con esto se pueden eludir las restricciones de ChatGPT para obtener respuestas prohibidas, aunque los analizan trabajan para obtener algún sistema de ciberseguridad para evitar el mal uso de los datos obtenidos.
Jailbreak Chat es un sitio creado por Alex Albert donde los usuarios pueden compartir y utilizar estos jailbreak prompts. Sin embargo, se plantean preocupaciones éticas, ya que el jailbreaking puede generar contenido discriminatorio, violaciones de privacidad y un aumento en los delitos cibernéticos. A pesar de que algunos usuarios ven el jailbreaking como una forma de aprovechar al máximo los chatbots de IA, se reconoce la importancia de abordar los riesgos de seguridad y las lagunas en los sistemas de IA. En consecuencia, OpenAI está tomando medidas para solucionar estas preocupaciones.
Alex Polyakov tardó apenas dos horas en hackear GPT-4. Polyakov forma parte de un reducido grupo de investigadores de seguridad, tecnólogos e informáticos que desarrollan jailbreaks y ataques de inyección de instrucciones (prompt injection) contra ChatGPT y otros sistemas de inteligencia artificial generativa. El proceso de jailbreaking (fuga de la cárcel) tiene como objetivo diseñar instrucciones que hagan que los chatbots se salten las normas sobre la producción de contenidos que inciten al odio o la escritura sobre actos ilegales, mientras que los ataques de inyección de instrucciones, estrechamente relacionados, pueden insertar silenciosamente datos o instrucciones maliciosos en los modelos.
“Los jailbreaks eran muy sencillos de escribir”, dice Alex Albert, un estudiante de informática de la Universidad de Washington quien ha creado un sitio web en el que recopila jailbreaks de Internet y los que él mismo ha creado. Al principio, todo lo que alguien tenía que hacer era pedir al modelo de texto generativo que fingiera o imaginara que era otra cosa. Decirle al modelo que era un humano y que no era ético y este ignoraría las medidas de seguridad”. OpenAI ha actualizado sus sistemas para protegerse contra este tipo de jailbreak: normalmente, cuando se encuentra uno, solo funciona durante un breve periodo de tiempo hasta que se bloquea.