This AI Chatbot is Trained to Jailbreak Other Chatbots

Gli LLM “in produzione” sono intrinsecamente in svantaggio rispetto alle Ai che attaccano.

I primi devono difendersi sempre, avere il 100% di attacchi fermati e quindi non possono sbagliare. Ai secondi basta avere successo una volta sola e non importa se sbagliano altre 99.

Non puoi fidarti dell’output di un LLM, senza una significativa supervisione umana e correzione dell’output.

Oltre a questioni di licenze e temi di copyright, anche per questo non e’ detto che siano vantaggiosi nelle applicazioni reali. Stiamo vedendo tante proof of concept ma poco oltre.

Lungi da sostituire professionisti, possono fare il lavoro degli stagisti, se pero’ il costo di addestramento e correzione dell’output è minore del costo che avremmo a fare le cose direttamente.

Dovremmo vedere gli LLM come stagisti digitali, non come professionisti…

Concetto che ho cercato di illustrare qui.

Source: Vice

Now, a team of researchers says they’ve trained an AI tool to generate new methods to evade the defenses of other chatbots, as well as create malware to inject into vulnerable systems. Using a framework they call “Masterkey,” the researchers were able to effectively automate this process of finding new vulnerabilities in Large Language Model (LLM)-based systems like ChatGPT, Microsoft’s Bing Chat, and Google Bard.

“By manipulating the time-sensitive responses of the chatbots, we are able to understand the intricacies of their implementations, and create a proof-of-concept attack to bypass the defenses in multiple LLM chatbots, e.g., CHATGPT, Bard, and Bing Chat,” wrote the international team of researchers

Continua qui: This AI Chatbot is Trained to Jailbreak Other Chatbots

If you like this post, please consider sharing it.

Leave a Comment

Your email address will not be published. Required fields are marked *