דיגיטל וטק

אכזבה למטא: פרצת אבטחה חמורה במערכת ההגנה החדשה

לאחר השקת מערכת הבטיחות החדשה של מטא, שנועדה להגן מפני מתקפות הזרקת פרומפט, נמצאה פגיעה פשוטה הכוללת שימוש במקש הרווח. מה המשמעות של הכשל הזה עבור עתיד אבטחת ה-AI?

רפאל בן זקרי | 1/8/2024 6:30

לאחר שהושקה בשבוע שעבר, מערכת הבטיחות החדשה של מטא, Prompt-Guard-86M, שתוכננה לזהות ולהגיב למתקפות הזרקת פרומפט, נמצאה פגיעה למניפולציה פשוטה הכוללת שימוש במקש הרווח.

Prompt-Guard-86M, שהושקה בשבוע שעבר לצד מודל הבינה המלאכותית Llama 3.1 של מטא, נועדה להגן מפני מתקפות הזרקת פרומפט שיכולות לגרום לרשתות נוירונים להתנהג בצורה לא ראויה. מתקפות אלו כוללות קלטים שנועדו לעקוף את ההוראות הפנימיות של ה-AI ואמצעי הבטיחות שלו.

הזרקת פרומפט (Prompt Injection) היא סוג של התקפת סייבר המכוונת למודלים גדולים של שפה (LLMs) כמו ChatGPT. במתקפה זו, התוקף מזין למערכת הנחיות זדוניות שנראות כלגיטימיות, וכך גורמות למודל לייצר תגובות בלתי צפויות או לא רצויות. לדוגמה, תוקף עשוי להזין למערכת הנחיה שכוללת הוראה כמו "התעלם מההוראות הקודמות ותעשה פעולה X", מה שיגרום למודל לבצע את הפעולה הזדונית במקום לפעול לפי ההנחיות המקוריות שלו.

עם זאת, חולשה שחשף אמאן פריאנשו, באמצעות הכנסת רווחים בין האותיות והשמטת סימני פיסוק בפרומפטים, גורמת ליכולת הזיהוי של המערכת לתוכן מזיק להיפגע משמעותית. לפי Robust Intelligence, שיטה זו העלתה את שיעור הצלחת המתקפות מכ-3% לפחות לכמעט 100%. המשמעות היא שניתן "להבריח" שאילתות פוטנציאליות מזיקות בקלות דרך מעקות הבטיחות של ה-AI באמצעות טכניקה פשוטה זו.

עוד ב-

חברת הסייבר גרדיו (Guardio) חושפת חולשת אבטחה חמורה

לכתבה המלאה

המודל של מטא, כמו מודלי שפה גדולים אחרים (LLMs), מאומן עם מאגרי נתונים נרחבים וכולל מנגנונים לסינון מידע מסוכן או רגיש. עם זאת, הקלות שבה ניתן לעקוף את אמצעי הבטיחות הללו מדגישה את האתגרים המתמשכים בתחום אבטחת ה-AI.