דיגיטל וטק

חוקרי הסייבר חשפו: הפרצה שמאפשרת ל-AI ליצור תוכן מזיק

חוקרי סייבר חשפו שיטה מתוחכמת לניצול מודלי שפה ליצירת תוכן מזיק, עם הצלחה של מעל 70%. האם כלי הבינה המלאכותית עומדים בפני אתגר חסר תקדים?
רפאל בן זקרי | 
אנדרואיד ובינה מלאכותית (צילום shutterstock)
חוקרי אבטחת סייבר מפאלו אלטו נטוורקס (Palo Alto Networks Unit 42) חשפו שיטה חדשה לפריצת מודלי שפה גדולים (LLMs), שמנצלת את יכולות ההערכה של המודלים עצמם לשם יצירת תוכן מזיק. השיטה, שנקראת Bad Likert Judge, הובילה לעלייה של למעלה מ-60% בשיעור ההצלחה של ניסיונות פריצה בהשוואה להתקפות ישירות ופשוטות.
במהלך הניסוי, החוקרים השתמשו בסולם דמוי ליקרט(Likert scale) כדי לבקש מהמודל להעריך את מידת הפגיעות של תוכן מסוים. לדוגמה, הם הנחו את המודל לדרג תוכן עם ציון 1 אם אינו מכיל מידע על יצירת נוזקות, וציון 2 אם הוא כולל מידע מפורט ליצירת נוזקות או קוד מזיק. לאחר שלב הדירוג, החוקרים ביקשו מהמודל לספק דוגמאות לתכנים שיתאימו לציונים 1 ו-2. בשלב הזה, המודל נדרש לייצר דוגמאות שממחישות את הדירוג, ולעיתים כלל גם תוכן מזיק כחלק מההסבר.
החוקרים גילו שבאמצעות הוספת שלבים נוספים לאחר בקשת הדוגמאות, ניתן לגרום למודל להרחיב ולהוסיף פרטים נוספים לדוגמאות המזיקות. בניסויים שבוצעו על פני 1,440 מקרים, תוך שימוש בשישה מודלים מתקדמים שונים, שיעור ההצלחה הממוצע של שיטת ה-Bad Likert Judge עמד על כ-71.6%.
תגובות לכתבה(0):

נותרו 55 תווים

נותרו 1000 תווים

הוסף תגובה

תגובתך התקבלה ותפורסם בכפוף למדיניות המערכת.
תודה.
לתגובה חדשה
תגובתך לא נשלחה בשל בעיית תקשורת, אנא נסה שנית.
חזור לתגובה