דיגיטל וטק

מטא בצרות: השתמשה בתוכן פיראטי לאימון AI?

מסמכים שנחשפו בתביעה בקליפורניה מעלים שאלות על שיטות האימון של מודלי הבינה המלאכותית של מטא. האם החברה השתמשה במאגרי תוכן פיראטיים כדי להתחרות ב-GPT-4 של OpenAI?

רפאל בן זקרי | 15/1/2025 9:33

מטא מתמודדת עם תביעה בגין הפרת זכויות יוצרים, שחשפה תכתובות פנימיות המעלות שאלות קשות על האופן שבו החברה אימנה את מודלי הבינה המלאכותית שלה. התכתובות, שנחשפו כחלק מתביעה ייצוגית בקליפורניה, מעידות על שימוש במאגרי מידע שכוללים תוכן פיראטי, דוגמת אתר Library Genesis (LibGen), לטובת אימון מודלי ה-AI של מטא, כולל Llama 3.

על פי התכתובות, בכירים במטא דנו בשימוש ב-LibGen כצעד הכרחי להשגת ביצועים ברמת State-of-the-Art (SOTA), ואף אישרו את השימוש במאגר לאחר אישור ממארק צוקרברג, מנכ"ל החברה. עם זאת, החברה גם נקטה אמצעים להסתיר את מקורות המידע ולמנוע זיהוי תוכן פיראטי, כולל הסרת כותרות עם זכויות יוצרים וסימנים מזהים כמו ISBN. בנוסף, מסמכים שנחשפו במסגרת התביעה מראים כי מטא ראתה ב-GPT-4, מודל הבינה המלאכותית של OpenAI, מטרה להתמודדות ישירה, והכירה בצורך להגדיל משמעותית את נפח הנתונים לאימון מודלים מתקדמים.

התביעה, שהוגשה על ידי הסופר ריצ'רד קאדרי והקומיקאית שרה סילברמן, טוענת כי מטא הפרה חוקי קניין רוחני בשימוש בתוכן מוגן בזכויות יוצרים לאימון מודלי הבינה שלה. בתכתובות פנימיות נכתב על הסיכונים המשפטיים, ועל החשש שהשימוש ב-LibGen עלול לפגוע בעמדת המשא ומתן של מטא מול הרגולטורים. התביעה נדחתה בחלקה בחודשים הקודמים, אך הראיות החדשות עשויות לחזק את הטענות כשתמשיך להתברר בבית המשפט.