דיגיטל וטק

מטא מציגה: צעד נוסף לעבר בינה מלאכותית בעלת אינטליגנציה אנושית

מטא מציגה את מודל הבינה המלאכותית I-JEPA - מודל הלומד באמצעות יצירת מודל פנימי של העולם החיצון, ומשווה ייצוגים מופשטים של תמונות, בשונה ממודלים נפוצים כיום המתבססים על הפיקסלים עצמם

מערכת ice | 13/6/2023 16:50

חברת מטא מציגה היום (שלישי) את מודל הבינה המלאכותית Image Joint Embedding Predictive Architecture (I-JEPA) - מודל הלומד באמצעות יצירת מודל פנימי של העולם החיצון, ומשווה ייצוגים מופשטים של תמונות, בשונה ממודלים נפוצים כיום המתבססים על הפיקסלים עצמם. I-JEPA מספק ביצועים חזקים במשימות ראייה ממוחשבת מרובות, והוא יעיל הרבה יותר מבחינה חישובית בהשוואה למודלים אחרים של ראייה ממוחשבת שנמצאים בשימוש נרחב בתעשייה. המודל, לצד נתוני האימון, יונגש על ידי מטא כקוד פתוח.

מודל זה נולד כתוצאה מחזונו של מדען הבינה המלאכותית הראשי של מטא, יאן לקון, לפתח ארכיטקטורה חדשה שתצליח להתגבר על מגבלותיהן העיקריות של מערכות הבינה המלאכותית, אפילו המתקדמות ביותר הקיימות כיום: ליצור מכונות שיכולות ללמוד כיצד העולם עובד, על מנת שיוכלו ללמוד מהר הרבה יותר, לתכנן את אופן הביצוע של משימות מורכבות, ולהסתגל בקלות למצבים בלתי-מוכרים.

העבודה של מטא על מודל I-JEPA ועל מודלים נוספים מבוססת על העובדה שבני אדם לומדים כמות עצומה של ידע על העולם רק מתוך התבוננות בו - וההשערה היא שמידע המבוסס על ההיגיון והשכל הישר (common sense) הוא המפתח לפיתוח התנהגות אינטליגנטית ל-AIת, כמו הבנה של מושגים חדשים, ביסוס ותכנון. חוקרי בינה מלאכותית מנסים כבר זמן רב לפתח אלגוריתמים המסוגלים להבין מידע על העולם מתוך היגיון פשוט ולאחר מכן לקודד אותו לייצוג דיגיטלי שהאלגוריתם יודע לגשת אליו מאוחר יותר. כדי להיות אפקטיבית, המערכת חייבת ללמוד את הייצוגים הללו בפיקוח עצמי - כלומר ישירות מנתונים שאינם מתויגים כמו תמונות או צלילים, ולא ממערכי נתונים מסומנים שהורכבו באופן ידני.

על ידי חיזוי ייצוגים ברמת הפשטה גבוהה, במקום חיזוי ערכי פיקסלים באופן ישיר, המודל יכול ללמוד ייצוגים שימושיים ישירות וכך להימנע ממגבלות הגישות הגנרטיביות, העומדות בבסיס מודלי השפה הגדולים. ארכיטקטורות גנרטיביות לומדות על ידי הסרה או עיוות של חלקים מהקלט למודל - למשל, מחיקת חלק מתמונה או הסתרת חלק מהמילים בקטע טקסט. לאחר מכן הם מנסים לחזות את הפיקסלים או את המילים הפגומים או החסרים. חסרון משמעותי של שיטות גנרטיביות אלה, הוא שהמודל מנסה למלא כל פיסת מידע חסר, למרות שהעולם מטבעו בלתי צפוי. וכתוצאה מכך, שיטות אלו עלולות לבצע טעויות שאדם לעולם לא יעשה, כיוון שהן מתמקדות יתר על המידה בפרטים לא רלוונטיים במקום לקלוט מושגים צפויים ברמה גבוהה יותר.

עוד ב-

מלחמת ה-AI מתחממת: עליבאבא משיקה צ'טבוט משלה

לכתבה המלאה

לעומת זאת, הרעיון העומד מאחורי I-JEPA הוא לחזות מידע חסר בייצוגים מופשטים, בדומה להבנה הכללית שיש לאנשים על העולם. בהשוואה לשיטות גנרטיביות המנבאות פיקסל מסוים במרחב, I-JEPA עושה שימוש ביעדי חיזוי מופשטים, ובכך מוביל את המודל ללמוד תכונות סמנטיות נוספות. ניתן לראות את יכולות הניבוי של I-JEPA כמודל עולם שנמצא בראשיתו (ומוגבל), אשר מדגים אי-ודאות מרחבית בתמונה סטטית מתוך הקשר שניתן לצפייה חלקית, וכזה שיכול לנבא מידע ברמה גבוהה על אזורים בלתי-נראים בתמונה, ולא פרטים ברמת הפיקסלים. כך, I-JEPA מהווה דוגמא לפוטנציאל של ארכיטקטורות ללמוד ייצוגי תמונה מתחרים, ללא צורך בידע נוסף. בעתיד, מטא תמשיך לעבוד על מנת להרחיב את גישת ה-JEPA לתחומים אחרים, כגון נתונים מותאמים בין תמונה לטקסט או נתוני וידאו - וזהו צעד חשוב לקראת יישום והרחבה של שיטות בפיקוח-עצמי ללימוד מודל כללי של העולם.