דיגיטל וטק

מטא מסתבכת: האם זייפה את ביצועי מודל ה-AI החדש?

המודל החדש של מטא הרשים בדירוג פופולרי, אבל חוקרי בינה מלאכותית חושפים פער מעניין בין הגרסה שנבחנה לזו שהופצה בפועל למשתשמים. האם מטא תשחרר לציבור את הגרסה המלאה של מודל השפה?

רפאל בן זקרי | 7/4/2025 6:43

מודל הבינה המלאכותית החדש של מטא, Maverick, ששוחרר בשבוע האחרון כחלק ממשפחת Llama 4, דורג לאחרונה במקום השני במדד LM Arena – פלטפורמה שבה משתמשים משווים בין תשובות של מודלים שונים ובוחרים את המועדפות עליהם. אך לפי חוקרי AI, התוצאה הזו עשויה להטעות: הגרסה שהועלתה למדד שונה מהגרסה שהופצה בפועל למפתחים.

לפי פרטי העדכון הרשמי של מטא, המודל שדורג במדד הוא גרסה ניסיונית של Maverick, המותאמת במיוחד לשיחה טבעית ("optimized for conversationality"). באתר הרשמי של Llama צוין במפורש כי מדובר בגרסה שונה מזו שהופצה לציבור, מה שמעורר ביקורת בקהילת החוקרים על אמינות ההשוואה.

התאמה של מודל לביצועים טובים יותר במדד מסוים – מבלי לשחרר את אותה גרסה לציבור – עלולה להקשות על מפתחים להעריך כיצד יתפקד המודל במצבים אמיתיים. לפי החוקרים, הגרסה במדד LM Arena נותנת תשובות ארוכות במיוחד, מרובות אימוג'ים, ונראה שהיא שונה משמעותית ב"סגנון האישיות" שלה מהגרסה הפומבית.

בזמן שמטא טרם הגיבה רשמית לטענות, הביקורת מציפה סוגיה רחבה יותר על אמינות מבחני הביצועים בעולם הבינה המלאכותית, ועל הצורך בשקיפות כלפי הקהילה המקצועית והציבור הרחב.