דיגיטל וטק
הסודות שמאחורי DeepSeek: מומחית ה-AI חושפת את הגורמים להצלחה
מודל הבינה המלאכותית של DeepSeek הצליח לעורר סערה בזכות גישה חדשנית שאפשרה לחברה להציב תחרות לענקיות כמו OpenAI. ד"ר שרון ילוב הנדזל, מרצה בכירה בבית הספר למדעי הנתונים ו-AI באפקה, חושפת את סוד ההצלחה, את הסיכונים, ואת התובנה המפתיעה על תפקידם הקריטי של המהנדסים בפיתוח המודל

בחודש האחרון עולם הבינה המלאכותית ושוק השבבים חווה תפנית דרמטית עם כניסת מודל ה-AI של DeepSeek הסינית לזירה. מדובר במודל שפה גדול (LLM) שהצליח לעורר סערה בתעשייה בזכות שילוב של ביצועים מרשימים ועלויות אימון נמוכות במיוחד - מה שהציב אותו כמתחרה ראוי למודלים המובילים של חברות כמו OpenAI. בשיחה עם ד"ר שרון ילוב הנדזל, מרצה בכירה בבית הספר למדעי הנתונים ובינה מלאכותית באפקה, מספקת מבט מרתק על DeepSeek.
ד"ר ילוב הנדזל, שהתמחתה באופטימיזציה של תכנון תנועה לרובוטים במכון ויצמן ובאוניברסיטת בר-אילן, מסבירה על הגורמים העיקריים שהביאו לשיפור המשמעותי של המודל של ביחס לאחרים, ועל השיטה שמוכיחה כי יכולת ההשפעה על השוק טמונה בכישרונם של המהנדסים בקצה, ולא בגודל החברה שבה הם עובדים.
כך DeepSeek הצליחה לעורר סערה עולמית
השאלה הראשונה שאנו מפנים לד"ר ילוב הנדזל היא השאלה שכולם שואלים - איך חברה אנונימית יחסית כמו DeepSeek הצליחה בתוך זמן קצר לתפוס כותרות בכל העולם? ד"ר ילוב הנדזל מסבירה כי המפתח להצלחת המודל טמון בגישה ייחודית שאינה דורשת כוח מחשוב עצום לצורך האימון. "המודל מצליח להשיג ביצועים תחרותיים מבחינת מדדי הצלחה של LLMs, אבל בעלות אימון נמוכה משמעותית," היא אומרת.
במודלי שפה גדולים (LLMs), אחת הבעיות המרכזיות היא העלויות האדירות הכרוכות באימון המודלים. ככל שהמודל גדול יותר, כך נדרש כוח מחשוב רב יותר ועיבוד של כמויות עצומות של דאטה – מה שמוביל להוצאות עתק. אבל איך בדיוק הצליח המודל להוזיל את עלויות האימון בהשוואה למתחרים? לדברי ד"ר ילוב הנדזל, DeepSeek בחרה בגישה שונה: במקום לאמן את כל המודל על כל המידע הזמין, היא התמקדה בשימוש רק בחלקים הרלוונטיים ביותר של הקלט והמודל עצמו: "במהלך האימון והרצת הפרומפטים, נעשה שימוש רק בחלקים הרלוונטיים של המודל ושל הקלט," היא מסבירה, מה שמאפשר חיסכון ניכר בעלויות.
האם ענקיות הטכנולוגיה צריכות לחשוש?
הגישה החדשנית הזו לא רק שהפכה את המודל של DeepSeek ליעיל וזול יותר, אלא גם עוררה עניין וחשש כלפי ענקיות כמו אנבידיה ו-OpenAI, והאם הן צריכות לחשוש מהמהלך. לדברי ד"ר ילוב הנדזל, מדובר בשינוי בלתי נמנע. "חברה כמו אנבידיה חייבת להפנים את המגמה שהולכת ומתחזקת – השגת ביצועים גבוהים גם על מודלים קטנים," היא מסבירה, ומדגישה את החשיבות בהתאמת הטכנולוגיה כדי לשמור על יתרון תחרותי בתחום המתפתח במהירות.
פריצת דרך או אשליה טכנולוגית?
כשחושבים על חברה סינית, קשה שלא לחשוב (בעיקר בגלל ניסיון העבר) האם DeepSeek מהווה פריצת דרך אמיתית או שמדובר בתעתוע טכנולוגי ובאחיזת עיניים שיתגלו בהמשך. ד"ר ילוב הנדזל מצננת את ההתלהבות, כאשר לדבריה, אין במודל של DeepSeek חדשנות מהותית בתחום הבינה המלאכותית עצמה. "הוא פשוט הקדים את כולם בשחרור המודל," היא מסבירה, אך מוסיפה כי מתחרות רבות עובדות כבר על אותן מגמות - הקטנת המודלים, שיפור ייצוג הדאטה, שימוש במודלי שפה מודולריים (מרובי מומחים), מיקבול יעיל יותר, והקניית יכולות מתקדמות להסקה לוגית.
לצד ההתלהבות מ-DeepSeek, עולות גם שאלות מטרידות בנוגע לסיכונים שהמודל עלול להוות עבור המשתמש הפשוט, במיוחד בתחום הפרטיות, השליטה במידע והיכולת להשפיע על דעת הקהל. ד"ר ילוב הנדזל מסבירה כי הסיכונים אינם ייחודיים ל-DeepSeek, אלא קיימים בכל מודל שפה גדול: "אנחנו מוסרים למודל המון דאטה על עצמנו ועל הפעילות שלנו," היא מתארת. "ובמקביל, אנחנו ניזונים ממידע שאין לנו וודאות לגבי אמינותו, בשל בעיות אינהרנטיות במודל." אולם במקרה של DeepSeek, החששות מתעצמים בגלל מוצא החברה המפתחת אותו. "אנחנו חשדניים יותר לגבי שני היבטים עיקריים – המידע האישי שנמסר למודל ואמינות המידע שהוא מספק," מדגישה ד"ר ילוב הנדזל. היא מצביעה על החשש מפני השפעה מכוונת והטיות זדוניות במודל, אפשרות שעשויה להיות ממשית יותר כאשר החברה המפתחת מגיעה ממדינה שבה קיימות מגבלות חמורות על חופש המידע.
האם אנחנו בדרך לשינוי מאזן הכוחות הגלובלי?
הצלחתו המהירה של DeepSeek עוררה גם דיון נרחב לגבי האפשרות שהוא ישנה את מאזן הכוחות הגלובלי בתחום הבינה המלאכותית, במיוחד בין סין לארצות הברית. ד"ר ילוב הנדזל סבורה כי מדובר בהפתעה, אך לא בפריצת דרך טכנולוגית שמעניקה יתרון אמיתי לסין. "המודל של DeepSeek חינמי ובעל ביצועים טובים, ולכן השימוש בו גובר," היא מסבירה, אך מדגישה כי אין בו טכנולוגיה שאינה קיימת כבר במערב. לדבריה, ההצלחה של DeepSeek נובעת מהשילוב בין מספר טכנולוגיות קיימות לבין שחרור בלתי צפוי של המודל לשוק. "זה מה שגרם למהומה סביבו," היא אומרת.
מודלים "חושבים" (Reasoning Models) כמו R1 של DeepSeek מתמקדים בשיפור יכולות ההסקה והחשיבה הלוגית של מערכות בינה מלאכותית, והם מעלים את השאלה האם מדובר בצעד אמיתי לקראת בינה מלאכותית כללית (AGI) – מערכות שיכולות לחשוב ולהבין עצמאית, או רק בשיפור של יכולות קיימות מבלי להתקרב באמת לתודעה או למחשבה עצמאית. ד"ר ילוב הנדזל סבורה שהעתיד מוביל לעבר AGI. "שחרורו של DeepSeek הוא עוד צעד קטן בכיוון," היא אומרת. עם זאת, היא מסבירה כי עדיין מתקיים ויכוח לגבי מהי בדיוק "תודעה" או "חשיבה עצמאית". לדבריה, המודלים בדרך לפתח יכולת "סימולציה" – כלומר, לדמות תודעה ויכולות קוגניטיביות מסדר גבוה.
הסכנה שבאימון מודלים על מידע ממודלים אחרים
עוד ב-
אחד האתגרים הגדולים בתחום הבינה המלאכותית היא האפשרות לאמן מודלים על מידע שנוצר בידי מודלי AI אחרים – שיטה שנעשה בה שימוש גם ב-DeepSeek, ושעלולה לגרום להפצת מידע שגוי בידי המודלים עצמם. ד"ר ילוב הנדזל מאשרת כי מדובר בסכנה ובחשש אמיתי: "זה בהחלט נכון, וזה בהחלט קורה," היא אומרת. מעבר לכך, היא מתריעה מפני תופעה חמורה יותר – "קריסת מודלים" המאומנים בעיקר על מידע שמקורו במודלים אחרים. "מצב כזה עלול להוביל להידרדרות מתמשכת באיכות ובאמינות המידע שמפיקות המערכות," היא מסכמת.
הכתבות החמות
תגובות לכתבה(0):
תגובתך התקבלה ותפורסם בכפוף למדיניות המערכת.
תודה.
לתגובה חדשה
תודה.
לתגובה חדשה
תגובתך לא נשלחה בשל בעיית תקשורת, אנא נסה שנית.
חזור לתגובה
חזור לתגובה