קריסת הענק של CrowdStrike תשפיע על אנשי המחשוב: כל הפרטים
התקלה הגדולה בהיסטוריה של עולם המחשוב, עליה שמענו בסוף השבוע האחרון, היא דוגמה מעולה לאתגרים שעשויים להיתקל בהם מנהלי התשתיות בחברות רבות במשק. חיים אינגר' מהלשכה לטכנולוגיות מידע' מסביר כיצד התקלה הגדולה בהיסטוריה תשפיע על אנשי המחשוב
התקלה הגדולה בהיסטוריה של עולם המחשוב, עליה שמענו בסוף השבוע האחרון, היא דוגמה מצוינת לאתגרים שעשויים להיתקל בהם מנהלי התשתיות בחברות רבות במשק. אחת המשימות המרכזיות בעבודתו של מנהל התשתיות היא ניהול תקלות. כאשר תקלה מתרחשת, במיוחד כשמדובר בתקלות גדולות המשפיעות על תפקוד הארגון כולו, הלחץ יכול להיות עצום.
להיות מנהל תשתיות המחשוב בארגון הוא תפקיד מאתגר, תובעני ומלא אחריות. ניהול תשתיות המחשוב כולל מגוון של משימות כמו תחזוקת שרתים, רשתות תקשורת, אחסון נתונים, אבטחת מידע וניהול תקלות.
כל אלו דורשים מיומנויות טכניות גבוהות, יכולת ניהול זמן ומשאבים, וכן יכולת להתמודד עם מצבי לחץ. למעשה, הדבר דומה לעבודה בחדר מיון של בית חולים לעומת מחלקה פנימית, בהבדלה של תלות בחיי אדם. כל יום יכול להביא הפתעות בלתי צפויות.
התקלה שהתרחשה ביום שישי בבוקר, ונגרמה כתוצאה מטעות קשה של חברת CrowdStrike, חשפה את הצורך בתגובה מהירה ומקצועית. במהלך התקלה, מנהלי התשתיות נדרשו לפעול במהירות על מנת לזהות את מקור התקלה, להודיע לגורמים הרלוונטיים בארגון, ולהתחיל בפעולות התאוששות.
במקרים כאלה, כל דקה חשובה ויכולה להשפיע על כמות הנתונים שנפגעים ועל משך הזמן שהארגון אינו פעיל. גם ארגונים בהם המוצר של חברת CrowdStrike לא נמצא בשימוש, הושפעו לרעה כתוצאה מממשקים עם גופים חיצונים כמו בנקים שהשתמשו במוצר הגנת הסייבר של CrowdStrike.
אחד מהאתגרים המרכזיים הוא ניהול המידע והתקשורת. מנהל התשתיות חייב להיות בקשר עם צוותי התמיכה, צוותי האבטחה, ספקי השירות והלקוחות. עליהם לספק מידע מדויק וברור לגבי המצב, ולעדכן את כל הגורמים בהתפתחויות. יכולת התקשורת והניהול במצבים כאלה היא חיונית, שכן ניהול כושל עלול להחמיר את המצב ולפגוע באמון הארגון.
בנוסף, מנהל התשתיות צריך להיות מוכן לקבל החלטות קשות תחת לחץ. לא תמיד יש זמן לבחון את כל האפשרויות והפתרונות האפשריים, ולעיתים צריך לקחת סיכונים מחושבים. במהלך התקלה של CrowdStrike, היה צורך לבצע פעולות מהירות כמו ניתוק מערכות, ניסיונות אישוש מהיר לשירותים, ובמקרים מסוימים, גם קבלת החלטות על הפעלת תשתיות חירום.
מנהל תשתיות טוב יודע שגם בתפקידו, כמו בכל תחום אחר תקלות מתרחשות, ואין מערכת שהיא חסינה לחלוטין. חשוב להכיר בעובדה זו ולהיות מוכן להתמודד עם הבלתי נמנע. ניהול נכון של תשתיות כולל גם תכנון וניהול סיכונים, הקמת תוכניות גיבוי והתאוששות, וביצוע בדיקות שוטפות לוודא שהמערכות מתפקדות כראוי.
למרות הנחת העבודה הזאת, כל אחד ממנהלי התשתיות מכיר את נקודות החולשה שגרמו לתקלה הנ"ל, אך אנחנו סומכים על יצרני התוכנה הגדולים בעולם שהם בטח טובים מאיתנו.
הרי אין סיכוי שאין להם בדיקות איכות ברמה בסיסית ביותר, כמו זו שגרמה לתקלה האחרונה. אז מסתבר שלא כך הדבר. תקלות פשוטות, שיכלו להימנע, הן היום יום שלנו, כמו גם של חברות ענק שונות. הגיע הזמן לדרוש מחברות אלה את הדברים הבסיסים שכל מנהל תשתיות דורש מאנשיו – יכולת הפצה מדורגת, של כל עדכון, בשליטה של הלקוח עם ניהול פשוט של הנושא.
לסיכום, חיי מנהל תשתיות המחשוב בארגון הם חיים של אתגרים בלתי פוסקים. צריך לזכור שתקלות הן חלק בלתי נפרד מהעבודה, ויכולת ההתמודדות איתן היא שמבדילה בין מנהל תשתיות טוב למעולה.
כותב המאמר הוא חיים אינגר מהלשכה לטכנולוגיות מידע.