איך מפיקים תובנות מ-125 מיליארד שיחות בחודש?
כיצד מצליחים ארגוני ביון כגון ה-NSA וה-GCHQ לנתח את כמויות מידע אסטרונומיות שהם אוגרים? על ידי שימוש בכלים לניתוח ביג דאטה
בשולי פרשת ההדלפה של האזנות הסתר, שביצעה הסוכנות לביטחון לאומי (NSA), המקבילה האמריקאית של יחידת 8200 הישראלית, נחשפה גם הכמות האדירה של מידע אותו צוברת ואוגרת סוכנות הביון האמריקאית. הדיווחים בתקשורת הבינלאומית מדברים על האזנה בממוצע ל-3 מיליארד שיחות טלפון, אי מיילים, מסרונים ותקשורות דיגיטליות נוספות מדי יום, עם פיקים המגיעים לרמות של עד 125 מיליארד שיחות בחודש.
- פייסבוק פיתחה תוכנת ביג דאטה ומוסרת אותה בחינם
- הטכנולוגיות שינצחו את הבחירות לשלטון המקומי
- כיצד משנים מחשוב הענן וביג דאטה את עולם הבידור
מדובר בכמות מידע שמעמידה באור חדש לחלוטין את המשמעות של המונח ביג דאטה (Big Data), ומעלה את השאלה – איך מפיקים תובנות מאוקיינוס של מידע בסדרי גודל שאינם דומים לכול מה שהכרנו עד כה?
כדי להמחיש את גודלו של אוקיינוס המידע בו מחזיקה הסוכנות לביטחון לאומי די אם נבחן את היכולות של הדטה סנטר החדש שהיא מקימה במדבריות מדינת יוטה בארצות הברית. במתקן זה, שלפי פרסומים בתקשורת העולמית מוקם בהשקעה של 1.7 מיליארד דולר, קיימת קיבולת איחסון מידע של 5 זטה בייטים (zettabytes), שווה ערך ל-5 מיליארד טרה בייט, או למעלה מ-5 שנות תעבורה ברשת האינטרנט העולמית כולה.
בכול קנה מידה, מדובר בניסוח מחדש של אתגרי הביג דאטה. אם במגזר העסקי הנפחים של ביג דאטה מגיעים במידת לארג', עם צבירה של פטהבייטים, אז במקרה של ה-NSA כבר מדובר בנפחי מידע של אקסרא-אקסטרא לארג'. הצורך בהפקת תובנות המודיעין מחייב שימוש מהיר במידע, לעיתים מיד עם זרימתו אל הארגון, והוא צריך לבצע זאת על כול סוגי המידע: מידע מובנה או כזה שעבר אינדוקס, אך גם מידע רב שאינו מובנה: טקסט, אודיו, וידאו, קבצי לוגים ועוד.
אולם אחד האתגרים המרכזיים הוא לא רק ביכולת לכרות את היהלומים מתוך אוקיינוס המידע, ולייצר את התובנות והקשרים הנדרשים כדי להפיק מודיעין מהמידע, אלא לעשות זאת בזמן אמת (Real Time) או בקירוב לזמן אמת (Near Real Time).לשם כך פיתחו חברות הטכנולוגיה הגדולות פתרונות ייעודיים לניתוח בזמן אמת של המידע המוגדר כביג דאטה– Real Time Big Data. מדובר בטכנולוגיות המאפשרות ניתוח של המידע מיד בכניסתו בשערי הארגון, תוך כדי תנועה (Data in Motion), וזאת להבדיל מהמצב כאשר ארגון מאחסן את המידע ומבצע ניתוח שלו בחלון זמן מאוחר יותר (Data at Rest). מדובר ביכולת שמאפשרת להצליב מספר רב של מקורות מידע בזמן אמת, ולספק תמונה מקיפה וכוללת סביב האובייקט הנתון למעקב.
אולם השימושיות של ניתוח ביג דאטה בזמן אמת אינה עוצרת רק במגזר הביטחוני, אלא נמצאת כבר היום בשימוש הסקטור העסקי. כך בארגונים גדולים בעולם שם היישום נמצא כבר היום בשימוש רחב, ובארץ כאשר אנו רואים ניצנים ראשונים של כניסה לתחום. הדוגמאות מהעולם הן רבות, וכוללות את מגזרי הבנקאות, טלקום, רפואה, תחבורה, ריטייל, אינטרנט ועוד.
כך לדוגמא, בתחום הטלקום מתאפשר לחברות הסלולר לבצע ניטור בזמן אמת של רישומי מיליארדי פרטי שיחות מדי יום, עיבוד של הנתונים בזמן אמת, זיהוי ותיקון בזמן אמת של בעיות רשת או קליטה של לקוחות, חיזוי ומניעה של נדידת לקוחות ועוד. בתחום הרפואה גם כן נעשה שימוש בטכנולוגיה הזו, כאשר ניתוח בזמן אמת של נתונים ממאגרי הבריאות של קופות החולים מאפשרים לחשוף סימנים מוקדמים להתפרצות מחלות, ואף להגביר את הרפואה המונעת באמצעות זיהוי מבעוד מועד של אזרחים בעלי פרמטרים רפואיים המראים פוטנציאל גבוה ללקות במחלה.
לסיכום, פרשת האזנות הסתר שמה זרקור על היכולת לאסוף ולנתח מידע בכמויות גדולות, כאשר לא מדובר רק ברשויות ביטחון, כדוגמת ה-NSA, שלפי הדיווחים עוסקת באיסוף מידע רחב ובקנה מידה עולמי, אלא גם כאשר מדובר בשימושים אזרחיים ועסקיים שמטרתם לשפר את תחומי השירות ללקוחות או אף למנוע תחלואה והצלת חיים.
הכותב הינו מנכ"ל חברת אקטיביו