ל-Big Data יש פוטנציאל פיתוח אינסופי. בואו לגלות מה זה ביג דאטה ושלוש הסיבות לכך שהוא הפך פופולרי רק ב-2010.


בשלב מסוים, התחלנו להיתקל במילה הלא מוכרת ביג דאטה באמצעות אמצעי תקשורת שונים. עברו רק שנים ספורות מאז שמילים אלו נכנסו לשימוש פופולרי. עם זאת, נעשה בו שימוש מוגזם על ידי התקשורת לאחרונה עד שביטויים כמו "שיווק באמצעות נתונים גדולים" מרגישים כעת משעממים עבורנו. אז מה יש ביג דאטה ובכריית נתונים שהופך אותם לכל כך פופולריים?

ביג דאטה פירושו, מילולית, מערך נתונים עצום. כל נתונים שניתן לאחסן באמצעי אחסון, ממספרים פשוטים ועד תמונות במעגל סגור מורכבות, יכולים להפוך ל-Big Data על ידי איסוף שלהם יחד ליצירת סט, ללא קשר לפורמט. במילים אחרות, מההיבט הפורמלי של הנתונים, אין הבדל בין נתונים קודמים לביג דאטה. עם זאת, אם ביג דאטה הם פשוט נתונים בגודל גדול, הם היו צריכים להיות פופולריים כמו שהם עכשיו בסוף שנות ה-90 ותחילת שנות ה-2000, כאשר טכנולוגיית המחשבים התפתחה במהירות. עם זאת, ישנן שלוש סיבות מדוע נתונים גדולים הפכו פופולריים רק בשנות ה-2010:

קודם כל, הסיבה הגדולה ביותר היא שינוי הפרדיגמה בפיתוח CPU. CPU (Central Processing Unit) הוא המוח של המחשב המבצע משימות חישוביות. בעבר, קצב הפיתוח היה כל כך מהיר עד שחוק מור, הקובע שביצועי המעבד מכפילים את עצמו כל 18 חודשים, זכה להסכמה רחבה. עם זאת, בשנת 2004, פיתוח המעבדים הגיע לגבול שנקרא 'קיר 4GHz'. בעבר, הכיוון של פיתוח ה-CPU היה להגביר את המהירות של יחידת עיבוד אחת על ידי הגדלת מספר הטרנזיסטורים (רכיבי מחשוב) המוכנסים לליבה אחת (יחידת מחשוב). עם זאת, לשיטה זו הייתה בעיית חום רצינית מכיוון שככל שהשילוב של טרנזיסטורים גדל, שטח פיזור החום של כל טרנזיסטור ירד. יצרני המעבדים לא הצליחו בסופו של דבר לפתור את בעיית החימום הזו. כתוצאה מכך, שילוב הטרנזיסטור לא עלה על רמה מסוימת, ומהירות הפעולה של ליבה אחת נשארה סביב 4GHz. עם זאת, במקום להגדיל את מספר הטרנזיסטורים בליבה, יצרני המעבדים מצאו דרכים אחרות להתמודד עם בעיית החום. פריצת דרך חדשה נמצאה על ידי פיתוח מעבד רב ליבות שכלל מספר ליבות בתוך המעבד. בעוד שמעבדי ליבה בודדים קיימים מעבדים משימות מרובות לפי סדר ליבה אחת, מעבדים מרובי ליבות מגבירים את מהירות העיבוד על ידי חלוקה והקבילה של משימות מרובות על פני מספר ליבות ועיבודן בו זמנית. מעבדים מרובי ליבות אלה הפכו פופולריים יותר ויותר, והתפתחה טכנולוגיית מחשוב מקביל המעבדת נתונים בו-זמנית. כתוצאה מכך, ניתן כיום לטפל בצורה מהירה וקלה יותר בכמויות אדירות של נתונים שבעבר לא ניתן היה לטפל בהם עקב מגבלות במהירות המחשוב.

לא רק הפופולריות של מעבדים מרובי ליבות, אלא גם הפיתוח של אמצעי אחסון מילאו תפקיד גדול בפתיחת עידן הביג דאטה. במקרה של דיסקים קשיחים, אמצעי אחסון מייצג, הנתונים מאוחסנים על לוחות מתכת הנקראים פלטות. פותחו טכנולוגיות כמו אינטגרציה משופרת של רשומות מגנטיות ומעבדים מרובי ליבות להכנסת פלטות מרובות לדיסק קשיח אחד. הודות לכך, קיבולת האחסון גדלה בצורה נפיצה, עד כדי כך שמוצרים עם שטח אחסון של 8TB הפכו פופולריים בשנות ה-2023, שהיו רק 1GB בשנות ה-90. כמו כן, בניגוד לדיסק הקשיח האיטי יחסית, צצו מדיות אחסון חדשות עם מהירות גבוהה כגון SSD (Solid State Drive). הפך קל יותר לנצל כמויות גדולות של נתונים שבעבר לא ניתן היה לאחסן בגלל שטח אחסון לא מספיק או שהיה קשה לעבד בגלל מהירויות קריאה וכתיבה איטיות גם אם אוחסנו.

ההתקדמות ב-CPU ובמדיה אחסון אפשרה לנצל כמויות גדולות של נתונים שבעבר לא ניתן היה לחשב או לאחסן. עם זאת, ההבדל המהותי בין הנתונים הגדולים של היום לבין הנתונים הגדולים בעבר טמון באופן איסוף הנתונים. מכשירים חכמים ו-SNS, שהפכו פופולריים במהירות בשנות ה-2010, שינו את הפרדיגמה של איסוף הנתונים. מכשירים חכמים המחוברים ישירות או בעקיפין לרשת אוספים נתוני משתמש באמצעות חיישנים שונים כגון מצלמות, GPS (מערכת מיקום גלובלית) ו-NFC (תקשורת שדה קרובה). והנתונים האלה מועלים כל הזמן לרשת. בנוסף, משתמשי SNS כמו פייסבוק וטוויטר מעלים כל הזמן את המידע האישי שלהם לרשת. בעבר, איסוף הנתונים נעשה כדי לקבל רק נתוני יעד ספציפיים שנושאי איסוף הנתונים ראה בהם חשיבות. עם זאת, איסוף הנתונים הנוכחי אוסף ללא הבחנה כמויות אדירות של נתונים הזורמים דרך הרשת דרך מכשירים חכמים ו-SNS. בנוסף, ככל שטכנולוגיית הרשת מתפתחת בהדרגה, סוגי האובייקטים המחוברים לרשת הולכים וגדלים. במילים אחרות, עם הופעת האינטרנט של הדברים (IOT), תחום איסוף הנתונים מתרחב עוד יותר.

בדרך זו, המושג ביג דאטה צץ דרך השילוב ההרמוני של פיתוח מעבדים מרובי ליבות, פיתוח אמצעי אחסון והרחבת היקף איסוף הנתונים. נכון לעכשיו, מספר רב של חברות, ממשלות וקבוצות אחרות חופרות בנתונים הגדולים שאספו כדי למצוא אוצר, וכלי תקשורת שונים מדגישים את חשיבות הביג דאטה. אבל יותר מכל, מה שאנחנו צריכים לקחת בחשבון לגבי ביג דאטה הוא שהביג דאטה הנוכחי הוא רק ההתחלה. בעתיד יתפתחו מעבדים מרובי ליבות כדי שיוכלו לבצע חישובים מהירים יותר בו זמנית, ואמצעי אחסון יתפתחו כדי להיות מסוגלים לאחסן יותר נתונים מהר יותר. ועוד ועוד דברים יתחברו לרשת וישלחו את הנתונים שאספו לרשת. ייתכן שהביג דאטה הנוכחי שאנו תופסים כיום כגדולים לא יהיו גדולים בכלל בעידן הבא של ביג דאטה.