גוגל משנה את חוקי המשחק עם Gemini Embedding 2: מודל מולטימודאלי אמיתי

תוכן עניינים

הרשם עכשיו

גוגל משנה את חוקי המשחק עם Gemini Embedding 2: מודל מולטימודאלי אמיתי

בשנים האחרונות, כמעט כל מערכת בינה מלאכותית שמכבדת את עצמה נשענת על טכנולוגיה קריטית שנקראת Embeddings (הטמעות וקטוריות). טכנולוגיה זו מאפשרת לנו לקחת מידע (לרוב טקסטואלי) ולהמיר אותו למערך של מספרים (וקטורים) שמאפשר למחשב להבין הקשר, משמעות, ודמיון סמנטי בין מילים ומשפטים. אולם, העולם שלנו אינו מורכב רק מטקסט. אנחנו מתקשרים דרך תמונות, צלילים, וידאו ומסמכים מורכבים.

עד היום, ניסיון ליצור חיפוש חכם שמשלב את כל סוגי המדיה הללו הצריך עבודת פיתוח מסובכת, בניית מספר מודלים נפרדים, ותהליכי "גישור" שפגעו בדיוק ובביצועים. כעת, גוגל מודיעה על פריצת דרך משמעותית שתשנה את האופן שבו מפתחים וארגונים עובדים עם מידע: הכירו את Gemini Embedding 2 – מודל האמבדינג המולטימודאלי (Multimodal) הראשון בעולם שנבנה מראש (Natively) להבין את כל סוגי המדיה תחת קורת גג וקטורית אחת.

מה זה בעצם מודל אמבדינג מולטימודאלי ולמה הוא כל כך חשוב?

כדי להבין את גודל הבשורה, כדאי לחזור לבסיס. בעולם הבינה המלאכותית היוצרת (Generative AI), תהליכים כמו RAG (Retrieval-Augmented Generation) מאפשרים לספק למודל השפה ידע חיצוני ועדכני. עד היום, התהליך הזה היה מוגבל לרוב לטקסט: המשתמש שאל שאלה טקסטואלית, המערכת חיפשה במאגר מסמכי טקסט באמצעות מודל אמבדינג טקסטואלי, והחזירה תשובה.

אבל מה קורה כאשר המידע החשוב בארגון לא נמצא במסמך וורד, אלא בסרטון הדרכה בווידאו, בהקלטה של ישיבת הנהלה, או בשרטוט הנדסי סרוק?

Gemini Embedding 2 פותר בדיוק את הבעיה הזו. הוא לוקח מידע מגוון – טקסט, תמונות, קבצי שמע (אודיו), סרטוני וידאו וקובצי PDF – וממפה את כולם לתוך אותו "מרחב הטמעה" (Embedding Space) יחיד ואחיד. המשמעות היא שהמערכת כעת מבינה שמשפט בטקסט, תמונה שמתארת את אותו משפט, וקובץ קול שבו נאמר המשפט – הם כולם בעלי אותה משמעות סמנטית.

היכולת הזו "מיישרת קו" ומפשטת בצורה דרמטית בנייה של צינורות נתונים (Pipelines) מורכבים. במקום לתרגם קודם אודיו לטקסט, ואז להמיר את הטקסט לווקטור – המערכת יודעת לקלוט את קובץ האודיו המקורי, להבין את משמעותו, ולהמיר אותו ישירות לווקטור.

היכולות המרכזיות של מודל Gemini Embedding 2

מודל ההטמעה החדש של גוגל מבוסס על הארכיטקטורה המתקדמת של משפחת מודלי Gemini, והוא מציע מספר יכולות פורצות דרך ששמות אותו צעד אחד לפני המתחרים בשוק. הנה המפרט הטכני של המודל לפי סוגי המדיה שהוא תומך בהם:

1. הבנת טקסט עם חלון הקשר עצום

בעוד שהבסיס נשאר טקסטואלי, היכולת של המודל לעבד שפה שודרגה משמעותית. הוא מסוגל כעת לקלוט חלון הקשר (Context Window) רחב מאוד של עד 8,192 אסימונים (Tokens) בבקשה אחת. בנוסף, הוא מזהה, מבין ומקטלג כוונות סמנטיות בלמעלה מ-100 שפות שונות (כולל עברית, כמובן). יכולת זו מאפשרת הכנסת מסמכים ארוכים במיוחד להטמעה בודדת, מבלי לפצל אותם לחלקים קטנים שמאבדים מההקשר הכללי.

2. הטמעת תמונות ומסמכים ויזואליים

המודל מאפשר להזין עד 6 תמונות (בפורמטים הנפוצים של PNG ו-JPEG) בבקשה בודדת (API Request). המערכת יודעת לנתח את האלמנטים המצולמים או המצוירים, לפענח טקסט בתוך תמונה (OCR מובנה), ולהמיר את התוכן החזותי לווקטור סמנטי. יתרה מכך, המודל יודע לקלוט מסמכי PDF שלמים (עד 6 עמודים לבקשה) ולהבין את המבנה והתוכן שלהם כמקשה אחת, מבלי להזדקק לכלי חילוץ טקסט צד שלישי (Parsers).

3. ניתוח סרטוני וידאו

אחת מהיכולות המרשימות ביותר של Gemini Embedding 2 היא האפשרות להזין קבצי וידאו ישירות למודל. הוא תומך בסרטונים באורך של עד 120 שניות (2 דקות) בפורמטים MP4 ו-MOV. המערכת מפענחת את המתרחש בווידאו – החל מתנועות, אירועים ועד חפצים המופיעים בפריים – וממירה את הסרטון לייצוג וקטורי. יכולת זו פותחת צוהר לעולמות של חיפוש וידאו פנימי בארגונים (למשל: "מצא לי את הקטע בהקלטת הישיבה שבו המנכ"ל מציג את גרף המכירות").

4. הטמעת שמע (אודיו) בצורה מקורית (Native)

בעבר, כדי לחפש בתוך קבצי שמע, מפתחים היו צריכים להשתמש במודלי Speech-to-Text (כמו Whisper של OpenAI), להמיר את ההקלטה לטקסט, ורק אז להמיר את הטקסט לווקטור. Gemini Embedding 2 משנה את התמונה בכך שהוא קולט, מבין ומטמיע נתוני אודיו באופן טבעי (Native). המודל מאזין לקובץ, מבין את התוכן, את האינטונציה ואת המשמעות, ומייצר ממנו וקטור במרחב הסמנטי של שאר סוגי המדיה. הדבר מוזיל עלויות חישוב ומשפר דרמטית את זמני התגובה (Latency).

הכוח שבהזנת מדיה משולבת (Interleaved Input)

אחד החידושים המשמעותיים ביותר שמציע המודל אינו רק בתמיכה בכל מדיה בנפרד, אלא ביכולת של המודל לעכל "קלט משולב" (Interleaved Input).

מה זה אומר? מפתחים יכולים כעת לשלוח בבקשת API אחת טקסט, ומיד לאחריו תמונה, ולאחריה עוד טקסט – כמקשה אחת. המודל מנתח את כל סוגי המדיה הללו יחד, מבין את ההקשר והיחסים העדינים (Nuances) שביניהם, ומפיק וקטור אחד שמייצג את התמונה השלמה.

תארו לכם פלטפורמת מסחר אלקטרוני (eCommerce) שבה המשתמש מחפש "נעלי הרים שמתאימות לשטח הזה" ומצרף תמונה של הר בוץ וסלעים. המודל החדש מאפשר למערכת לקבל גם את הטקסט וגם את התמונה יחד, להבין את הכוונה המורכבת, ולשלוף מתוך המסד נתונים (Vector Database) את המוצר המדויק ביותר.

Gemini Embedding Matryoshka

גמישות באחסון: Matryoshka Representation Learning (MRL)

אחד האתגרים הגדולים בעבודה עם וקטורים הוא עלויות האחסון. מסדי נתונים וקטוריים (כדוגמת Pinecone, ChromaDB או Qdrant) מתמחרים לעיתים את השירות לפי מספר הממדים של הווקטור ולפי כמות הנתונים שמאוחסנים בזיכרון ה-RAM (מאחר שחיפוש וקטורי חייב להיות מהיר).

כדי להתמודד עם אתגר זה, גוגל הטמיעה ב-Gemini Embedding 2 טכנולוגיה חדשנית הנקראת Matryoshka Representation Learning (ובקיצור: MRL) – על שם בובות המטריושקה הרוסיות שמשתלבות אחת בתוך השנייה.

טכנולוגיה זו מאפשרת ל"קנן" (Nest) את המידע החשוב ביותר בממדים הראשונים של הווקטור. המודל פולט כברירת מחדל וקטור באורך של 3,072 ממדים (Dimensions). אולם, בזכות שיטת ה-MRL, מפתחים יכולים פשוט "לחתוך" את הווקטור ולקחת רק את 1,536 או אפילו רק את 768 הממדים הראשונים – ועדיין לקבל ייצוג סמנטי מדויק להפליא של המידע.

גמישות זו מאפשרת לצוותי פיתוח לאזן באופן דינמי בין צרכי הביצועים לבין עלויות האחסון והחישוב של המערכת. גוגל ממליצה למפתחים להשתמש בממדים של 3,072, 1536 או 768 כדי לקבל את האיכות הטובה והמדויקת ביותר, בהתאם ליכולות החומרה שברשותם.

איך זה ישפיע על מפתחים, חברות סטארט-אפ וארגונים?

ההשקה של מודל האמבדינג החדש של גוגל אינה מיועדת רק לחוקרי בינה מלאכותית, אלא מכוונת ישר לתעשיית ההייטק ולמפתחי האפליקציות שצריכים לספק פתרונות מהירים ואפקטיביים בשטח. הנה כמה דוגמאות לאופן שבו התעשייה יכולה לאמץ את הכלי החדש:

1. מהפכה בעולם הליגל-טק (Legal-Tech)

חברות העוסקות בפיתוח כלים לעורכי דין ולמערכות משפט נדרשות להתמודד עם כמויות אדירות של מסמכים מסוגים שונים. פלטפורמת 'Everlaw', שקיבלה גישה מוקדמת (Early Access) למודל, מדווחת כי השימוש באמבדינג המולטימודאלי מאפשר להם לחפש ראיות (Discovery Process) לא רק בטקסטים כתובים, אלא לפענח מידע הקשור לתיק המשפטי ישירות מתוך סרטוני אבטחה, תמונות זירה או הקלטות שמע של עדים. היכולת להשוות בצורה סמנטית בין עדות מוקלטת (Audio) למסמך משפטי (Text) היא בגדר מדע בדיוני שהפך למציאות.

2. קטלוג וידאו וכלכלת יוצרים

חברת הסטארט-אפ 'Sparkonomy' דיווחה כי בעזרת Gemini Embedding 2 היא הצליחה לצמצם את זמני ההשהיה (Latency) שלה בעד 70%, פשוט על ידי הסרת הצורך לבצע המרות נתונים מרובות באמצעות מודלי שפה (LLMs). החברה משתמשת במודל החדש כדי לקטלג מיליוני דקות של וידאו במקביל לטקסט ולתמונות, תוך עלייה חדה בדיוק ההתאמות (Semantic Similarity) של המערכת. המשמעות היא יכולת למצוא את סרטון היוטיוב המדויק ביותר שרלוונטי לחיפוש הטקסטואלי של המשתמש.

3. ארכיון זיכרונות אישיים (Personal Memories)

אפליקציות בריאות ו-Wellness יכולות כעת לקחת שיחות שמע מוקלטות של מטופלים, תמונות מחיי היומיום, ורישומי טקסט מיומנים אישיים, ולהכניס את הכל למאגר מרכזי אחד. חברת 'Mindlid' שעורכת ניסויים במודל דיווחה על עלייה של 20% ברמת הדיוק של שליפת המידע הנכון (Recall), מה שמאפשר לאסיסטנט האישי שלהם לענות לשאלות מורכבות תוך הצלבת מידע שנאמר בקול עם מידע שנכתב בטקסט.

הסיכום: מודל האמבדינג כבסיס לבינה מלאכותית ארגונית

ההכרזה של גוגל ו-Google AI Studio ממצבת את Gemini Embedding 2 לא רק כשדרוג גרסה, אלא כקביעת סטנדרט חדש בתעשייה. היכולת לאחד תחת מטריה מתמטית אחת את כל סוגי המידע האנושי – וידאו, שמע, מסמכים וטקסט – סוללת את הדרך לדור הבא של מערכות החיפוש ומנועי התשובות (Answer Engines).

ארגונים שישכילו לאמץ את המודלים המולטימודאליים כבר עכשיו, יוכלו לנצל באופן מקסימלי את "הידע החבוי" (Dark Data) שלהם – אותו מידע שעד כה ישב כאבן שאין לה הופכין בהקלטות של ישיבות, בסרטוני הדרכה ובמסמכים סרוקים. הזמינות של המודל כעת בגרסת 'Public Preview' באמצעות ממשקי ה-Gemini API וה-Vertex AI הופכת את הטכנולוגיה המורכבת הזו לנגישה ופשוטה להטמעה עבור כל מפתח המעוניין לבנות את החוויה הדיגיטלית הבאה.

  1. FAQ:
    מה זה Gemini Embedding 2?
    זהו מודל חדש מבית גוגל המאפשר המרה של טקסט, תמונות, קבצי שמע (אודיו), וידאו ומסמכים למספרים (וקטורים) בתוך אותו "מרחב" כדי שהמחשב יוכל להבין הקשרים מורכבים ודמיון סמנטי בין כל סוגי המדיה יחד.

באיזה אורך של וידאו או אודיו המודל תומך?
המודל תומך כיום בקליטת סרטוני וידאו באורך של עד 120 שניות (2 דקות) בפורמטים MP4 ו-MOV. בנוסף, הוא קולט טקסט בחלון הקשר של עד 8,192 אסימונים ומסמכי PDF של עד 6 עמודים בבקשה בודדת.

מהו היתרון המרכזי של מודל מולטימודאלי אמיתי?
היתרון הגדול הוא שאין צורך להמיר קודם מדיה אחת לאחרת (למשל, אין צורך להמיר שמע לטקסט). המודל "מקשיב" לאודיו או "צופה" בווידאו באופן ישיר (Native), מה שחוסך עלויות, מאיץ את המהירות ומונע אובדן של מידע עדין והקשרים רגשיים (אינטונציה, הבעות פנים וכו').

איך משתמשים במודל החדש?
המודל פתוח כעת לציבור (בשלב ה-Public Preview) וניתן לגשת אליו באמצעות ספריית ה-API הרשמית של גוגל (Google GenAI SDK) או דרך שירותי הענן של Google Cloud (פלטפורמת Vertex AI). המודל תומך באינטגרציה מלאה למסדי נתונים וקטוריים פופולריים כמו ChromaDB, Pinecone, ו-Weaviate.