מושג אחד ביום – ICL

לחץ להאזנה

אוקי. היום נדבר על מושג לא מאוד נפוץ אבל מבחינתי הוא פצצת אטום – ICL

אפ אפ אפ.. נסחפת.. למה פצצת אטום?

על RAG שמעת??

בטח שמעתי! לא שהבנתי מה הוא אומר, אבל שמעתי.

אם אתה לא יודע – יש לנו פוסט מיוחד בבלוג הזה שמדבר על RAG, אמנם לא בסידרת ״מושג אחד ביום״ אבל הפוסט שם…

אה, אם זה לא בסידרה שאני משתתף בה אז לא מכיר.

אוקי. אז RAG זו התקווה הגדולה שמודלי שפה ידעו סוף סוף יום אחד מה קורה בעולם סביבם. כרגע הם מאוד מוגבלים בזה.

אם זה יקרה – אני מניח שנהיה במקום אחר לגמרי.

נכון מאוד. יש המון תקווה שנצליח לגשר על פערי הידע שיש למודלי שפה ביחס למציאות. כי כיום מודלי שפה, איך לומר זאת במילים עדינות – קצת מחרטטים.

קצת?!?!?!?! הם אבו-חרטא!

כן. זו האכזבה המרכזית ממודלי שפה. כש-ChatGPT יצא לאור היה המון עניין סביבו אבל רוב האנשים שהתנסו בו מהר מאוד גילו את הפער הזה והתאכזבו. אמנם מי שמבין בטכנולוגיה פחות נלחץ מזה, כי הוא מסתכל על דברים אחרת… אבל באופן כללי העולם קיוה מאוד שיש פה איזה מעין יצור יודע כל שפשוט ילווה אותנו בכל מעשינו – וזה לא ממש ככה.

אוקי, אז מה הקשר ICL?

ובכן, ICL זה בעצם המושג הנגדי ל-RAG אפשר לומר. כלומר על שניהם אנו מסתכלים בתור דרך ליישר מעט את המודל עם ידע ממשי. כאשר ICL פירושו

פאם פאם פאם פאם

(אתה תמיד עושה קולות כאלה?)

(לא.. רק כשאתה הולך לחשוף ראשי תיבות ממש מוזרים באנגלית…)

אז ICL פירושו: In-Context Learning שזה ״למידה בתוך קונטקסט״

׳קונטקסט׳ זה ׳הקשר׳, אני רק מסביר לצופים שלנו בבית…. (רפרנס. טינג…)

כן. אז בעצם למידה של מודלי שפה בדר״כ נחשבת תהליך של כיוונון המשקלים. כלומר ערכים מספריים, פרמטרים, שמשפיעים על הנוסחה שרשת הנוירונים מייצגת.

רשת נוירונים.

כן. בלי להלאות את הצופים בבית.. מודל שפה, זה בעצם רשת נוירונים, שאפשר לראות אותו כמו מח דיגיטלי, מערכת סבוכה שיוצרת חישובים מתמטיים. אז למידה היא שינוי במבנה המודל כך שהמח הזה לומד משהו חדש, הוא משתנה, ומעכשיו הוא יתנהג אחרת. כמו מח אמיתי, שכאשר הוא לומד משהו – אז הוא באמת עובר שינוי מסויים במבנה הפיזי שלו, בתוך רשת הנוירונים (עצבים) הסבוכה שלו.

אוקי, סבבה.

אז העניין עם ICL שזו למידה שאינה כרוכה בשינוי במבנה הרשת, אלא בצורה אחרת – על פי הקשר מילולי שניתן למודל. במילים אחרות: אם אנו רוצים שהוא יענה לנו על שאלות עדכניות בנוגע לחברי כנסת למשל

(מצאת לך נושא.. חחח)

אז אנחנו הולכים לויקיפדיה, בוחרים את כל הערך של הכנסת הנוכחית, מעתיקים, ומדביקים לפרומפט של המודל ואז אח״כ שואלים אותו שאלה ספציפית. והוא בעצם מצליח לענות לנו נכונה – לא בגלל שכיווננו לו את המשקלים אלא בגלל שיש לו בתוך ההקשר של השאלה את המידע הנחוץ.

אהה.

ולמעשה – גם RAG כיום (מי שקרא את המאמר דאז יודע) מבוסס בשלב האחרון שלו על ICL בתכל׳ס.. ולכן כל ההילה של RAG בטעות יסודה. אבל נניח לזה.

מה אתה בא לומר בעצם?

הו! נגעת בנקודה. בעתיד – הלא רחוק מן הסתם (כי אנחנו חיים בעידן ה-AI) אנחנו נזין המון ידע למודל שפה בתוך חלון ההקשר שלו.

חלון?

חלון ההקשר, כלומר התוכן שמודל שפה יכול לעבד. חוץ מפרומפטים אנחנו פשוט נזריק לו המון המון ידע על העולם שלנו, והוא יכיר בו. בלי לשנות את המודל כאמור אלא פשוט ידע שיהיה מונח לו בתוך ההקשר. זה מה שיאפשר לו להיות מדוייק, מקורקע, רלוונטי… ויכול להיות שאז החלום של ChatGPT שהרבה אנשים חלמו עליו – כן יתגשם.

אז למה זה לא קורה כבר עכשיו?

חלון הקונטקסט עדיין לא גדול מספיק. כלומר – הוא גדל בהתמדה אבל עדיין יש לו דרך לעשות. גם מליון טוקנים או שני מליון שיש היום (שזה בהחלט הרבה יותר מ1000 או 3000 שהיו לפני שנתיים) זה עוד לא מספיק כדי להחזיק בקביעות המון ידע רלוונטי על העולם. בנוסף ישנן עלויות גבוהות כאשר מריצים את המודל על כל כך הרבה טוקנים. אבל לדעתי שני הדברים הללו פתירים.

נכון, אני זוכר שחיינו בשנות ה-90 היתה תאוצה מטורפת של מעבדים. זוכר?

בטח זוכר. חוק מור.

מה שתגיד. אז אתה בעצם אומר שכמו שהמעבדים האיצו בטירוף אתה צופה שהמודלים יאיצו בטירוף.

נראה לי שכן. הם כבר מאיצים והם אולי יאיצו יותר. שוק ה-GPU צפוי להתרחב עוד באופן משמעותית. הרי הבינה המלאכותית תפסה אותנו בהפתעה, וחברת Nvidia באה מוכנה, אבל השוק מתאושש ותהיה עוד תחרות עזה וגם התפתחות עזה.

אז מה שאתה אומר שאוטוטו קונטקסט לא יהווה מכשול.

זו דעתי. אני חושב שאנחנו נזין מודלי שפה בערימות של טקסט, והוא יגרוס את זה כאילו היה מנת מז׳אדרה ביום חורף.

זה יהיה מהפכני.

כן, מהפכות באות בצרורות. יאללה נראה לי מיצינו.

כן. אז ICL – אין. RAG – אאוט.

ככה אני חושב.


Comments

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *