שפה וקוגניציה בעידן הצ׳ט GPT
בשנה האחרונה אנו רואים קפיצת מדרגה שמתחוללת ביכולות ה־AI , כשמודלי שיחה מתקדמים כמו ChatGPT מעצבים ומשנים לא רק את העולם הטכנולוגי אלא היבטים רבים מחיינו. אולם היקף ההשפעה של מודלים חדשים אלה ועוצמתם על חיינו, וכל שכן השפעתם העתידית, לא לגמרי ניתנים לאומדן. לצד היתרונות הרבים שמציעים המודלים כמו ארגון, הנגשה, ייעול ואוטומטיזציה, הדמיון ליכולות אנושיות או אף בהיבטים מסוימים היכולת להתעלות מעל יכולות אנושיות, מעוררים דאגה ומעלים שאלות חדשות על ידע, שפה, אתיקה, חברה, יצירתיות ועוד. במילים אחרות, כניסתו של שחקן חדש לזירה האנושית, ההולך ומשתכלל ביכולותיו הלשוניות, מעמיד בשאלה את מעמדה הייחודי של התבונה האנושית. כחלק מנושא הגיליון הנוכחי "אפשרות של דיאלוג" חברי מערכת עיון: גלעד קינן, ישראל י. כהן, רגב יאירי, אריאל כהן וקרן שחר, שוחחו עם פרופ׳ רוני קציר, מומחה לבלשנות חישובית, מהחוג לבלשנות באוניברסיטת תל אביב, על האפשרויות והמגבלות של הדיאלוג הדיגיטלי החדש אשר הפך למילה האחרונה בימים אלה.
האם תוכל להסביר לנו מהי בדיוק פריצת הדרך שעליה מדובר, איך פועל ה־ChatGPT ובמה מתבטאת ההצלחה של המודלים הלשוניים החדשים?
ChatGPT של OpenAI ודומיו כגון Bard של Google מבוססים על ארכיטקטורות של רשתות נירונים מלאכותיות מהשנים האחרונות שמאפשרות בנייה של מודלי שפה מוצלחים מאוד. מודל שפה (Language Model) הוא פונקציית הסתברות שנותנת הסתברויות למחרוזות של תווים. למשל, אם אנחנו עובדים עם האלף־בית הלטיני, אז דוגמה למודל שפה (לא מעניין במיוחד) היא פונקציה שנותנת את ההסתברות 0.7 למחרוזת aaa , את ההסתברות 0.3 למחרוזת bcdef , ואת ההסתברות 0 לכל מחרוזת אחרת. מודל שפה אחר (עדיין פשוט אבל קצת יותר מועיל מהדוגמה הקודמת) ייתן הסתברות למחרוזת בהתאם לשכיחויות היחסיות של האותיות שמרכיבות את המחרוזת: מחרוזת קצרה שמורכבת מאותיות שכיחות בלבד – למשל eaee – תקבל הסתברות גבוהה יחסית, ואילו מחרוזת ארוכה, או כזאת שיש בה אותיות נדירות, תקבל הסתברות נמוכה. מודל קצת יותר טוב יביא בחשבון גם את ההקשר של כל אות: למשל, ההסתברות של u תהיה גבוהה בהרבה אחרי q מאשר אחרי. k מהשם ׳מודל שפה׳ יכול להשתמע שמדובר בתיאוריה רצינית לגבי השאלה איך שפה עובדת. אבל השם הוא רק מונח טכני לפונקציית הסתברות על מחרוזות, וכפי שאפשר לראות מהדוגמאות למעלה מודל שפה יכול להיות חסר כל קשר לתיאוריה אמיתית של השפה – למעשה, כל המודלים השימושיים של השפה מבוססים על רעיונות שאין בינם לבין תיאוריה של השפה כל קשר. אבל הם שימושיים מאוד, ואחד השימושים העיקריים בהם הוא ככלי להשלמת טקסטים. בהינתן רישא, אפשר לבדוק מה ההסתברויות שמודל השפה נותן להמשכים שונים, ואז אנחנו יכולים לבחור למשל את ההמשך הסביר ביותר או להגריל מן ההמשכים בכל פעם בהתאם להסתברויות השונות. כשמודל השפה מוצלח מספיק, ההמשכים ייראו לנו טבעיים. הארכיטקטורות החדשות מוצלחות מאוד במובן הזה, וההמשכים שהן מגרילות נראים פעמים רבות כמו משהו שדובר אנושי היה אומר. מה שעומד מאחורי ההצלחות האלה הוא פיתוחים בתחום של רשתות נירונים מלאכותיות. מדובר במערכות ששואבות השראה מסוימת ממערכות עצבים ביולוגיות: כמו ברשתות ביולוגיות, הרשתות המלאכותיות מורכבות מהמוני יחידות עיבוד קטנות עם קישוריות גבוהה בין היחידות. אבל הדמיון לרשתות הביולוגיות מוגבל ביותר ומשמש לכל היותר כהשראה כללית. רשת שכזאת יכולה להיות הבסיס למודל שפה, ונוח מאוד להשתמש בה כדי לנחש המשכים של מחרוזות: המידע נכנס לתוך הרשת ומתגלגל בין יחידות העיבוד שבתוכה, בהתאם למבנה הרשת ולחוזק הקשרים בין היחידות, ואז בקצה השני ניתן לקרוא את הפלט כפונקציית הסתברות על ההמשכים השונים. כדי שהמודל יהיה טוב וייתן הסתברויות שמקרבות את ההסתברויות האמיתיות צריך שחוזקי הקשרים ייבחרו באופן מוצלח, ובדרך כלל הערכים האלה נקבעים תוך אימון על קורפוס של השפה הרלוונטית. בהתחלה הרשת מנבאת באופן מאוד לא מוצלח, אבל אז מעדכנים את חוזקי הקשרים ומשפרים את הניבוי, ואחרי מספיק חזרות על התהליך הרשת כבר מנבאת הרבה יותר טוב. בארכיטקטורות החדשות ישנם המוני קשרים, דבר שמאפשר לאפסן כמויות גדולות של מידע, ונוסף על כך מבנה הרשת מקל על למידה וייצוג של תלויות ארוכות טווח בטקסט. את הרשתות האלה מאמנים על קורפוסים עצומים, ובסוף התהליך הן מנבאות המשכים באופן מאוד משכנע, אם כי חשוב להוסיף שבמודלים מסוג ChatGPT התהליך האוטומטי שתיארתי הוא רק שלב ראשון ואחריו יש עוד עבודת ִכוונון על ידי בני אדם.
מהי למעשה ההבטחה או ההבטחה לכאורה של מודלים אלה? בשדה הבלשני וגם בפילוסופיה של הלשון ישנה מחלוקת לגבי היומרה המיוחסת למודלים ונוצר ויכוח בדבר היכולות של הפיתוחים החדשים. האם תוכל להסביר את הוויכוח?
מודלים עדכניים כדוגמת ChatGPT טובים באופן משמעותי ממודלים מוקדמים יותר של רשתות נירונים, וההצלחה שלהם בייצור המשכים שנראים אנושיים מרשימה כהישג הנדסי. ההצלחה הזאת הרשימה גם לא מעט מדענים קוגניטיביים, וחלקם התחילו להציע שיש לבני האדם בראש משהו דומה מאוד למודלים האלה. לפי הרעיון הזה, המוח האנושי מגיע עם יכולת ללמוד (תוך כוונון של חוזקי קשרים בין עצבים, בדומה למודלים המלאכותיים של רשתות נירונים) אבל בלי הכנה מיוחדת לשפה טבעית. לפי ההצעה, לאחר חשיפה לקלט לשוני עשיר מספיק אנחנו מסוגלים לנבא המשכים ממש כמו ChatGPT. וההצלחה של ChatGPT נתפסת על ידי מציעי הרעיון הזה – למשל, סטיבן פיאנטדוסי (Piantadosi) מברקלי, אבל גם רבים אחרים – כעדות לכך שמודל כזה הוא בעל היתכנות קוגניטיבית. ההתלהבות הזו מ־ChatGPT מתחברת לרעיון הוותיק שהידע שלנו נרכש ישירות מהקלט החושי שאנחנו מקבלים. לפי הרעיון הזה, אנחנו מגיעים לעולם עם הכנה למציאת קשרים בקלט החושי שאנחנו מקבלים ועם יכולת לארגן את הקשרים שאנחנו מוצאים, אבל בלי הכנה ספציפית לידע מסוים. לרעיון הזה שורשים בעולם העתיק והוא כמובן גם מרכיב מרכזי באמפיריציזם הבריטי של המאות ה־17 וה־18. התגליות של פבלוב ות׳ורנדייק במפנה המאה ה־20 אפשרו לרעיון הזה לצמוח לכדי תיאוריה פסיכולוגית – הביהייביוריזם של ווטסון וסקינר. בגרסתו המקורית, הביהייביוריזם כשל באופן גורף, אבל ההצלחה של ChatGPT גרמה לחוקרים כמו פיאנטדוסי להציע גרסה מעודכנת של הרעיון. בקרב הבלשנים ההתפעלות מ־ChatGPT כמודל קוגניטיבי קטנה יותר. כפי שחומסקי מציין, מודלים כדוגמת ChatGPT מגלמים את אותו הרעיון כמו תיקון שגיאות אוטומטי או כמו המערכת שמציעה לנו השלמות מילים בהקלדה בטלפון. המודלים יודעים מספיק לגבי שכיחויות של מחרוזות כדי להציע המשכים שנשמעים סבירים, אבל הם נטולי כל הבנה אמיתית. הם לא קרובים למוח האנושי במבנה: רשתות עצבים ביולוגיות שימשו אומנם כהשראה חשובה בהיסטוריה המוקדמת של התחום, אבל רשתות נירונים מלאכותיות שונות מהרשתות הביולוגיות בדרכים רבות. ומה שחשוב הרבה יותר: הרשתות המלאכותיות לא תופסות את המבנים החשיבתיים האנושיים. המדע הקוגניטיבי בכלל ותחום הבלשנות הגנרטיבית בפרט, חוקרים החל משנות ה־1950 את מערכות החשיבה האנושיות: איך אנחנו מייצגים את הידע שלנו, איך אנחנו רוכשים אותו, איך אנחנו גוזרים ממנו היסקים ומקבלים החלטות. בכל אחד מההיבטים האלה של הקוגניציה האנושית, ChatGPT לא מתחיל להתקרב אלינו בכלל.
מה דעתך על הממד היצירתי של המודלים החדשים? לפחות במבט ראשון יש משהו מרשים בקלות שבה הם מצליחים לייצר, תוך הנחיות בדבר הסגנון והנושאים, מגוון רחב של טקסטים: מטקסטים פרקטיים ועד לפרוזה ולשירה. היום יש כבר ספרים שנמכרים באמזון שנכתבו על ידי הצ׳ט. היינו חושבים שיצירתיות היא אתגר קשה ויתרונו של האדם. האם נכון לזהות יצירתיות במודלים החדשים?
היצירתיות של המודלים מוגבלת ביותר. הם יודעים לייצר המשכים שנשמעים סבירים בהינתן מה שהם התאמנו עליו, ומכיוון שהם ראו הרבה מאוד, בכלל זה ספרים וסיפורים ושירים ותסריטים, ומכיוון שניתן להגריל הרבה מאוד המשכים עם דמיון לקורפוס האימון, התוצאות נראות מרשימות. באופן הזה אפשר ליצור סיפורים חדשים, ציורים חדשים, ויצירות מוזיקליות חדשות. זה מחזור מוצלח. לעומת זאת, ביצירתיות אנושית יש לא רק מִמחזור, מוצלח וחכם ככל שיהיה, אלא גם שבירה מושכלת של תבניות קיימות. בטהובן המוקדם עוד ִמחזר באופן חכם את רביעיות המיתרים שהוא הכיר מהיידן וממוצרט, אבל ברביעיות האמצעיות הוא כבר שינה את החוקים ויצר מסגרת חדשה משלו, ואז ברביעיות המאוחרות הוא ריסק את מה שהוא עצמו בנה עשור וחצי לפני כן וברא על החורבות עולם חדש ומודרני. בהינתן קורפוס אימון מכל אחת מהתקופות, מודל שפה עתידי מהסוג הנוכחי יוכל לכל היותר ליצור עוד המשכים שדומים לשאר היצירות מאותה התקופה. (גם זאת הגזמה: המודלים הנוכחיים מפספסים הרבה ממה שהופך דברים למורכבים, למשמעותיים ולמעניינים גם בלי קשר ליצירתיות.) אבל אין היום שום מודל שמרמז על יכולת לרסק מוסכמות ולבנות משהו חדש בעל ערך.
הפיתוחים יצרו ויכוח מתודולוגי פנים־בלשני. לכאורה, מודלים כאלה מוכיחים שלמידה של שפה באמצעים סטטיסטיים טהורים היא אפשרית, שלמידה היא כללית ושאין צורך במנגנון ייחודי לשפה. זו הייתה התיאוריה ששלטה בתחום הבלשנות לפני שהביקורת של חומסקי הפכה לדומיננטית בתחום. האם המודלים האלה מערערים את הגישה הגנרטיבית ומחזירים לחיים תיאוריה סטטיסטית בבלשנות?
המודלים החדשים מחזקים את התיאוריה החומסקיאנית. כדי להבין איך, חשוב להבהיר בדיוק מה התיאוריה החומסקיאנית אומרת. חומסקי הצביע על משהו שהיום נראה מובן מאליו אבל בשנות החמישים היה מפתיע: שבבסיס השימוש שלנו בשפה יש יכולת קוגניטיבית שאפשר לחקור. יותר מזה, אפשר להבין חלקים משמעותיים מהיכולת הזאת כמערכת חישובית. כשאנחנו יודעים שפה כמו עברית, יושב לנו בראש דקדוק שאומר לנו מה אפשרי בשפה שלנו ומה לא. כשאנחנו יודעים אנגלית, יושב לנו בראש דקדוק אחר. אם דקדוק הוא תכנית מחשב, אפשר לשאול באיזו שפת ִתכנות הדקדוקים שלנו כתובים. ברור למשל שכולנו נולדים עם אותה שפת תִתכנות: ילדים שונים שנחשפים לאותו קלט לשוני רוכשים את אותו הדקדוק. ברור גם שאנחנו לא חולקים את שפת הִתכנות הזאת עם שום בעל חיים אחר: לא מעט בעלי חיים יכולים לרכוש אוצר מילים מסוים, אבל שום בעל חיים אחר לא רוכש משפטי תנאי, פסוקיות זיקה או אף אחד מהמבנים הדקדוקיים האחרים שיש לכל ילד. הבלשנות הגנרטיבית מנסה לחקור את שפת ה ִתכנות הזאת ואת היכולת שלנו לרכוש דקדוקים – כלומר, את היכולת להגיע לתכנית הולמת, כתובה בשפת הִתכנות שלנו, על סמך הקלט הלשוני שאנחנו מקבלים כשאנחנו ילדים. להגיד שלמידה היא כללית ושאין צורך במנגנון ייחודי לשפה משמעותו להגיד ששפת הִתכנות שלנו ומנגנון הלמידה שלה דקדוקים לא מגלמים שום דבר משמעותי שנוגע לשפה (למשל, בלי הכנה לדברים כמו פסוקיות זיקה ומשפטי תנאי, בין שאר דברים). שפת תכנות שכזאת הייתה מגולמת באופן עקיף ומעורפל בתיאוריה הביהייביוריסטית שהייתה דומיננטית באמצע המאה הקודמת ושחומסקי טען נגדה. שפת התכנות שהייתה מובלעת בתיאוריה הביהייביוריסטית הייתה נאיבית מאוד והתבססה על קישורים אסוציאטיביים מקומיים ופשוטים. שפת תכנות הרבה יותר מעניינת ועדיין בלי הכנה מיוחדת לשפה אנושית היא כל אחת משפות התכנות המלאכותיות, כדוגמת פייתון או ++C. גם רשתות הנירונים המלאכותיות מגלמות שפת תכנות בלי הכנה מיוחדת לשפה. השאלה מעולם לא הייתה אם אפשר ללמוד שפה על בסיס שפת תכנות כללית. אם שפת התכנות עשירה מספיק (למשל, פייתון), אם מנגנון הלמידה הסטטיסטי טוב מספיק (למשל, לומד שמשתמש בכלל Bayes), ואם מנגנון הלמידה זוכה לקבל קלט עשיר מספיק, הוא יצליח ללמוד דקדוק שמייצר את שפת המטרה. לגבי זה יש תוצאות מתמטיות ותיקות, של ריי סולומונוף ואחרים, והעניין לא נתון לוויכוח. השאלה הקוגניטיבית היא אם שפת התכנות שאנחנו נולדים איתה היא כזאת, כלומר השאלה היא לא מה אפשרי למערכת כלשהי אלא מה קיים אצלנו. אלה שני דברים שונים מאוד: אנחנו יודעים שאפשר לבנות מכונה כבדה מן האוויר שיכולה לעוף, אבל מזה אנחנו לא מסיקים שבני אדם מסוגלים לעופף בכוחות עצמם ואפילו לא שמטוסים ומסוקים הם מודל לתעופת ציפורים.
לבלשנים יש אוסף דרכים לחקור את שפת התכנות שאנחנו בני האדם נולדים איתה. דרך חשובה אחת היא להסתכל על ההלימה בין הקלט הלשוני שאנחנו נחשפים אליו לבין הידע הלשוני שאנחנו מגיעים אליו. בפרט, אם נראה לנו שהקלט הלשוני דל, ולא מספק עדות מהימנה להכללה מסוימת על ידי לומד כללי, ועדיין ילדים רוכשים את ההכללה, זה מעיד על כך ששפת התכנות המולדת דוחפת אותנו לכיוון ההכללה הזאת. וכאן בדיוק הרשתות עוזרות לנו. בהרבה מקרים קשה מאוד לוודא באופן ידני שהקלט הלשוני באמת דל מדי עבור לומד עם שפת תכנות ניטרלית. לעומת זאת, עם רשתות נירונים מודרניות אנחנו יכולים לעבור על קלט בהיקף של מה שילדים נחשפים אליו ולראות אם הרשת מגיעה להכללות שילדים מגיעים אליהן. במעבדה שלי אנחנו בודקים מספר מקרים כאלה, ומה שאנחנו רואים הוא שהרשתות לא מגיעות לידע אנושי אחרי חשיפה לקלט לשוני בהיקף שדומה למה שילדים מקבלים. כלומר, בניגוד ללומד כללי כמו הרשתות, ילדים מגיעים עם שפת תכנות שמטה אותם לעבר ההכללות הרלוונטיות. באופן הזה המודלים החדשים עוזרים לבסס באופן שיטתי טיעונים שבלשנים גנרטיביים בנו בעבר לגבי שפת התכנות האנושית. בעבר חסרו הכלים כדי להבין כמה מידע באמת מתחבא בקלט הלשוני שילדים מקבלים, ואת זה המודלים החדשים מספקים, ומאפשרים להשלים את הטיעון. (כדאי להדגיש שמה שחשוב כאן הוא מה הרשתות לומדות מקלט בהיקף שדומה למה שילדים מקבלים. אם רשת כלשהי מצליחה ללמוד מקלט שגדול בסדרי גודל ממה שילדים מקבלים זה לא מלמד אותנו שום דבר לגבי שפת התכנות שאנחנו נולדים איתה) .
מה ההבדל המרכזי ביותר לדעתך בין עקרון הפעולה של המודלים הלשוניים החדשים לבין היכולת הקוגניטיבית האנושית?
המודלים האלה שונים מאוד מאיתנו במספר היבטים מהותיים. הבדל אחד הזכרתי: שפת התכנות שאנחנו נולדים איתה ושפת התכנות שמגולמת במודלים הלשוניים החדשים שונות לחלוטין. הבדל מרכזי אחר קשור לכך שבני אדם מבחינים הבחנה מהותית בין הסביר לנכון. רצף מילים מסוים יכול להיות מאוד לא סביר אבל עדיין נכון, הן מבחינה דקדוקית והן מבחינת התוכן. כל תגלית מדעית או מתמטית מספקת דוגמה לכך. עד לראשית המאה ה־17, למשל, כאשר קפלר ניסח את חוקי התנועה הפלנטרית, הרצף כוכבי הלכת נעים במסלול אליפטי" היה בלתי סביר סטטיסטית אבל נכון דקדוקית ותוכנית. גם יצירות ספרותיות מפתיעות אותנו במקרים רבים עם מהלכים בלתי צפויים אך נכונים מבנית. ובכיוון ההפוך, רצף יכול לכלול טעות רווחת (שוב, דקדוקית או תוכנית) וכך להיות סביר אבל לא נכון. לדוגמה, "הילד שהכלב שהחתול נשך הלך הביתה" שגוי (חסר בו פועל; גרסה דקדוקית אם כי קשה לעיבוד של הרצף תהיה למשל ׳׳הילד שהכלב שהחתול נשך ראה הלך הביתה׳׳). אבל שגיאות שכאלה נפוצות. לעומת זאת, מודלים מסוג ChatGPT מבוססים באופן מוחלט על הסתברות. אין להם שום מושג נפרד של נכונות. זה אומר שהמודלים האלה לא רק שונים מאיתנו באופן מהותי אלא גם בעייתיים ביותר: מבחינתם האמת נקבעת במשאל עם, וזה משהו שכל מי שרוצה להשתמש במודלים האלה צריך להביא בחשבון. ההבדלים הגדולים בשפת התכנות והיעדר ההבחנה בין סביר לנכון מראים שהמודלים מסוג ChatGPT שונים מאוד מהקוגניציה האנושית. ישנם עוד היבטים משמעותיים לפער הזה. אבל מעבר לזה יש למודלים האלה תכונות שהופכות אותם לשונים לא רק מאיתנו אלא מכל ישות שהיינו מייחסים לה אינטליגנציה. מה שלא תהיה התפיסה שלנו לגבי אינטליגנציה, סביר שהיא תכלול את היכולת לזהות תבניות בקלט. חייזרים אינטליגנטיים, אם ישנם כאלה, יהיו בוודאי שונים מאיתנו בשלל דרכים אבל עדיין נצפה שיוכלו להכליל מנתונים באופן מוצלח. למשל, אם נציג בפניהם מספר מחרוזות תווים שמצייתות לחוקיות מסוימת, נצפה שהם יוכלו לזהות את החוקיות. אבל המודלים הנוכחיים נכשלים אפילו בתרגילים פשוטים ביותר מהסוג הזה. למשל, אדם שמסתכל על הקלט ׳׳אאבבבגגדדד׳׳, ׳׳אבגד׳׳, ׳׳אאאבגגגד׳׳ ישים לב מייד שכל מחרוזת מתחילה ברצף של האות אל׳׳ף, אחר כך רצף של האות בי׳׳ת, אחר כך גימ׳׳ל, ובסוף דל׳׳ת. התבוננות קצרה נוספת תגלה שמספר המופעים של אל׳׳ף זהה למספר המופעים של גימ׳׳ל ושמספר המופעים של בי׳׳ת זהה למספר המופעים של דל׳׳ת. זה תרגיל פשוט מאוד, והיינו מצפים שגם חייזרים אינטליגנטיים יצליחו בו. אבל בפעם האחרונה שבדקתי, ChatGPT נכשל בתרגיל הזה: הוא חושב שהחוקיות מאחורי המחרוזות בקלט מאפשרת גם אותיות נוספות, והוא מפספס לחלוטין את החוקיות בנוגע למספר המופעים של האותיות השונות. לא מדובר בכישלון מקרי. ישנה תיאוריה מסודרת שמסבירה מהי הכללה אינטליגנטית, והתיאוריה הזו מבוססת על עקרון הפשטות שמביא בחשבון הן את מורכבות ההכללה והן את היכולת שלה לתאר את הקלט. לעומת זאת, שיטת האימון של המודלים החדשים לא מסוגלת להביא בחשבון את מורכבות ההכללה ולכן מתנגשת עם עקרון הפשטות שמאחורי היכולת להכליל באופן אינטליגנטי. כל עוד שיטת האימון הזו לא תשתנה, המודלים יישארו לא רק שונים מאיתנו אלא גם חסרי יכולת בסיסית להכליל באופן מוצלח.
אתה מדבר על הבדל עקרוני בין היכולות הקוגניטיביות העומדות בבסיס השפה האנושית ובין המודלים הלשוניים החדשים, ובעצם גם על הבדל מהותי בין המחקר הבלשני ובין המחקר של מהנדסי הפיתוח הלשוני. איך אתה מבין את היחס ביניהם, האם הם יכולים לתרום זה לזה?
המחקר הבלשני עוסק ביכולת הלשונית האנושית. כמו שאר המדע הקוגניטיבי, מדובר בהנדסה הפוכה: אנחנו מסתכלים על משהו מאוד מורכב שנמצא בעולם ומנסים להבין איך הוא בנוי ואיך הוא פועל. באופן עקרוני, אין הכרח שהנדסה רגילה (שעוסקת בבנייה של דברים בעולם) תזדקק לעזרה מהנדסה הפוכה (הבנה של דברים בעולם). אבל לפעמים שני הכיוונים יכולים להעשיר זה את זה. כך היה במקרים רבים בפיזיקה, ובתחום של המודלים החדשים יש פוטנציאל שכזה, אם כי נכון להיום הוא בקושי ממומש. הפוטנציאל כאן מגיע מקושי שקיים בצד ההנדסי: יותר מהרבה אובייקטים הנדסיים אחרים, רשתות הנירונים החדשות מורכבות באופן שמונע אפילו ממי שבנה אותן להבין אותן באופן ישיר. לעומת זאת, הבלשנות עוסקת כבר עשרות שנים בהבנה של מערכות מורכבות מהסגנון הזה, והכלים שהבלשנות בנתה יכולים לשמש גם את המהנדסים שרוצים להבין את מה שהם בונים וגם את החברה שאמורה להבין איך להתייחס למודלים האלה.
במהלך השנה התנוססה כותרת בכלכליסט "מומחי בינה מלאכותית קוראים לעצור פיתוח של מערכות AI עוצמתיות" מאחר שאלה "מהוות סיכון מהותי לאנושות". חוקרים ומדענים של בינה מלאכותית מהשורה הראשונה כתבו מכתב עמדה שבו הם קראו לעצור את הפיתוח ולהמשיכו רק כאשר יש ביטחון בהשפעתם החיובית והסיכונים נשלטים. הם טוענים שהשפעתה של יצירת ישויות שפתיות חדשות או מוחות דיגיטליים תשנה את העולם כפי שהכרנו עד כה, ולכן שאלת פיתוחה הופכת לשאלה שאינה במרחב ההחלטות של יזמים ומהנדסים אלא שאלה פוליטית ואתית שנבחרי הציבור צריכים להחליט עליה. האם הדילמות האתיות הכרוכות בפיתוחים אלה מטרידות אותך, ומהי עמדתך?
הבעייתיות האתית אמיתית, אבל מה שמדאיג אותי במודלים הנוכחיים הוא לא תרחישי המדע הבדיוני שבהם מוח מלאכותי משתלט על העולם: המודלים הקיימים חסרי כל אינטליגנציה ולא רוצים שום דבר. לעומת זאת, סיכון אמיתי שכיווני הפיתוח הנוכחיים יוצרים הוא שיבוש מוחלט של השיח הציבורי, של המעורבות הפוליטית של אנשים בחברה, ושל היכולת של חברה דמוקרטית להתקיים. כבר ראינו במספיק מקרים בעשור האחרון כמה נזק אפשר ליצור בהפצה של מידע כוזב ברשתות החברתיות. שם היה מדובר על מספר לא גדול של מסרים שהופצו על ידי בני אדם בסיוע אלגוריתמי בסיסי. עם המודלים החדשים הסכנה גדולה בהרבה: אנשים ימצאו את עצמם מנהלים דיונים שלמים עם ישות שתגיב לטיעונים שלהם, תספק להם טיעונים נגדיים, ותוך כדי זה תנסה לשכנע אותם במשהו: אולי לשנות הרגלי צריכה, אולי לתמוך במועמד מסוים או במהלך של השלטון. זאת תהיה מכונת שיווק ותעמולה שלמה שמכוונת ספציפית לאותו אדם, והיא יכולה לשכנע גם את מי שלא נופלים בקלות בפח של הודעות גנריות בתפוצה רחבה. וגם מי שלא ישתכנע לחלוטין יוכל למצוא את עצמו מותש ומבולבל מהדיון ומשלל הטיעונים. זה יכול להספיק כדי שאותו אדם יחליט שהנושא מסובך מדי עבורו וכדי שיימנע מלנקוט עמדה. למשל, אדם שלפני כן היה יוצא להפגין או מצביע למועמד נגדי עלול להחליט להישאר בבית בעקבות שיחה כזאת עם מודל שמתחזה לבן שיח אנושי. ומכיוון שמדובר במנגנון זול ונוח להפעלה המונית, הפוטנציאל להוצאה של חלק משמעותי מהציבור מהתהליך הפוליטי גדול.
בשיח על פיתוחים אלה הזרקור מושם בדרך כלל על שאלת האפשרות של מערכות אלה "להיות כמונו". מה לגבי הצד השני של המטבע? האם אין סכנה שאנו, בני האדם, נאמץ את מודל המכונה ונהפוך להיות כמוה? מה יקרה לשפה שלנו, לאפשרויות הדיבור בינינו, כשהיא תידמה לשפת ChatGPT ?
אנחנו יצורים לשוניים באופן שנקבע על ידי הביולוגיה שלנו: המבנים התחביריים שלנו, אופן הרכישה, ההיסקים שאנחנו גוזרים. אף אחד מאלה לא ישתנה בגלל שיש לנו כעת גישה למערכת ניבוי המשכים כמו ChatGPT. זה דומה לאיך שאנחנו הולכים: אנחנו בנויים לזה ביולוגית באופן מאוד מסוים, וגם אם יהיה לנו בבית רובוט שהולך אחרת עדיין נלך כמו בני אדם ולא כמו רובוט. מעבר לנקודה המהותית לגבי הבסיס הביולוגי, שינויים בעולם משפיעים כמובן על ההתנהלות שלנו בתוכו. הבסיס הביולוגי להליכה לא השתנה כבר מאות אלפי שנים, אבל הקורקינט החשמלי שינה את האופן שבו אנחנו הולכים במרחב הציבורי בשנים האחרונות. גם ChatGPT ישפיע בוודאי על ההתנהגות האנושית ועל קונוונציות שנוגעות לשימוש בשפה. בעולם האקדמי, יכול להיות למשל שהקלות שבה ChatGPT מייצר טקסטים נוסחתיים תפחית את הערך של טקסטים שכאלה (בעבודות סמינריוניות, מאמרים, מכתבי המלצה ובקשות למענקים, בין שאר מקומות) ותגדיל את הדגש על יצירתיות ומבנה טיעון, שבהם המודלים הנוכחיים חסרי כל יכולת. אבל כמובן עוד מוקדם מכדי לדבר בביטחון על שינויים ספציפיים מהסוג הזה בעקבות ChatGPT .
רוני קציר הוא פרופסור חבר בחוג לבלשנות וחבר בבית ספר סגול למדעי הרוח באוניברסיטת תל אביב. עבודתו משתמשת בכלים מתמטיים וחישוביים כדי לחקור שאלות בנוגע לקוגניציה לשונית, כגון כיצד בני אדם לומדים ומייצגים את הידע הלשוני שלהם וכיצד הם משתמשים בידע הזה כדי לגזור היסקים ולתרום לשיח. לפרופסור קציר תואר ראשון במתמטיקה מאוניברסיטת תל אביב ודוקטורט מהמכון הטכנולוגי של מסצ׳וסטס. הוא עומד בראש המעבדה לבלשנות חישובית והתוכנית לתואר ראשון בבלשנות חישובית באוניברסיטת תל אביב. הוא גם חבר בצוות החונכים בתוכנית המצטיינים הבין־תחומית על שם עדי לאוטמן.