מה אתם רואים? זאת לא שאלה מכשילה, ובוודאי שלא קשה. אנחנו לא הולכים לומר לכם שהאור האמיתי הוא בלב, או משהו. זאת שאלה פשוטה מאוד: מה אתם רואים ברגע זה? מסך מחשב ועליו אותיות? סמארטפון, על רקע יד שאוחזת בו? נוף של הרים בשקיעה? חברת הכנסת מירי רגב רוכבת על אלפקה?
אין צורך לנקד את עצמכם, אתם יודעים אם עניתם נכון. זאת באמת לא היתה שאלה קשה. אבל עכשיו תפנו את השאלה למחשב שלכם.
הוא לא יידע את התשובה. אותו מחשב שיודע לפתור סודוקו קשה במאית שנייה, שיכול לנצח את קספרוב בשחמט ולהריץ הדמיות של פיצוצים גרעיניים, מתקשה מאוד לעמוד במשימה שכל ילד בן שנתיים מבצע בכל שניה של כל יום: לראות, ולדעת מה הוא רואה.
אם עדיין לא הבנתם מה קשה בזה, אתם בחברה מצוינת. אחת האנקדוטות הידועות ביותר בתחום הראייה הממוחשבת מספרת על מרווין מינסקי, פרופסור במכון MIT, אחד המומחים הגדולים בעולם לאינטליגנציה מלאכותית ובאופן כללי, ככל הנראה אדם הרבה יותר חכם מכם ומאיתנו. ב-1966, הסיפור גורס, מינסקי הטיל על סטודנט לתואר ראשון פרוייקט לחופשת הקיץ: לכתוב תוכנה שתגרום למחשב להבין מה הוא רואה. אחד האנשים החריפים בעולם, שאמור להבין בתחום יותר מכל אחד אחר, חשב ששאלת הראיה הממוחשבת היא משהו ששווה כמה נקודות בונוס בציון של סטודנט. כמעט חמישים שנה מאוחר יותר, אחרי התפתחויות אדירות בתחום המחשבים, השקעה של מאות מיליוני דולרים ועשרות אלפי מדענים שעוסקים בתחום, שיעורי הבית של אותו סטודנט אומלל עדיין לא הושלמו.
עגבנייה ופרארי זה אותו דבר
מה שמינסקי לא הבין אז, והיום הוא כבר ברור, הוא ש"מה אתה רואה?", השאלה הכל כך קלה הזאת, היא בעצם שאלה קשה ומסובכת כל כך שהשגת פתרון של שלום בר קיימא במזרח התיכון נראה לידה כמו סודוקו בינוני. ובכל זאת, עבור בני אדם – אפילו אם הם פרופסורים ב-MIT – הבעיה כל כך קלה שקשה להכיר בכך שהיא בכלל קיימת. כשאתה רואה חתול, אתה רואה חתול. כשאתה רואה סנדוויץ', אתה רואה סנדוויץ', ולא לעתים קרובות קורה שאתם מלטפים סנדוויץ' או לוקחים ביס מחתול כי התבלבלתם. הסיבה לכך שזה נראה פשוט היא שאנחנו מצוידים בכלים הנכונים: המח האנושי הוא עדיין, מה לעשות, חזק יותר מכל מחשב שנבנה אי פעם, וחלק גדול מאוד מאותו מחשב מוקדש לפתרון הבעיה הזאת. לפחות 30 אחוז מקליפת המוח האנושי מוקדשת לעיבוד מידע חזותי (במקרה שתהיתם, לשמיעה מוקדשים 3%). הפעולה הזאת נעשית בחלק של המח שדומה לסדנאות היזע בסין: נעשית בו המון עבודה קשה שאנחנו לא מודעים לה, ורק מקבלים את המוצר המוגמר. אל המודע, אפילו של תינוק בן שנה, מגיע המידע החזותי כשהוא כבר עטוף ב"תוויות": הנה אמא, הנה חתול, הנה לפטופ שאפשר להפיל לרצפה ולשבור.
אבל לנסות לשחזר את הפעולה הזאת בעזרת מחשב – זאת בעיה.
לגרום למחשב לראות זה קל. צריך רק לחבר אותו למצלמה, או לסורק. מצלמה ועין אנושית עובדות, ברמת העיקרון, באותה הצורה בדיוק: יש עדשה שדרכה חודר אור, ומאחוריה רשת צפופה של מיליוני חיישנים הרגישים לאור. כל אחד מהם מדווח על העוצמה או הצבע של האור שהגיע אל הנקודה הבודדה עליה הוא אחראי. הנתונים מכל הנקודות האלה יחד מאורגנים במטריצה ענקית, שאותה אנחנו נוהגים לכנות בשם "תמונה". שנאמר: כל אחד הוא אור קטן, וכולנו אור גרוסמן בביקיני.
לכל אחת ממיליוני הנקודות שמרכיבות את התמונה קוראים פיקסל, ואת הצבע והעוצמה של כל אחד מהם ניתן לייצג כמספר. מכאן שכל תמונה ניתן להציג גם כשורה ארוכה מאוד של מספרים. מחשבים טובים במספרים. הם יכולים, בלי הרבה קושי, לומר מה הערך הממוצע של כל המספרים האלה, מה הצבע הנפוץ ביותר בתמונה, מהי רמת הקונטרסט בה והאם יש בה יותר פיקסלים בצבע כחול כהה מאשר בז' בהיר. בעיקרון, יהיה גם קל למדי להשוות בין שתי תמונות ולומר האם הן דומות זו לזו או לא – פשוט מודדים עד כמה הערכים שבשתי התמונות קרובים זה לזה.
הבעיה היחידה עם העיקרון הזה היא שהוא לא עובד. השוואה בין שתי תמונות על פי הערכים המספריים בלבד תביא את המחשב למסקנה שעגבניה ופרארי הן ממש דומות, כי בשתיהן יש הרבה אדום; ומצד שני, אין שום סיכוי שאותו מחשב יצליח לעמוד על הדמיון בין שתי תמונות שונות של אותו אדם, אם באחת מהן הוא לובש חולצה ירוקה ובשניה תחפושת של בובספוג, או אפילו אם בתמונה אחת הפרצוף מואר מלפנים, כך שכל פניו מוארות, ובשניה האור מגיע מהצד, כך שמחצית הפנים שרויה בצל. שלא לדבר על המקרים הקיצוניים באמת, כמו אם הטיפוס העז ברוב חוצפתו להצטלם בפרופיל, או גידל זקן. אנחנו יכולים להסתכל על שתי תמונות כאלה ולומר בקלות שמדובר באותו אדם – הרי חוץ מהזקן, הם נראים בדיוק אותו הדבר. המחשב יטען בתוקף שזה לא דומה בכלל, ויביא הוכחות מתמטיות.
עוד דבר שכולנו יכולים לעשות בקלות הוא להבין את הגאוגרפיה של העולם מסביבנו באמצעות מבט, ולא יותר מזה. אחרי מבט אחד על חדר – אפילו עם עין אחת עצומה – אנחנו יכולים לצייר מעין מפה סכמטית ותלת-מימדית של החדר. אנחנו יכולים לומר שהספל על השולחן, שהתמונה של הילד הבוכה תלויה על הקיר, שהשטיח מתחת לכסא ושדרך החלון רואים את הים. אבל כשננסה ללמד את המחשב לעשות את אותו הדבר, נגלה בעיות בתוך בעיות בתוך בעיות. לפני שהוא יוכל לומר האם הספר מונח על השולחן, המחשב יצטרך לבצע הפרדת אובייקטים (לזהות שהספל והשולחן הם שני דברים שונים), זיהוי אובייקטים (לדעת שאוסף הפיקסלים המסוים הזה הוא הדבר שאותו אנחנו מכנים ספל) ויישום נכון של פרספקטיבה (לדעת שהספל מונח על השולחן, ולא נמצא מאחוריו, מתחתיו, או מרחף באוויר לפניו). וכל זה עוד לפני הניסיון להסביר למה הים קיים במציאות, אבל הילד הבוכה לא. את הבעיה הגדיר דייויד מאר, אחד מאבות תחום הראיה הממוחשבת, במילים: "לדעת מה נמצא איפה, באמצעות מבט".
אז מה עושים?
זאת שאלה גדולה. גדולה עד כדי כך שמדובר באחד מהתחומים הגדולים והחמים ביותר במדעי המחשב. ישראל, אגב, היא אימפריה בתחום: אין אף אוניברסיטה בארץ ללא מרכז לחקר ראיה ממוחשבת, בשום מקום אחר בעולם לא מרוכזים כל כך הרבה חוקרים בתחום, וכמה מההישגים החשובים ביותר בשנים האחרונות הגיעו מכאן. הדוגמה הידועה ביותר – כי היא זאת שהגיעה לעמודי החדשות – היא רכישת החברה הישראלית face.com על ידי פייסבוק.
פיטבול או טרייר?
Face.com עוסקת בחד התחומים הידועים ביותר בהקשר של ראיה ממוחשבת, כזה שכבר נכנס לשימוש יומיומי: זיהוי פרצופים. לרוב הגדול של בני האדם יש לא יותר ולא פחות משתי עיניים, אף אחד פלוס מינוס, פה, סנטר ומצח, וגם האופן שבו כל הפרטים האלה מסודרים על הפרצוף נוטה להיות אחיד למדי. ובכל זאת, אין שני אנשים שהם זהים בדיוק זה לזה, ורובנו מחזיקים בראש, בלי לשים לב, מסד נתונים ענק של פרצופים, ומסוגלים לשייך מיידית פרצוף לשם (ואם זה לא מצליח – להעמיד פנים שזיהינו אותו ולמשוך את השיחה עד שההוא שמולנו יגיד סוף סוף משהו שיזכיר מאיפה אנחנו מכירים אותו).
עד לא מזמן, הטכנולוגיה איפשרה בהחלט לזהות פרצופים כל עוד הם מביטים ישר למצלמה, בהבעה נייטרלית ותאורה אחידה. אסור היה, למשל, לחייך, כי חיוך גורם לפנים שלך להיראות אחרת. אבל המצב הזה השתנה במהירות. השירות של Face.com מאפשר דבר שעד לפני שנים ספורות נראה כמו מדע בדיוני: היא מזהה פרצופים "בטבע", בתמונות שצולמו בסביבות שונות, מזויות שונות ובתנאי תאורה שונים ולא אידיאליים.
את ההתקדמות האדירה בראיה הממוחשבת אפשר לראות גם בתחומים אחרים, בעזרת מה שהפך למדד האוניברסלי לקידמה טכנולוגית: אפליקציות לסמארטפון. היום אתם יכולים לצלם תמונות של תפריט במסעדה ספרדית ולקבל מיידית תרגום, או לצלם מוצר כלשהו ולהגיע מיד לעמוד המכירה שלו באמאזון. טלויזיות תלת-מימד מציעות אפשרות להפוך תמונות דו-מימדיות לתלת-מימדיות בזמן אמיתי, עם שיעור הצלחה לא רע. מחשבים אפילו יודעים להבדיל בין כלבים וחתולים.
ב-2007 – ממש לא מזמן - מעבדות המחקר של מיקרוסופט השקיעו בפרוייקט של מערכת CAPTCHA מסוג מיוחד. את CAPTCHA אתם מכירים בתור האותיות המעוותות המעצבנות האלה שנראות כאילו נכתבו באמהרית על גבו של קיפוד משתולל, שאתם צריכים להקליד מדי פעם כשירות כלשהו מנסה לוודא שאתם אכן בני אדם או לא. הפרויקט של מיקרוסופט, Asirra, השתמש במקום זה בחתולים ובכלבים: במקום אוסף של אותיות מעוותות להקליד, הייתם מקבלים שורת צילומים, חלקם של כלבים וחלקם של חתולים, ומתבקשים לבחור את תמונות החתולים בלבד. נקודת המוצא של הפרוייקט היתה שמציאת ההבדל בין חתול וכלב היא אחת מאותן בעיות שרק אדם, ולא מחשב, יכול לפתור.
ובכן, זה כבר לא המצב. חמש שנים בלבד עברו, ומחשבים לא רק יודעים להבדיל בין חתולים וכלבים – הם יכולים לעשות הרבה יותר מזה. Dogsnap, אפליקציה לאייפון ולאנדרואיד, מזהה את הגזע של כל כלב שתצלמו (אפליקציה דומה, Leafsnap, תזהה את הזן של צמח על פי צילום של עלה). לא תצליחו לבלבל אותה עם חתול.
כל זה לא היה קל. הרבה אנשים עבדו קשה, כאמור, כדי לתת למחשב להבין בערך מה הוא רואה. היה צריך לתת למחשבים להבין איך עובדים צללים, מה מלמדת אותנו צורה מסוימת של צל על פני משטח על צורתו של אותו משטח, לגרום לו לזהות פרספקטיבה (עצמים רחוקים הם קטנים יותר), ולתת לו ליישם את כל זה עם פריטי מידע בסיסיים, כמו העובדה שכשמישהו מסתכל אליך, האף שלו תמיד קרוב אליך יותר מאשר העיניים, והעיניים קרובות יותר מהקיר שמאחוריו. וישנה גם דרך אחרת, שהיא סוג של רמאות – אבל היא עובדת.
מחשב שרואה? עוד אין דבר כזה
כאמור, אם תתנו למחשב תמונה אחת של כלב, זה לא יעזור לו לזהות דמיון בינה לבין כל תמונה אחרת. אבל אם תתנו לו גישה לכל מאות אלפי התמונות באתר flickr המתויגות כ"כלב" או כ"חתול", תוכלו להיות בטוחים למדי שהמאגר כולל תמונות של חיות מחמד מכל גזע, צבע, תנוחה והבעה אפשרית, וכמעט כמעט כל תמונה חדשה שתצלמו תהיה דומה מספיק לאחת מבין התמונות הקיימות כדי שניתן יהיה לומר ברמת סבירות גבוהה האם היא שייכת לקבוצת החתולים או לקבוצת הכלבים.
השיטה הזאת (שהיא בהחלט לא הגישה היחידה לפתרון בעיות בתחום הראיה הממוחשבת, או מתאימה בהכרח לכל בעיה) היא סוג של כביש עוקף: במקום לפתור את הבעיה לבד, אתה רק מחפש בעיה דומה בתוך מאגר עצום של בעיות פתורות קיימות. במילים אחרות, אתה עושה את מה שכל תלמיד בית ספר במאה הנוכחית למד לעשות: קיבלת בשיעורי הבית בעיה שאתה לא יכול להתמודד איתה? במקום לנסות להבין ולפתור את הבעיה לבד, יותר פשוט להקליד אותה בגוגל. מישהו במקום כלשהו באינטרנט בטח כבר פתר אותה. זאת אולי רמאות, אבל, מה לעשות, זה עובד. היום כשמסדי נתונים יכולים להיות עצומים ומהירות החיפוש אדירה, ה"רמאות" הזאת היא פתרון ישים שהיעילות שלו מוכחת – וכל שימוש נוסף בו הופך אותו ליעיל עוד יותר, בכך שהוא מוסיף עוד תמונה אחת למאגר.
פרוייקט הקיץ של אותו סטודנט עלום שם מ-1966 עדיין רחוק מהשלמה. עדיין לא קיים מחשב שיכול להסתכל על העולם ולומר בדיוק מה הוא רואה – אבל הם משתפרים, והיום שבו יוכלו לתת תשובה טובה על השאלה "מה אתה רואה?" כבר לא מאוד רחוק.
בהכנת הכתבה השתתף ד"ר טל הסנר מהמחלקה למתמטיקה ולמדעי המחשב, האוניברסיטה הפתוחה.