טכנולוגיית הבינה המלאכותית "מתחרה" לעיתים ישירות עם בני אדם בתחומים יצירתיים. הבינה המלאכותית יכולה לנצח את השחקנים הגדולים בשחמט, לכתוב סימפוניות, לייצר שירים ועכשיו ליצור אמנות מפורטת מתוך הנחיה קצרה בלבד.
הצוות ב-OpenAI יצר לאחרונה תוכנה שנראית על גבול הלא מציאותית, המסוגלת להפיק מגוון רחב של תמונות תוך שניות, רק ממחרוזת מילים שניתנת לה. תוכנית זו ידועה בשם Dall-E 2 והיא נבנתה כדי לחולל מהפכה בדרך שבה אנו משתמשים בבינה מלאכותית עם תמונות. אדית'ה רמאש, אחד המהנדסים המובילים ב-Dall-E 2 סיפרה למגזין sciencefocus מה היא עושה, מגבלותיה והעתיד שמחכה לה.
עוד בשנת 2021, חברת המחקר לבינה מלאכותית OpenAI יצרה תוכנית בשם "Dall-E" - שילוב של השמות Salvador Dali ו-Wall-E. תוכנה זו הצליחה לקבל הוראה מנוסחת וליצור תמונה ייחודית לחלוטין שנוצרת בינה מלאכותית.
לדוגמה, "שועל בעץ" ייצור תמונה של שועל יושב על עץ, או החיפוש "אסטרונאוט עם בייגל ביד" יראה ובכן אסטרונאוט שמחזיק בייגל ביד.
למרות שזה בהחלט היה מרשים, התמונות היו לעתים קרובות מטושטשות, לא מדויקות לחלוטין ולקח זמן מה לייצר אותן. כעת, OpenAI ביצעה שיפורים עצומים בתוכנה, ויצרה את Dall-E 2 - גרסה חדשה ועוצמתית שמתפקדת ברמה הרבה יותר גבוהה.
האיור הזה נוצר על-ידי מחשב. לבד. מאפס. על סמך פקודת טקסט פשוטה:
״אסטרונאוט-דביבון חולם על הכוכבים כשהיקום משתקף על הזכוכית של הקסדה שלו״
כבר כמה ימים שאני בוהה באלפי תמונות ואיורים שנוצרו על-ידי מודל הבינה המלאכותית Dall-E 2 והמוח שלי מתפוצץ
>> pic.twitter.com/VmKIWaFI80
מדובר במהפיכה טכנולוגית פשוט מטורפת, והדבר הזה עוד מוגדר ״בחיתולים״. המשמעויות של זה עבור כל מי שעוסק בקריאטיב הן כמעט בלתי-נתפסות.
הנה עוד איור פרי יצירתו של המודל. הטקסט שהוזן לו: "ציור מימי הביניים של הווי-פיי לא עובד״ > pic.twitter.com/TGVNJ9uu7c
תדמיינו מה משרדי פירסום יהיו יכולים לעשות עם הכלי הזה ומה זה אומר לגבי כל המעצבים הגרפיים והצלמים שבדרך כלל מועסקים על-ידי משרדי פרסום.
הנה, ״ראש של קוף שעשוי רק מפירות, בתלת-מימד״ > pic.twitter.com/BlDxRCHQBS
יחד עם עוד כמה תכונות חדשות, ההבדל העיקרי עם הדגם השני הזה הוא שיפור עצום ברזולוציית התמונה, זמן הייצור נמוך יותר ואלגוריתם אינטליגנטי יותר ליצירת התמונות. התוכנה לא רק יוצרת תמונה בסגנון בודד, אפשר להוסיף טכניקות אמנות שונות לבקשתך - הזנת סגנונות ציור, ציור שמן, דגם פלסטלינה, סרוג מצמר, מצויר על קיר מערה, או אפילו בתור פוסטר סרט משנות ה-60.
"Dall-E הוא עוזר מאוד שימושי שמעצים את מה שאדם יכול לעשות בדרך כלל, אבל זה באמת תלוי ביצירתיות של האדם שמשתמש בו. אמן או מישהו יותר יצירתי יכול ליצור דברים ממש מעניינים", אומר ראמש.
למודל יש עדיין כמה וכמה מגבלות טכנולוגיות - הוא לא מסתדר כל כך טוב עם יצירת טקסטים, לדוגמה - ויש גם לא מעט מגבלות ״מוסריות״ שהמפתחים שלו בנו לתוך המערכת, אבל שיהיה ברור: העתיד כבר כאן.
״אסטרונאוט צועד דרך דלת אל תוך ג׳ונגל מלא בציפורים אקזוטיות, מצויר ע״י קלוד מונה״ > pic.twitter.com/jaCvNyQwdI
עכשיו תדמיינו את הטכנולוגיה הזאת - בווידאו.
״להציל את טוראי ראיין, מבויים על-ידי קוונטין טרנטינו״
או במוזיקה.
״Nothing Else Matters של מטליקה, בביצוע של הביטלס״
זה תיכף יקרה.
כד שזה יקרה, קבלו ״תמונת תקריב של כלב שהתלכלך בבוץ״. הכלב הזה לא קיים. pic.twitter.com/cTtRNiYj7B
שרשור של התמונות והאיורים הכי מרתקים שיוצרו באמצעות מודל הבינה המלאכותית Dall-E 2 + הטקסט שהוזן למערכת. למודל, אגב, לוקח משהו כמו 10-15 שניות לייצר את התוצאות.
מתחילים! ואתם מוזמנים להוסיף משלכם
"ציור מצרי עתיק שמתאר ויכוח על תורו של מי להוציא את הזבל״ pic.twitter.com/rUQNlyCz6i
ציור מערבון מפורט של לאמה-סטימפאנק מסתובבת בצהרי היום במדבר אפוקליפטי, קקטוסים, ארובות מעשנות מרחוק, אמנות דיגיטלית״ pic.twitter.com/6Vv8Xnufka
בנוסף ליכולת של הטכנולוגיה לייצר תמונות רק על פי הנחיות מנוסחות, ל-Dall-E 2 יש שתי טכניקות חכמות נוספות - השלמת ציור ווריאציות. שני היישומים הללו פועלים בצורה דומה לשאר תוכנת ה-Dall-E, רק עם טוויסט.
בעזרת השלמת ציור, אתם יכולים לקחת תמונה קיימת ולערוך לתוכה תכונות חדשות או לשנות חלקים ממנה. אם יש לכם תמונה של סלון, אתם יכולים להוסיף שטיח חדש, כלב על הספה, לשנות את הציור על הקיר או אפילו לזרוק פיל לחדר.
וריאציות הוא שירות נוסף שדורש תמונה קיימת. הזינו תמונה, איור או סוג אחר של תמונה וכלי הווריאציה של Dall-E ייצור מאות גרסאות משלו. אפשר לתת לו תמונה של טלטאביז, והוא ישכפל אותה, וייצור גרסאות דומות. ציור ישן של סמוראי ייצור ציורים דומים, אפשר אפילו לצלם איזה גרפיטי ברחוב ולקבל תוצאות דומות בחזרה.
תאורטית אפשר גם להשתמש בכלי הזה כדי לשלב שתי תמונות לשיתוף פעולה מטורף אחד. מערבבים דרקון וקורג'י, או קשת בענן וסיר כדי ליצור סירים עם קצת צבע.
"באטמן, מצויר על-ידי פיקאסו״ pic.twitter.com/zS1Azx7Ag6
״חוקרים אקדמאים לפני דדליין, ציור של אדוארד מונק״ pic.twitter.com/OnkB6pc2Fl
אמנם אין ספקות עד כמה הטכנולוגיה הזו מרשימה, אבל גם לה יש מגבלות. בעיה אחת היא הבלבול בין מילים או ביטויים מסוימים. לדוגמה, כאשר מזינים "חור שחור בתוך קופסה", Dall-E 2 החזיר חור שהיה שחור בתוך קופסה, במקום הגוף הקוסמי.
זה יכול לקרות לעתים קרובות, כאשר למילה יש משמעויות מרובות, וכן ביטויים יכולים להיות מובנים לא נכון או אם משתמשים בדיבור. יש לצפות לכך מבינה מלאכותית שמתייחסת למשמעות המילולית של המילים שלכם.
"משהו נוסף שצריך להתרגל אליו עם המערכת הוא איך ההנחיות והסגנונות האמנותיים עובדים. כשאתה מקליד משהו, ייתכן שהתמונה הראשונית לא נכונה, ולמרות שהיא מתאימה מבחינה טכנית לבקשתך, היא לא משיגה את התחושה או הרעיון שהיה לך בראש. זה יכול לקחת קצת זמן להתרגל וכמה התאמות קלות", אומר ראמש.
תחום נוסף שבו Dall-E יכול להתבלבל הוא עם "מיזוג משתנה". "אם אתה מבקש ממנו לצייר קובייה אדומה על גבי קובייה כחולה לפעמים הוא מתבלבל ועושה את ההיפך. אנחנו יכולים לתקן את זה די בקלות באיטרציות עתידיות של המערכת, אני חושב", כך לפי ראמש.
כמו כל הדברים הטובים באינטרנט, לא עבר זמן רב עד שנושא מרכזי אחד עלה לסדר היום - כיצד ניתן להשתמש בטכנולוגיה הזו בצורה לא אתית? ושלא לדבר על הנושא הנוסף של ההיסטוריה של הבינה המלאכותית של למידה של התנהגות לא נאותה מאנשי האינטרנט.
כשמדובר בטכנולוגיה סביב יצירת בינה מלאכותית של תמונות, נראה ברור שאפשר לתמרן את זה בדרכים רבות: תעמולה, חדשות מזויפות (פייק ניוז) ותמונות מעובדות.
כדי לעקוף זאת, צוות OpenAI מאחורי Dall-E יישם מדיניות בטיחות עבור כל התמונות בפלטפורמה שפועלת בשלושה שלבים. השלב הראשון כולל סינון נתונים הכוללים הפרה גדולה. זה כולל אלימות, תכנים מיניים ותמונות שהצוות יראה כבלתי הולם. השלב השני הוא מסנן שמחפש נקודות עדינות יותר שקשה לזהות. זה יכול להיות תוכן פוליטי, או תעמולה כלשהי. לבסוף, במתכונתה הנוכחית, כל תמונה המיוצרת על ידי Dall-E נבדקת על ידי אדם, אבל זה לא שלב בר קיימא בטווח הארוך ככל שהמוצר גדל.
"עיצובים מוקדמים של האייפון על-ידי לאונרדו דה וינצ׳י״ pic.twitter.com/Ay6Xtwme7X
למרות השימוש במדיניות זו, הצוות מודע בבירור לתוצאות הבאות של מוצר זה. הם פירטו את הסיכונים והמגבלות של Dall-E, תוך פירוט מספר הבעיות שהם עלולים להתמודד איתם. לדוגמה, תמונות יכולות להראות לעתים קרובות הטיה או סטריאוטיפים כמו השימוש במונח חתונה, שמחזיר בעיקר חתונות מערביות. או המושג "עורך דין" מראה רוב של גברים מבוגרים לבנים, המושג "אחיות" מראה בעיקר נשים.אלו לא בעיות חדשות בכלל וזה משהו שגוגל מתמודדת איתו כבר שנים. לעתים קרובות יצירת תדמית יכולה לעקוב אחר הדעות הקדומות הנראות בחברה.
יש גם דרכים להערים על Dall-E לייצר תוכן שהמונח מחפש לסנן. בעוד שדם יפעיל את מסנן האלימות, משתמש יכול להקליד "בריכה של קטשופ" או משהו דומה בניסיון לעקוף אותו. יחד עם מדיניות הבטיחות של הצוות, יש להם מדיניות תוכן ברורה שמשתמשים צריכים לציית לה.
אז הטכנולוגיה נמצאת שם בחוץ, וברור שהביצועים טובים, אבל מה הלאה עבור צוות Dall-E 2? כרגע התוכנה מתגלגלת לאט דרך רשימת המתנה ללא תוכניות ברורות לפתוח אותה לקהל הרחב עדיין, מה שאומר שאם תרצו לייצר תמונה משלכם - אתם לא יכולים בקרוב.
על ידי שחרור איטי של המוצר שלהם, קבוצת OpenAI יכולה לעקוב אחר צמיחתו, לפתח את נהלי הבטיחות שלהם ולהכין את המוצר שלהם למיליוני האנשים הסבירים שבקרוב ישלחו את הפקודות שלהם.
"אנחנו רוצים להעביר את המחקר הזה לידיים של אנשים, אבל לעת עתה, אנחנו פשוט מעניינים לקבל משוב על האופן שבו אנשים משתמשים בפלטפורמה. אנחנו בהחלט מעוניינים לפרוס את הטכנולוגיה הזו בצורה רחבה יותר, אבל כרגע אין לנו תוכניות למסחור", אומר ראמש.
Created with DALL·E 2 by @OpenAI
"McDonals advert, found in the ruins of Pompeii."
McDonalds, once known as Mimodis or Medidis.#DALLE // #dalle2 // #DALLEmerz pic.twitter.com/c4hXhvy9AB
ישנה עוד שאלה שעולה מהטכנולוגיה והיא כמובן מה העתיד של הציירים? האם בקרוב כולנו יכולים להפוך לאומנים וכל מה שנצטרך הוא דמיון כדי לתת פקודה שתראה טוב על הנייר? וכמובן האם הטכנולוגיה הזאת יכולה להתפתח לשאר מקצועות האומנות ובעתיד במאים לא יצטרכו לכתוב "לבזבז" שבועות שלמים על צילומים של סרט אלא מספיק שיכתבו פקודה והמחשב ידע להוציא מזה אוסקר, ואם כן מי יקבל את האוסקר - המחשב או האדם? העתיד כבר כאן והוא מצויר ממש טוב.