אם גם אתם פעם ניסיתם ללמוד להשתמש בפוטושופ על מנת ליצור תמונות או לערוך אותם, לעסק שלכם, או סתם בשביל הכיף והתייאשתם מהר…
אז כנראה שנולדתם בזמן הנכון. כי כל זה עומד להשתנות בערך כבר מלפני שנה.
הירשמו לניוזלטר השבועי שלנו
Stable diffusion הוא כלי בינה מלאכותית ששוחרר ב2022. הוא הומצא ופותח בחברת הסטארט אפ- Stability AI. בשיתוף פעולה עם קבוצת CompVis באוניברסיטת מינכן.
Stable diffusion הוא טכנולוגיית מחולל טקסט לתמונה. כלים מבוססי בינה מלאכותית אשר מחוללים תמונות ואף סרטוני וידאו דרך טקסט עשו קפיצת דרך משמעותית בשנים האחרונות. והם מספקים לנו תוצרים ברמה גבוהה. גם אם ממש אין לנו מושג בפוטושופ ומעולם לא עשינו דבר דומה.
מה שעומד מאחורי הטכנולוגיה של Stable diffusion הוא מודל למידה עמוקה מבוסס latent diffusion model. ומתבסס על מאגר תמונות עצום אשר נלמד על ידי הבינה המלאכותית של Stable diffusion ולמד להתאים תיאורים טקסטואליים לאמצעים חזותיים.
על ידי כך Stable diffusion יכול ליצור תמונה ולדייק בדרישות הטקסטואליות שנכתבות לו. ניתן תמיד להוריד ולהחסיר פרטים. לשנות זוויות, ותאורה ואף לשפץ תמונות קיימות ולצייר חדשות.
הכלי Stable diffusion הוא מגוון מאוד והכי חשוב מספק תוצרים ברמה גבוהה אשר לא יורדת מאיכותם של אמני גרפיקה מקצועיים.
Latent diffusion model
כפי שהצגנו מקודם Stable diffusion הוא מודל למידה עמוקה מבוסס latent diffusion model, המודל הזה מתבסס על מאגר נתוני תמונות גדול מאוד, הוא לומד לאבחן אותם ולמפות אותם ועל ידי כך מחלק אותם לשכבות.
בין השכבות השונות הוא מוצא מכנה משותף זהה שאותו ניתן אחר כך לשייך להגדרה טקסטואלית. על ידי כך הוא מבין את הדרישות שנכתבות לו על ידי טקסט, והוא מצליח לתרגם אותם לאמצעים חזותיים.
המגבלות של Stable diffusion
Stable diffusion אמנם מספק תוצרים ברמה גבוהה ובקלות יתרה. כלומר אין שום צורך בידע קודם בתחום הגרפיקה או עריכת תמונות. אך לכלי הזה יש כמה מגבלות:
– הצורך בכמות מאוד גדולה של נתונים באיכות גבוהה ללמידה של הכלי. כלומר כפי שציינו קודם. Stable diffusion מתבסס על מאגרי תמונת ונתונים עצומים, הוא לומד למפות אותם ולחבר ביניהם מכנה משותף, ועל ידי כך הוא לומד הגדרות ויזואליות פשוטות שאחר כך הוא מתרגם לטקסט.
על מנת שהוא יעשה זאת באופן מדוייק הוא זקוק להמון נתונים ברמה גבוהה.
– מודל הלמידה העמוקה של ה Stable diffusion אמנם מספק לנו תוצרים מיוחדים והוא לגמרי משנה את כללי המשחק. ביכולתו לדייק ולהבין הרבה מהבקשות הטקסטואליות שנכתבות לו. אך גם הוא עדיין מתקשה לייצר תמונות ריאליסטיות.
ובכלל, כשיורדים לרזולוציות העמוקות, יש המון פרטים קטנים שהמודל הלמידה העמוקה של Stable diffusion עדיין לא למד להבחין ביניהם.
– קושי לשלוט במגוון. Stable diffusion עלול לעיתים לחולל את אותם התמונות. או לחילופין לא להצליח בכלל ליצור תמונה מסוימת.
מאמרים נוספים
כל מה שצריך לדעת על צ'אט בוט – המדריך המלא
מה זה בארד ואיך הוא קשור לתחום הבינה המלאכותית?
כל מה שצריך לדעת על צ'אט בוט – המדריך המלא
מה זה בארד ואיך הוא קשור לתחום הבינה המלאכותית?
הפוטנציאל של Stable diffusion
למרות האתגרים והמגבלות שציינו קודם לכן הפוטנציאל של Stable diffusion והטכנולוגיה עלי הוא מבוסס הוא עצום.
חשוב לזכור שזוהי טכנולוגיה די חדשה.
אני מניח שרוב האנשים אפילו לא מודעים לקיומה, אבל אין ספק שהיא עתידה לחולל מהפכה של ממש בתחום ולהיות מאוד פופולארית.
אם נרשה לעצמנו להסתכל על הפוטנציאל והמשמעויות של טכנולוגיה כמו ה- Stable diffusion אז האפשרויות הם עצומות.
– מחוללי וידאו: היכולת לקחת טקסט שנכתב ולהפוך אותו לוידאו על ידי הדרישות הטקסטואליות שנכתבו.
– מחוללי תלת מימד: למעשה על אותו עיקרון של מחולל התמונות והוידאו. בעתיד הקרוב תהיה לנו אפשרות ליצור בתלת ממד על ידי הקלדה פשוטה של טקסט!
– מחולל נאומים: יצירה של נאום ובחירה של טונציה ווקאלית, והבעות פנים, רק על ידי הקלדה של טקסט.
– מחולל מוסיקה: יצירה והלחנה של מוזיקה חדשה ומקורית על ידי שימוש בטקסט וברעיונות. בלי שום צורך וידע במוזיקה ובהלחנה. היכולת ליצור מוזיקה רק על ידי השראה ורעיון הוא די מדהים בעיניי.
– מחוללים רב ממדיים: אחרי כל זה לא מופרך לדמיין שיהיה ניתן להפוך טקסט לתמונה שתהפוך לווידאו. ובעצם ליצור יצירות רב ממדיות משולבות טקסט מוסיקה ווידאו על ידי הקלדה של טקסט.
כמובן שגם למחולל התמונות ה'פשוט' שקיים היום יש עוד דרך לעשות עם עצמו. כפי שהזכרנו קודם לכן יש לו מגבלות בעיקר בהבנה של הפרטים הקטנים של המציאות המורכבת שלנו. אך ה Stable diffusion לא רחוק משם. לא רחוק היום שיהיה ביכולתו ליצור תמונות ריאליסטיות ברמה גבוהה אף יותר.
האם זה הסוף של הגרפיקאים האנושיים?
שאלה שמעסיקה רבים בימים אלו, היא האם כלי הבינה המלאכותית מבוססי Stable diffusion יוכלו להחליף בעתיד הקרוב את הגרפיקאים האנושיים?
גרפיקאים רבים כבר היום נעזרים בתוכנות מבוססות בינה מלאכותית על מנת לשפץ לצבוע ולערוך את היצירות שלהם. אך האם לטכנולוגיה כגון ה Stable diffusion יש את היכולת להחליף לחלוטין את הגרפיקאי האנושי?
השאלה הזאת יוצרת מחלוקת בקרב הדנים בה.
מצד אחד יש את אלו שטוענים שכלים מבוססי בינה מלאכותית כגון ה Stable diffusion יש אפשרות לנתח מאגרי מידע ונתונים שלאף אדם אנושי אין יכולת.
ולכן היכולת שלו לייצר משהו חדשני וייחודי תהיה גדולה יותר.
מצד שני יש את אלו שטוענים שהבינה המלאכותי לעולם לא תחווה ותבין את הקיום האנושי הרגשי וזהו המקור הכי עוצמתי ואותנטי ליצירה. ולכן לגרפיקאים האנושיים מעולם לא יהיה תחליף. והיצירה האנושית תתקיים לנצח, לצד הבינה המלאכותית.
אם אתם שואלים אותי. תחום הגרפיקה כבר הים עובר שינויים רבים. אנשים פרטיים רבים יוצרים בעצם לוגואים לעסק, ותמונות לעלונים דרך כלים מבוססי בינה מלאכותית כגון ה Stable diffusion . במקום לפנות לגרפיקאי שיעשה עבורם את העבודה הם לומדים באופן קל ומהיר את התוכנה ומשתמשים בה לצורכיהם האישיים ללא עלות ועם מעט מאוד מאמץ. והתוצרים מספקים.
אז כן התחום עובר שינויים רבים. וה Stable diffusion – הופך מטלות קלות ויומיות לפשוטות ונגישות לכל אחד. אבל הגרפיקאי האנושי לא ייעלם כל כך מהר מהנוף. אלו שילמדו לרתום את כלי הבינה המלאכותית לארגז הכלים שלהם יסתגלו לעולם החדש ויהיה באפשרותם להתפתח ולגדול עם האפשרויות החדשות שייווצרו.
בסופו של דבר אני מאמין שאין תחליף לעין האנושית. מיתוג של חברות גדולות למשל לא הולך להתחלף בקרוב על ידי בינה מלאכותית. כנראה שייעשה שימוש בכלים מבוססי בינה מלאכותית כמו בכל תחום אחר שמשתנה בימים אלו.
כל עוד בני האדם ימשיכו לאייש את הכדור הזה, תמיד יהיה צורך באנשים שיבינו את האותנטיות שבחוויה האנושית.
ה Stable diffusion הוא כלי נפלא כבר היום. אבל יש לו עוד לאן להשתפר.
אני בטוח שבעתיד המאוד קרוב נוכל כולנו לראות ולהנות אפילו יותר, מהתוצרים של הטכנולוגיה הנפלאה הזאת.
ואני מקווה שהיא תוכל לשפר, גם אם במעט, את החוויה האנושית המשותפת של כולנו כאן.