We recoded 64 podcast episodes !
ExplAInable, Israel's most popular machine learning podcast
איך נולדים נתונים מתויגים עם דניאל מנוחין
בפרק זה אירחנו את דניאל מנוחין, מנהלת קהילת data-ops המובילה את התיוג וטקסונומיה ב ebay
בסופו של דבר, מודלים טובים ככל שיהיו - חסומים על ידי איכות הדאטא עליהם הם אומנו.
דניאל תספר על החוויות שלה בebay, על נקודות כשל קלאסיות בתהליך התיוג ועל איך בונים פרוטוקול אנוטציה אחיד.
נדון בהבדל בין מתייגים in-house שהם ממש חלק מהארגון, לעומת מתייגים חיצוניים (כדוגמת mechnical turk) ועל ההשפעה על איכות התיוגים ותהליכי הפיקוח.
להאזנה
על GLM ו AGLM עם לובה אורלובסקי
זה מרגיש כאילו עולם הלמידה מחולק ל2 מחנות, הסטטיסטיקאים ואנשי מדעי המחשב.
ולאחרונה יצא מודל AGLM שהוא רעידת אדמה בעולם האקטואריה (ביטוח, פיננסים), וכנראה שרובנו לא שמענו עליו.
בפרק זה נסקור מה אלו מודלי GLM, ספוילר - אחד מהם - הרגרסיה הלוגיסטית, אתם מכירים היטב.
נדבר על השימושים שלהם, היתרונות שלהם בתחום הפיננסים בעקבות יכולת ההסבר שלהם, ונדבר גם על המגבלות שלהם.
להאזנה
עם שוקי ויואל על מאחורי הקלעים של One Shot Learning
מי לא מכיר את שוקי ויואל - הגאונים מאחורי ערוץ היוטיוב האדיר שמביא את תרבות הלייב קודינג בעולמות למידת המכונה לארץ הקודש.
וואן שוט לרנינג התחיל לפני כשנתיים כרעיון, ומאז הפך לקאלט של ממש.
אבל מאחורי כל סרטון של חצי שעה, מסתתרת עבודה רבה, מחקר, באגים, והמון נסיונות שהלכו לפח.
בפרק זה אורי ראיין את שוקי ויואל על מאחורי הקלעים של ההפקה, ושואל שאלות קשות. איך הכל התחיל ולמה? איזה פרק הכי אהבתם? איזה פדיחה קרתה בצילומים? ומה התוכניות להמשך ?
להאזנה
תורת המשחקים עם מורן קורן
בפרק זה אירחנו את מורן קורן, חוקר ומרצה לתורת המשחקים מאוניברסיטת בן גוריון. דיברנו בעבר שימוש בערכי שייפלי לפרשנות מודלים, ערכי שייפלי הם נושא מחקר פעיל בתורת המשחקים והחלטנו להעמיק ולשפוך אור על תורת המשחקים ואיך הרעיונות משלימים את הנחקר בלמידת מכונה.
דיברנו על המונחים, מהו שיווי משקל ? איך מגדירים משחקים לפי ידיעה שלמה או גורל, על אסטרטגיה אופטימלית, ואיפה תורת המשחקים פוגשת אותנו כאנשי דאטא.
להאזנה
על מערכות חיפוש - סיכום ביקור בכנס הייסטאק 2023 עם אמיר לבנטל
אמיר ואורי נסעו במסגרת עבודתם בארגמקס לכנס הייסטאק HayStack2023
המתמקד בחיפוש, ואימלקו לכם את הפרק לעשרים דקות צפופות על החידושים בתחום החיפוש בעידן ה
Language models
להאזנה
מעבר לדאטא אנליסט לדאטא סיינס - בחסות YDATA
בפרק זה אירחנו את רותם דמבו ועומר דודי, שסיפרו לנו על המעבר שעשו בשנה האחרונה, מתפקיד של אנליסט לתפקיד של מדען נתונים. דיברנו על הפערים "התרבותיים" בין המקצועות, אילו יתרונות יש לאנליסט שמחפש להכנס לתחום מדעי הנתונים, אילו השלמות כדאי לעשות ואיזה טיפים יש להם לתת למי שנכנס לתחום. הם יספרו על ההחלטה לעשות את המעבר, על הלימודים בתוכנית Y-DATA, על איך התוכנית סייעה להם במעבר ועל מה הם עושים כיום.
להאזנה
על למידה חיזוקית באימון מודלי שפה RLHF עם מייק
קשה לעבור ברחוב היום בלי לשמוע מישהו מספר לחברו על צ'אט ג'י פי טי או LLM
אחד החידושים באימון שלו, למעשה ב
InstructGPT
להאזנה
סיבתיות עם אוהד לוינקרון פיש
בפרק זה נדבר עם אוהד מדילטייל, העוסק בניתוח סיבתיות.
אנחנו כולנו למדנו בטירונות דאטא סיינס ש
Correlation does not imply causation
אבל מה כן ? האם חייבים לבצע ניסויים מדוקדקים? והאם זה רלוונטי רק לעולם הרפואה או לכולנו ?
להאזנה
חיפוש וקטורי מקורב
וקטורים, וקטורים בכל מקום ! דיברנו על מילים שהופכות לוקטורים, מסמכים שהופכים לוקטורים, תמונות שהופכות לוקטורים.
אבל ברוב המקרים, נדרש חיפוש של וקטורים דומים למשימות של קלאסיפיקציה, דירוג ואפילו זיהוי אנומליות.
חיפוש וקטורי בקנה מידה גדול זו בעיה הנדסית לא פשוטה, עם אילוצי זמן ריצה וזכרון.
בפרק קצרצר זה, נסקור שלושה אלגוריתמים לחיפוש מקורב ונדבר על סוגי הוקטורים המתאימים.
להאזנה
על התאוריה של Replay Buffer עם שירלי די קסטרו שעשוע
פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי Replay Buffer סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policy
להאזנה
העבודה הראשונה בדאטא שלי
פרק זה הוא חסות מיוחד בשיתוף אנבידיה, שמוקדש לג'וניורים.
אנבידיה הפיקה את כנס ה GTC עם דגש מיוחד השנה של גנרטיב - להרשמה לחצו פה
להאזנה
על קורסטים עם איתן נצר
בפרק זה אירחנו את איתן נצר, מ
data heroes
לדבר על בחירה חכמה של דגימות לצורך אימון מודלים.
אנחנו בעידן הדאטא, נאספים טרות של אירועים מדי יום - אבל המודל שלנו לאו דווקא מרוויח מכל השפע הזה.
להאזנה
אתגר הלווינות של מפא”ת
בפרק זה נציג את אתגר הלווינות החדש בסדרת MAFAT Challenge.
אירחנו את ליאל ממפא"ת ואת שי ועידן מ-Webiks.
דיברנו על מהפכת החלל, האתגר בזיהוי אובייקטים מתצלומי לוויין במאפיינים שונים וההבדלים ביחס לגילוי אובייקטים קלאסיים.
להאזנה
זיהוי הונאות על ידי אנומליות עם אנדרס מRiskified
זיהוי אנומליות הוא נושא שימושי למגוון בעיות, זיהוי סנסורים דפוקים, אאוטליירים בדאטא או התנהגות חשודה.
הבעיה היא שזיהוי אנמליות בפני עצמו הא לא תמיד שימושי, אם אין פעולה שאפשר לבצע בעקבות החריגה.
נדבר על הגישות הקלאסיות לאנומלי, כגון
* Density estimation
להאזנה
איך לא להעסיק ג’וניורים במקצועות הדאטא
פרק זה הוא פרק סולו של אורי, בוא הוא יספר על החוויה שלו בפתיחת משרת ג'וניור בארגמקס.
המשרה זכתה לחשיפה גבוהה ברשתות החברתיות והגיעה ל40 אלף איש בעקבות שיטת הגיוס הלא שגרתית.
אורי יספר על מבחן הבית, ההיענות המפתיעה של מועמדים והביקורות שקיבל מקולגות לתחום.
באם יש לכם נסיון או מומחיות בתחום גיוס הג'וניורים, נשמח לפידבק בקבוצת הטלגרם שלנו
להאזנה
רשתות נוירונים על גרפים עם חגי מרון
בפרק זה אירחנו את חי מרון מ
nvidia
לדבר על עיבוד גרפים עם רשתות נוירונים.
נדבר על ישומים של גרפים בחיים האמיתיים, ועל ההבדל האינהרנטי שבין גרף לבין "תמונה" או מטריצה כללית.
להאזנה
יצירה אוטומטית של קוד עם פרופ ערן יהב וד”ר אורי אלון
בפרק קודם דיברנו על קודקס, מודל השפה שמאחורי
Github Co-Pilot
בפרק זה, החלטנו להעמיק ולראיין את ערן יהב, חוקר באקדמיה והמוח מאחורי
TabNine
להאזנה
Data Centric AI עם סיגל שקד
נראה שעולם המודלים הגיעה לבשלות, לא פעם יוצא לנסות כמה מודלים שונים ולהגיע לאותן מטריקות.
הטרנד של
data centric ai
שמוביל
להאזנה
על חינוך בתחום הבינה המלאכותית עם שי פרח
בפרק זה אירחנו את שי פרח ממכון וייצמן, מומחה להוראת המדעים.
בעידן שלנו, ללמוד לתכנת זה כישור יסוד כמו קריאה וכתיבה בעידן המחשב.
האם הגיע המקום לחשיבה בשיטת
ai4all
להאזנה
זרימות מנורמלות עם מייק ארליכסון
מייק, אורח קבוע של הפודקאסט ידבר איתנו על
Normalized Flows
מודל חדש ליצירת תמונה מטקסט, או תמונה מתמונה בדומה ל
Diffusion model, GANS and VAE
להאזנה
אנומליות בתמונות עם ערן אילת
בפרק זה אירחנו את ערן אילת האנומליה, לדבר על חיזוי אנומליות בתמונות..
חיזוי של חריגות הוא קריטי לתחומים רבים כמו סייבר, הונאה פיננסית ובקרה על מודלים.
בעולמות התמונה, נדבר על שלושת הסוגים של חריגות, חריגה מההתפלגות
OOD
להאזנה
איך פרילנסר ניגש לפרויקט AI
תמיר ואורי, שניהם עוסקים כיועצים בתחום למידת המכונה - ועשו הרבה טעויות שניתן ללמוד מהם כשניגשים לפרויקט חדש.
בפרק זה, נדבר על שלושה פרויקטים לדוגמא - ומה הן השאלות והסוגיות שצריך להעלות לפני שמתחילים.
נדבר על מטריקות - איך מודדים פרויקט, על אתגרים טכניים.
איך בוחנים האם הדאטא מספק, והאם הארגון בכלל בשל ל
להאזנה
Co-Pilot - Codex ויצירה של קוד עם מודלי שפה
הקופיילוט של גיטהאב הכניס למודעות תחום מחקר מרתק של
Program Synthesis
העוסק ביצירה של קוד מתוך טקסט או מתוך דוגמאות הרצה.
אורי, כמשתמש נלהב של טייס המשנה יספר מהחוויות שלו על השימוש - החוזקות והחולשות של הכלי.
להאזנה
שישה מאמרים שכל דאטא סיינטינסט חייב להכיר עם שקד זיכלינסקי
בפרק זה אירחנו את שקד זיכלינסקי, ראש קבוצת ההמלצות של לייטריקס.
שקד ריכז עבורנו את ששת המאמרים החשובים שכל דאטא סיינטיסט מודרני חייב להכיר.
ששת המאמרים הם:
(1) Attention Is All You Needלהאזנה
Novel Class Discovery זיו פרוינד על
בפרק זה אירחנו את זיו פרוינד שהכיר לנו מונח חדש לבעיה נפוצה.
מכירים את זה שאימנתם מודל שעובד מעולה כשמסווגים 10 מחלקות, אבל פתאום כשמגיעים לשטח מגלים שיש עוד 12 מחלקות שלא חשבתם עליהם ומבלבלות את המודל ?
זיו יספר על נסיונו בסיווג סיגנלים באלביט, ויספר על גישות לפתרון הבעיה.
נשמע לכם כמו קלאסטרינג ? גם לנו - נדבר על ההבדלים ועל שימוש בשיטות כמו
להאזנה
Multi-Task Learning עם איתי מרגולין
בפרק זה נראיין את איתי מרגולין על אחת הטכניקות הפרקטיות בתעשייה שכל עסקן דיפ לרנינג חייב להכיר.
מולטי-טאסק זו למידה של מספר משימות במקביל, ולמרות שהמונח קיים כבר עשרות שנים, הוא זכה להכרה מחדש עם פרוץ דיפ לחיינו.
נדבר על מתי למידה של מספר משימות מועילה, מתי היא מזיקה ?
מה ההבדל מול
להאזנה
מערכות המלצה בטאבולה עם דנה קנר
כמשתמשים אנחנו נחפשים למערכות המלצה כל הזמן, בין אם זה בסופר בקניות או בגלילת סרטים בנטפליקס.
בפרק זה נדבר עם דנה, על איך טאבולה, ענקית ההמלצות העולמית ממליצה לנו על כתבות דומות כשאנחנו גולשים באינטרנט.
נדבר על המלצות מבוססות תוכן בלבד
content filtering
להאזנה
זיהוי אובייקטים עם אברהם רביב
בפרק זה נדבר על זיהוי אובייקטים בתמונה, ונארח את אברהם רביב - דוקטורנט בתחום בבר אילן ופעיל מאוד בקהילה עם הסקירות המעולות שלו.
נדבר על בעיות בראיה ממוחשבת, מקלאסיפיקציה, דרך זיהוי אובייקטים ועד סגמנטציה - ועל הקושי בתיוג.
זיהוי אובייקטים יכול להיות ממודל או כבעיה דו שלבית, הכוללת שלב נקודות עניין ואז קלאסיפיקציה או יחדיו - ונזכיר את
YOLO
להאזנה
Defusion Denoising Models עם מייק ארליכסון
ראיון מיוחד עם מייק ארליכסון האחד והיחיד על מודל גנרטיבי "חדש".
Diffusion Models הם שיטה חדש לפעפוע רעש, ואימון מודל להפוך רעש על ידי סדרה של מודלים לתמונות סופר איכותיות.
נדבר על המאמר:
להאזנה
MLOps עם אורן רזון
בפרק זה נדבר עם אורן רזון שמוביל את
superwise
על שלושת השלבים של דיפלוימנט של מודלי למידת מכונה.
נדבר על מה יכול להשתבש בפרודקשן כשמודל מתיישן והעולם מתיישן, ואיך ניתן להיות עם יד על הדופק עם
להאזנה
Machine Learning Engineering עם אסף פנחסי
למידת מכונה נורא כיפית ופשוטה כשמורידים מחברת מקאגל וכל הדאטא יושב בקובץ על המחשב ליד, אבל בחיים האמיתיים המצב לא כ"כ פשוט.
בפרק זה אסף פנחסי (יועץ בתחום, בוגר פייפל ובכיר בזברה מדיקל לש') לספר לנו על החיים האמיתיים.
שאלנו את אסף את כל השאלות הקשות: מחברות או קוד ? האם
feature store
להאזנה
סטטיסטיקה בייסיאנית
סטטיסטיקאים נחצים ל2 מחנות: הסטטיסטיקאים הקלאסיים-תדירותיים, והסטטיסטיקאים הבייסיאנים.
סטטיסטיקה בייסיאנית היא גישה שונה לסטטיסטיקה, שמנסה לדון בסבירות לא רק של הדאטא הנצפה בהנתן השערה, אלא גם בסבירות של הפרמטרים של ההתפלגות.
מודלים רבים כגון
GMM, Naive Bayes ו Latent Dirrechlet allocation
להאזנה
ניווט אינרציאלי עם ברק אור
בפרק זה אירחנו את ברק אור לספר לנו על ניווט אינרציאלי.
כשאנחנו חושבים על ניווט, אנחנו חושבים על גוגל מאפס, ווייז ושלל אפליקציות שמשתמשות ב
GPS.
אבל לג'י פי אס יש מגבלות, ויש דרכים נוספות לנווט - כגון מדדי תאוצה, מהירות ומצפן.
להאזנה
על בינה מלאכותית בסייבר עם רועי טבח
בפרק זה ראיינו את רועי טבח שייספר לנו על האתגרים בעולם הסייבר,
דיברנו על שימוש באנומלי דטקשן להתראה על אירועים חשודים בלוגים של מערכות.
ודיברנו על מירוץ החימוש הנצחי בין התוקפים למגינים
להאזנה
Proximal Policy Optimization מה זה
כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה
SOTA
עד שמגיעה גישה חדשה שטורפת את הקלפים.
לכן מעניין דווקא לדבר על
להאזנה
בנדיטים עם דניאל חן
בפרק זה אירחנו את דניאל חן מפייבר, לדבר על אלגוריתמי בנדיטים.
Multi armed bandit
היא גרסה מנוונת של
Reinforcement learning
להאזנה
Variational Auto Encoders עם מייק ארליכסון
פרק מהארכיון, עם מייק ארליכסון המפורסם מסקירות המאמרים.
בפרק זה נדבר על הדרך מאוטו-אנקודר אל
VAE
לצורך יצירה של דאטא סינטתי.
להאזנה
עצי החלטה - חוזרים לבסיס
בפרק זה נחזור לבסיס ונדבר על עצי החלטה, המודל הבסיסי והאינטואטיבי ביותר - שעדיין עובד יותר טוב על דאטא טבלאי.
נדבר על שיטות אימון חמדניות, ועל שימוש באנטרופיה כקירוב.
ונתאר מה ההבדל בין שיטות ה
ensemble
להאזנה
למידה ניגודית Contrastive Learning
נראה שלמידה ניגודית מקבלת המון תשומת לב לאחרונה, בעיבוד תמונה, טקסט ואפילו דאטא טבלאי.
נדבר על המאמר פורץ הדרך של הינטון
SimCLR
ונשווה אותו אל מול שיטות קלאסיות של הורדת מימד.
להאזנה
פדיחות של למידה
בהמשך לסיקור החדשותי של זילו, והחיזוי מחירי נדלן שהביאו להפסדים של מיליארדים - תמיר ואורי מתוודאים על פדיחות שעשו בפרויקטים.
מה קורה כשהמודל מושלם אבל תהליך יצירת הדאטא פחות ? איך פרויקט תיוג יכול להשתבש ולהתפוצץ בפנים, וכמובן - כמה חשוב לקרוא את האותיות הקטנות בדוקמנטציה.
להאזנה
עיבוד קול עם אמיר עברי
בפרק זה אירחנו את אמיר עברי להסביר לנו על עיבוד קול, מה הם השלבים השונים בפייפליין של
Speech recognition
ועל האתגרים בתחום. בפרק נדבר על שיטות כגון
MFCC
להאזנה
על התאוריה של דיפ לרנינג, עם גלעד יהודאי
על מהפכת הדיפ לרנינג לא צריך להרחיב, כולנו מכירים וחלקנו אף מימשנו.
אבל למה לעזאזל הדבר הזה עובד ? בפרק זה אירחנו את גלעד יהודאי, סטודנט לדוקטורט לתחום ושאלנו אותו את השאלות הקשות.
נלמד מה זה "אוברפיטינג שפיר" מה היא תופעת ה"ירידה הכפולה" ומה הם שלושת סוגי הטעויות בלמידה.
להאזנה
עיבוד שפה בעברית, עם פרופסור רעות צרפתי
בפרק זה אורי מארח את רעות צרפתי לדבר על עיבוד שפה בעברית.
מה ההבדל בכלל בין עברית לאנגלית ? למה זה יותר קשה ?
האם החיים היו יותר קלים אם היינו כותבים עם ניקוד ?
ודיברנו על ההבדלים הבלשניים של שפות שמיות (עברית וערבית) אל מול שפות הודו אירופאיות.
להאזנה
Positive Unlabeled Learning שי פלצ‘י על
קיבלתם פעם דאטאסט עם "כל הדברים שחשוב לזהות" אבל בלי אף דוגמא שלילית ?
אני בטוח שכן, אפשרות אחת לפתרון היא למדל את הבעיה כקלאסיפיקציה ואיכשהו להמציא דוגמאות שליליות.
או, לחילופין למדל את הבעיה כ
Positive Unlabeled Learning
להאזנה
Welcome back -not amlek.ai - we‘re ExplAInable
Tamir Nave and Uri Goren introduce themselves and the new podcast format.
להאזנה
Episode 18: AlgoTrading
בפרק זה, התארחנו ב weel.com, ואירחנו את יגאל ויינברגר, שדיבר איתנו על AlgoTrading. שוחחנו על סוגי אלגוטריידינג (Sell side, Buy side, HFT), ועל גישות האלגוריתמים בתחום: כלים סטטיסטיים סטנדרטיים, LSTM, Reinforcement Learning. בנוסף, הצגנו כיצד אפשר להיכנס לתחום, ויגאל אפילו נתן לנו אלגוריתם baseline להתחיל לשחק איתו. האותיות הקטנות של האזהרה: כן לנסות את זה בבית, אבל לא כ"כ מהר על כסף אמיתי!
קישורים רלוונטיים:
Episode 17: Models Discrimination
בפרק זה, נארח את אופיר יוקטן - שמתעסק בניבוי התאמה של קורות חיים. אופיר יציג כיצד הוא מתמודד עם מודלים מפלים על רקע מגדרי\גזעני. נעסוק בשיטות להתמודדות עם הבעיה הזו: העלמת או הינדוס פיצ'רים, אימון עם Database מאוזן, ושיטת Gradient reversal layer.
קישורים:
- "What is Adverse Impact? And Why Measuring It Matters." 26 Mar. 2018, https://www.hirevue.com/blog/hiring/what-is-adverse-impact-and-why-measuring-it-matters. Accessed 15 Dec. 2020.
להאזנה
Episode 16: GAN - Generative Adversarial Networks
בפרק זה, נדבר על מודלים ג'נרטיביים, ובפרט על מהפכת ה-GAN=Generative Adversarial Networks. איך עובד הקסם? תחרות בין מודלים - האחד שמזייף, והשני שמגלה זיופים. וקצת על כל הנגזרות של האלגוריתם, שבאו כפטריות אחרי הגשם.
קישורים:
Episode 15: Transformers - האבולוציה של ניתוח סדרות בזמן
בפרק זה, נסקור את ההשתלשלות של ניתוח סדרות בזמן החל מ-RNN, דרך Attention Models ועד ל-Transformers.
נדבר על Self Attention, Multi Headed Attention, LSTM, RNN, GRU, Transformers ו-DeTR.
קישורים רלוונטיים:
Episode 14: Graph Neural Nets - שיכון גרפים
בפרק זה נארח את אלה בור, שתספר לנו על מהם גרפים (קשתות וצמתים), על בעיות המיוצגות ע"י גרפים ועל שיכון גרפים במרחב אוקלידי (GNN, Node2Vec).
קישורים:
Episode 13: 3D
בפרק זה אנו נארח את פיטר נפתליאב הבלוגר ומנהל קהילת /r/2D3DAI שידבר איתנו על עולם התלת מימד.
נעסוק ביישומים ובסוגי הבעיות בתחום. נסקור ייצוגים של DATA תלת מימדי: Cad, Mesh, Voxel, Points Cloud.
קישורים רלוונטיים:
להאזנה
Episode 12: Gaussian process regression/ Kriging
בפרק זה נדבר על שיטת רגרסיה, שנקראת Kriging או Gaussian process regression - שיטה בייסיאנית שהחלה במטרה לאתר מכרות זהב. נדבר על מושגי מבוא, כמו: משתנה אקראי גאוסי ותהליך אקראי גאוסי, ועל משפט הגאוסיאני המותנה. קישורים רלוונטיים:
Episode 11: Curriculum Learning - תכניות אימון למודלים
בפרק זה נעסוק בתחום ה-Curriculum Learning - מה זה ולמה זה טוב? איך מסדרים בסדר מוצלח יותר את דוגמאות האימון ולפי אילו מדדים? בשיחה, נדבר על המרכיבים המקובלים - scoring ו-pacing, ועל מתודולוגית Teacher-Student.
קישורים רלוונטיים:
Episode 10: Fourier Transform - אינטרו לפורייה
בפרק זה, נשוחח על מהי התמרת פורייה. מוטיבציות, שימושים, Time Series והקשר ללמידה עמוקה.
קישורים רלוונטיים:
Episode 9: Adversarial Training - איך לבלבל מודלים?
בפרק זה, נדבר על Adversarial Attacks, על איך מייצרים Adversarial Examples בשיטת FGSM, על התקפות White or Black box models ונזכיר Certifiable Robustness.
Episode 8: הורדת מימדים
בפרק זה נדבר על הורדת מימדים - Dimensionality reduction. נעסוק במוטיבציות (קללת המימדים), ובאלגוריתמים PCA, T-SNE, AutoEncoders, SOM.
קישורים רלוונטיים:
Episode 7: Clustering from a bird eye view
בפרק זה נעסוק בבעיה הכי שכיחה בעולם unsupervised, הרי היא בעיית ה-clustering - ניתוח אשכולות. נדבר על משפחות אלגוריתמים (top down - bottom up, soft-hard, metric/ graph/ distribution based), ונעסוק במדדי הצלחה קלאסיים (silhouette, dunn index, DB index, Rand index) ובמדדי הצלחה תלויי בעיה.
קישורים רלוונטיים:
Episode 06: (XAI) פרשנות מודלים
בפרק זה נעסוק באיך מפרשים מודלים ואיך מבינים את ההחלטות שלהם. תחום רחב זה נקרא Explainable artificial intelligence או Interpretable machine learning. בפרק נעסוק בטכניקות השונות שיש בתחום ובפרט ב ZF-NET, DeepDream, GradCam, Lime, Shap.
קישורים רלוונטיים:
Episode 05: NLPH (NLP In Hebrew)
בפרק זה נדבר על עיבוד טקסט בעברית, ונציג כיצד הוא שונה משפות אחרות, ובפרט מאנגלית. נשוחח על ה-NLP Pipeline ועל למה הוא שבור בעברית, ונדבר על התחביר של עברית והתכונות הייחודיות של שפות שמיות.
המעבדה לעיבוד שפה טבעית בעברית
להאזנה
Episode 04: All Multi's
בפרק זה נדבר על כל ה-Multi's וננסה לעשות סדר במושגים שנוטים לבלבל:
multi class classification, multi label classification, multi task learning, Multi objective, Multiple modality.
נגדיר כל מושג, ניתן דוגמאות ונדון בסוגיות ומימושים סביב כל מושג. קישורים רלוונטיים:
Episode 03: Active Learning
בפרק זה נדבר על מהי Active Learning, כמה זה נפוץ ומתי ניתן לעשות זאת. נדבר על קריטריוני החלטה (Query Strategies):
Least Confidence ,Margin Sampling ,Entropy Sampling ונזכיר את ההבדלים במתודולוגיות:
Membership Query Synthesis, Stream-Based Selective Sampling, Pool-Based Sampling.
לסיום נדון ב-Active Learning כבעיית Reinforcement Learning.
קישורים רלוונטים\שהזכרנו:
להאזנה
Episode 02: Reinforcement Learning - Introduction
בפרק זה נדבר על למידה חיזוקית - Reinforcement Learning.
נדבר על מושגי היסוד בתחום (environment, state, policy, agent, reward), על סיווג של התחום הזה ב-Machine Learning, על למה זה נהיה מאוד פופולארי, על הקשיים בתחום ועל דילמת ה-Exploration - Exploitation.
קישורים שהוזכרו:
שיתוף פעולה בין סוכנים במשחק המחבואים
להאזנה
Episode 01: The Lottery Ticket Hypothesis
בפרק זה, נעסוק ב-Neural Network Pruning, כאשר נתקמד בפרט במאמר פורץ דרך מ2019, שנקרא "THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE TRAINABLE NEURAL NETWORKS", מבית היוצר של MIT.
במאמר זה, מציעים דרך מעניינת לקצץ רשת גדולה במעל 80% מהמשקלים שלה בצורה כזו שהביצועים (ה-accuracy) לא ייפגעו. קישורים שהוזכרו בפרק:
Episode 00: Who are we and what do we want?
זהו פרק מבוא קצרצר בו אנו מספרים מי הוא תמיר נווה ומי הוא אורי גורן, למה החלטנו להתחיל עם הפודקאסט, ומה היינו רוצים שיהיה בפרקים הבאים.
להאזנה