kyegomez/OpenMythos
סיכום פשוט: OpenMythos הוא מימוש קוד פתוח למודל Mythos, המשתמש בארכיטקטורת Recurrent-Depth Transformer חדשנית. המודל משלב בלוקים רגילים עם לולאה חוזרת ומנגנון תשומת לב גמיש, מה שמאפשר עיבוד מעמיק יותר של מידע.
הסבר עומק
הספרייה מיישמת ארכיטקטורת RDT הכוללת שלושה שלבים: Prelude (בלוקי Transformer), Recurrent Block (לולאה עד max_loop_iters), ו-Coda. היא תומכת בהחלפה בין MLA ל-GQA עבור ה-Attention, ומשתמשת ב-MoE דליל עם מומחים משותפים וניתבים (routed and shared experts) כדי לייעל חישובים וסיבות (reasoning) בעומק משתנה.
מה עוד אפשר לעשות עם זה
ניתן להשתמש במודל למחקר תיאורטי על יציבות לולאות רקורסיביות באמצעות בדיקת ה-Spectral radius של מטריצת ההזרקה, כמו גם לחקר יעילות של מומחים (Experts) בסקלות גדולות.
איך לשלב את זה במוצרים שלנו
מתאים לשילוב במערכות AI הדורשות חישוב דינמי ומותאם-משאבים, כגון פלטפורמות אימון מודלים גדולים או כלי סינתזת טקסט מתקדמים.