תיקון קוראים
משתמש פעיל
- הוסף לסימניות
- #1
האמת היא שזה הופך לאירוע כמעט משעמם וצפוי מראש.
פעם בחודשיים-שלושה, גוגל, OpenAI, Anthropic או xAI מוציאות מודל חדש ורענן שעוקף את כל שאר המודלים והופך ל"טוב ביותר בעולם".
יש אפילו תרשים נחמד (מם בלע"ז) שמתפרסם מפעם לפעם ומייצג היטב את המצב:
ועדיין, כעוקב מושבע אחר התחום, אי אפשר להתעלם מהשחרור החדש של גרוק 4, שמציג קפיצות ביצועים מרשימות למדי במגוון מדדים – וזאת רק חמישה חודשים אחרי שחרור גרוק 3.
(ואל תשכחו כמה זמן עבר בין GPT-3 ל-GPT-4... וכמה זמן עוד נצטרך לחכות ל-GPT-5.)
למי שלא מכיר: גרוק 4 הוא המודל של xAI, מבית X – החברה הפרטית של אילון מאסק.
וכעת, למדדים:
הנתון המרשים ביותר הוא במבחן האחרון של האנושות (HLE), שבו גרוק מוביל בפער עצום עם 44.4%, לעומת Gemini 2.5 Pro שבמקום השני עם 26.9%.
מדובר באוסף שאלות קשות ומורכבות להחריד מכל תחום אפשרי – מדע, משפט, רפואה, פילוסופיה, כלכלה – כשמו כן הוא: המבחן הקשה ביותר שיצרה האנושות עבור מודלי AI.
פריצה נוספת ומרשימה נרשמה במדד ARC-2 – מבחן חזותי מורכב.
קלוד 4 אופוס (Claude 4 Opus) הוביל עד כה עם 8.6%,
גרוק 4 מכפיל את התוצאה הזו ומגיע ל-15.9%!
ולנתונים המשעממים יותר, שהפכו כבר לשגרה בכל שחרור מודל:
שיפור כללי במדדים הקלאסיים – שכבר קרובים לגרד את ה-100%.
גרוק 4 מציג ביצועים חזקים גם כאן:
• מדד AIME25 – 100%
• מדד GPQA – 88.9%
ועוד...
הנתונים האלו מתייחסים לגרסה החזקה ביותר של המודל – Groq 4 Heavy.
עד כאן העדכון לפעם – העדכון הבא כנראה בקרוב, עם מודל הקוד הפתוח הצפוי של OpenAI, GPT-5 וכל מה שחם בתעשייה...
הכנסו לבלוג שלי למאמרים ותגליות אחרות:
https://blog.ze-kal.top]https://blog.ze-kal.top
פעם בחודשיים-שלושה, גוגל, OpenAI, Anthropic או xAI מוציאות מודל חדש ורענן שעוקף את כל שאר המודלים והופך ל"טוב ביותר בעולם".
יש אפילו תרשים נחמד (מם בלע"ז) שמתפרסם מפעם לפעם ומייצג היטב את המצב:
ועדיין, כעוקב מושבע אחר התחום, אי אפשר להתעלם מהשחרור החדש של גרוק 4, שמציג קפיצות ביצועים מרשימות למדי במגוון מדדים – וזאת רק חמישה חודשים אחרי שחרור גרוק 3.
(ואל תשכחו כמה זמן עבר בין GPT-3 ל-GPT-4... וכמה זמן עוד נצטרך לחכות ל-GPT-5.)
למי שלא מכיר: גרוק 4 הוא המודל של xAI, מבית X – החברה הפרטית של אילון מאסק.
וכעת, למדדים:
הנתון המרשים ביותר הוא במבחן האחרון של האנושות (HLE), שבו גרוק מוביל בפער עצום עם 44.4%, לעומת Gemini 2.5 Pro שבמקום השני עם 26.9%.
מדובר באוסף שאלות קשות ומורכבות להחריד מכל תחום אפשרי – מדע, משפט, רפואה, פילוסופיה, כלכלה – כשמו כן הוא: המבחן הקשה ביותר שיצרה האנושות עבור מודלי AI.
פריצה נוספת ומרשימה נרשמה במדד ARC-2 – מבחן חזותי מורכב.
קלוד 4 אופוס (Claude 4 Opus) הוביל עד כה עם 8.6%,
גרוק 4 מכפיל את התוצאה הזו ומגיע ל-15.9%!
ולנתונים המשעממים יותר, שהפכו כבר לשגרה בכל שחרור מודל:
שיפור כללי במדדים הקלאסיים – שכבר קרובים לגרד את ה-100%.
גרוק 4 מציג ביצועים חזקים גם כאן:
• מדד AIME25 – 100%
• מדד GPQA – 88.9%
ועוד...
הנתונים האלו מתייחסים לגרסה החזקה ביותר של המודל – Groq 4 Heavy.
עד כאן העדכון לפעם – העדכון הבא כנראה בקרוב, עם מודל הקוד הפתוח הצפוי של OpenAI, GPT-5 וכל מה שחם בתעשייה...
https://blog.ze-kal.top]https://blog.ze-kal.top
הנושאים החמים