اختبار DeepSeek R1 Lite لمعرفة ما إذا كان أفضل من O1

أجرى الكاتب اختبارًا لنموذج DeepSeek R1 Lite، الذي أطلقته شركة DeepSeek الصينية، لمعرفة ما إذا كان يتفوق على نموذج OpenAI’s o1-preview. النموذج الجديد يُعتبر أداة ذكاء اصطناعي مشابهة لـ ChatGPT، ويُزعم أنه يتمتع بقدرات استثنائية في التفكير المنطقي وحل المشكلات المعقدة، خاصة في الرياضيات والبرمجة. أجرى الكاتب سلسلة من الاختبارات لتقييم أداء النموذج في مجالات مختلفة مثل الترميز والرياضيات والمنطق.
جدول المحتويات
ما هو DeepSeek R1 Lite؟
DeepSeek R1 Lite هو نموذج ذكاء اصطناعي طورته شركة DeepSeek الصينية، ويُعتبر منافسًا لنماذج OpenAI. يتميز النموذج بقدرته على حل المشكلات المعقدة في الرياضيات والبرمجة والمنطق، مع عرض خطوات التفكير بشكل تفصيلي لزيادة الثقة في النتائج.
اختبارات الأداء DeepSeek R1 Lite
1. اختبار الفراولة (Strawberry Test)
بدأ الكاتب باختبار بسيط لمعرفة عدد مرات ظهور الحرف “r” في كلمة “strawberry”. النموذج أظهر تفكيرًا دقيقًا، حيث قام بعد الحروف أكثر من مرة وفحص النتائج بعناية، مما يدل على قدرته على التفكير المنهجي.
2. اختبارات الرياضيات
- مساحة المثلث: طُلب من النموذج حساب مساحة مثلث بأضلاع 3، 4، و5. النموذج استخدم نظرية فيثاغورس وصيغة هيرون لحساب المساحة، وأظهر تفكيرًا واضحًا ومنطقيًا.
- إثبات رياضي: تم اختبار النموذج على إثبات تقارب مجموع مقلوبات أعداد فيبوناتشي. النموذج استخدم اختبارات المقارنة والنسبة لإثبات التقارب، وأظهر فهمًا عميقًا للمفاهيم الرياضية.
- هندسة تفاضلية: تم اختبار النموذج على حساب الشكل الأساسي الأول لسطح معين وتحديد ما إذا كان سطحًا أدنى. النموذج قدم حلولًا مفصلة وخطوات واضحة، مع مراجعة الحسابات باستخدام طرق مختلفة.
3. اختبارات البرمجة
- بايثون: طُلب من النموذج كتابة دالة للعثور على أطول سلسلة متجانسة في سلسلة نصية مع تعقيد زمني أفضل من O(n³). النموذج استخدم تقنية “التوسع حول المراكز” لتقديم حل فعال وواضح.
- جافا سكريبت: تم اختبار النموذج على كتابة دالة لتحديد ما إذا كان الرقم أوليًا. النموذج قدم حلًا فعالًا مع شرح واضح للخطوات.
4. اختبارات المنطق
- مشكلة الذئب والماعز والملفوف: النموذج حل المشكلة الكلاسيكية بنجاح، مع عرض خطوات مفصلة ومنطقية.
- لغز وزن الكرات: طُلب من النموذج تحديد كرة مختلفة في الوزن من بين 12 كرة باستخدام الميزان ثلاث مرات فقط. النموذج قدم خطة مفصلة وخطوات واضحة لحل اللغز.
المقارنة مع النماذج الأخرى
أجرى الكاتب مقارنة بين DeepSeek-R1-Lite-Preview ونماذج أخرى مثل o1-preview وGPT-4o باستخدام معايير مختلفة:
- AIME 2024: تفوق DeepSeek R1 Lite Preview بنسبة 52.5% مقارنة بـ 44.6% لـ o1-preview.
- MATH: حقق DeepSeek-v1 دقة 91.6%، متفوقًا على o1-preview (85.5%).
- GPQA Diamond: تفوق o1-preview بنسبة 73.3% مقارنة بـ 58.5% لـ DeepSeek-v1.
- Codeforces: كان أداء DeepSeek-v1 وo1-preview متقاربًا في البرمجة التنافسية.
- LiveCodeBench: تفوق o1-preview قليلاً في اختبارات الترميز المستمرة.
- ZebraLogic: تفوق o1-preview في المهام المنطقية المجردة.
تفوق DeepSeek R1 Lite في الرياضيات والبرمجة:
- أظهر النموذج أداءً متميزًا في اختبارات الرياضيات المعقدة مثل AIME وMATH، حيث تفوق على o1-preview وGPT-4o.
- في البرمجة، قدم حلولًا فعالة وواضحة لمسائل مثل العثور على أطول سلسلة متجانسة وتحديد الأعداد الأولية.
القدرة على التفكير المنطقي والتحليل الدقيق:
- النموذج يتميز بعرض خطوات التفكير بشكل تفصيلي، مما يزيد من فهم المستخدم وثقته في النتائج.
- في اختبارات المنطق مثل “الذئب والماعز والملفوف” و”وزن الكرات”، أظهر النموذج قدرة على حل المشكلات المعقدة بخطوات منطقية ومدروسة.
تحسين الأداء مع زيادة “رموز التفكير”:
- كلما زاد عدد “رموز التفكير” التي يستخدمها النموذج، تحسنت دقته بشكل ملحوظ.
- في اختبارات AIME، تحسن أداء النموذج من 21% إلى 52.5% مع زيادة رموز التفكير.
فيديو شرح نموذج التفكير الجديد DeepSeek R1 Lite
يمكنك زيادة الموقع من هنا:- DeepSeek-R1-Lite-Preview
أقرا ايضا:-
كيفية تثبيت واستخدام DeepSeek R-1 على الكمبيوتر؟
تنزيل DeepSeek V3 اخر اصدار مجانا
الخلاصة
DeepSeek R1 Lite أظهر أداءً متميزًا في مجالات الرياضيات والبرمجة، حيث تفوق على o1-preview في العديد من الاختبارات. ومع ذلك، o1-preview كان أكثر توازنًا في الأداء عبر مجموعة أوسع من المهام. النموذج الجديد أظهر قدرة على التفكير المنطقي والتحليل الدقيق، مما يجعله أداة قوية في مجالات محددة، خاصة مع زيادة عدد “رموز التفكير” التي يستخدمها، مما يحسن دقته بشكل ملحوظ.
في النهاية، يعتمد تفوق DeepSeek R1 Lite على طبيعة المهمة المطلوبة، حيث يبرز في المهام الرياضية والبرمجية، بينما يظل o1-preview أكثر تنوعًا في الأداء.