via BeInCrypto Arabic · بقلم BeInCrypto Arabic Editorial
ديب سيك-R1 يهلوس بمعدل 4 مرات أكثر من V3، مما يثير علامات استفهام حول عملات وكلاء الذكاء الاصطناعي للعملات الرقمية
VIRTUAL/USDT
$67,321,166.14
$0.8220 / $0.7589
الفرق: $0.0631 (8.31%)
+0.0038%
الشراء يدفع
سجل نموذج DeepSeek-R1 الرئيسي للاستدلال من مختبر ديبسيك الصيني معدل هلوسة يبلغ 14,3% وفقًا لمعيار HHEM 2,1 من فيكتارا. يُعادل ذلك ما يقارب أربعة أضعاف سلفه غير المتخصص في الاستدلال DeepSeek-V3، الذي حقق معدل 3,9%.
يثير هذا الفارق تساؤلات صعبة لقطاع العملات الرقمية. تعتمد فئة متنامية بسرعة من رموز وكلاء الذكاء الاصطناعي الآن على نماذج اللغة الكبيرة القائمة على الاستدلال للتداول الذاتي، والإشارات، والتنفيذ عبر السلسلة.
تظهر بيانات فيكتارا أن R1 "يبالغ في المساعدة" بمعلومات خاطئة
جرى اختبار نماذج ديبسيك عبر إطار عمل HHEM 2,1 المخصص لتقييم الهلوسة الخاص بفيكتارا. كما راجع الفريق النتائج باستخدام منهجية FACTS من جوجل. أظهر R1 إفرازًا لمزيد من التصريحات الخاطئة أو غير المدعومة مقارنة بV3 في كل إعداد اختباري.
لم يكن السبب هو عمق الاستدلال فقط. اكتشف محللو فيكتارا أن R1 يميل إلى "المبالغة في المساعدة". يضيف النموذج معلومات لا تظهر في النص المصدر.
قد تكون هذه التفاصيل المضافة صحيحة من الناحية الواقعية ومع ذلك تُعتبر هلوسة. يُدخل هذا السلوك سياقًا ملفقًا إلى إجابات تبدو سليمة.
ذكرت فيكتارا هذا الاكتشاف بشكل مباشر في منشور عام على منصة X.
أكدت فيكتارا في منشورها أن "DeepSeek-R1 يظهر معدل هلوسة يبلغ 14,3%، أي أعلى بنحو أربع مرات من DeepSeek-V3". ذكرت ذلك.
لاحظ متابعو الصناعة أن هذا النمط لا يقتصر على ديبسيك فقط. تظهر نفس المقايضة عبر نماذج الاستدلال المدربة من مختبرات أخرى. يعزز التعلم التعزيزي الذي يصقل آلية التفكير جرأة وثقة أعلى في الإجابات أيضًا.
لماذا تقف رموز الذكاء الاصطناعي في عالم العملات الرقمية أمام هذه المقايضة
يستضيف سوق العملات الرقمية الآن مئات من رموز وكلاء الذكاء الاصطناعي، تتصدرها فيرتشوالز بروتوكول (VIRTUAL)، ai16z (AI16Z)، و aixbt (AIXBT).
حقق هذا القطاع نموًا يقارب 39,4% خلال نافذة الثلاثين يومًا الأخيرة. تجاوزت فيرتشوالز وحدها 576 مليون دولار في القيمة السوقية.

تُغلِّف معظم هذه الوكلاء نموذج لغة كبير في أدوات. تتيح هذه الأدوات للوكيل النشر على وسائل التواصل الاجتماعي، وتوجيه التداولات، وسك العملات، أو إنشاء تعليقات سوقية.
عندما يصنع النموذج الأساسي مستوى سعريًا أو شراكة أو عنوان عقد، يمكن أن تنتج العواقب على السلسلة.
كشف تحليل من بين كريبتو لعملة AIXBT أن الوكيل روّج لـ 416 عملة بعائد متوسط 19%. يكشف نفس الميكانيك السطحي، مع ذلك، المتابعين لمكالمات خاطئة عندما يفشل النموذج.
تزداد سطح المخاطر مع الاستقلالية. تختلف أهمية الوكلاء الذين يلخّصون المشاعر فقط عن أولئك الذين يحملون مفاتيح الخزينة.
تغري النماذج المنطقية بشكل خاص لوكلاء يخططون عبر عدة خطوات. يعتبر أيضًا هذا هو الاستخدام الذي تبرز فيه نسبة فيكتارا البالغة 14,3% الأصعب.
يمكن أن تنتقل حقيقة متخيلة واحدة في بداية سلسلة التفكير عبر كل إجراء لاحق.
يؤكد ليكون أن المشكلة معمارية
جادل يان ليكون، كبير علماء الذكاء الاصطناعي في ميتا، منذ فترة طويلة أن نماذج LLM التوليدية لا يمكن أن تتجنب الهلوسة بالكامل. يرى أن المعمارية نفسها تفتقر إلى نموذج راسخ للعالم.
— Yann LeCun (@ylecun) June 9, 2023Hallucinations in LLM are due to the Auto-Regressive prediction.
I think what I call "Objective Driven AI" will solve the problem: systems that plan their answer by optimizing a number of objective functions *at inference time* https://t.co/JcR5hItwzJ
يمكن لتعلم التعزيز على سلسلة التفكير أن يخفي المشكلة في مجالات ضيقة مثل الرياضيات والبرمجة. مع ذلك، يبقى السبب الجذري موجودًا.
يختلف مختبرون رياديون آخرون. يشيرون إلى التقدم المستمر في معدلات الهلوسة المعيارية من خلال تعزيز الاسترجاع، وضبط بعد التدريب، ونماذج التحقق. مع ذلك، غالبًا ما تتوافق تقارير المطورين مع بيانات لوحات الصدارة.
خلا باحث الذكاء الاصطناعي xlr8harder، عندما كتب على منصة X عن جلسة تصحيح مع R1، التجربة اليومية.
ذكر xlr8harder أن ديبسيك R1 يمتلك فهمًا غير مندمج مثيرًا لمسارات تفكيره... ولذلك يقوم بإقناعي بالهلوسات افتراضيًا، حسب قوله.
يواجه مطورو الوكلاء في عالم العملات الرقمية سؤالًا عمليًا يدور حول إدارة المخاطر، وليس الفلسفة المعمارية. قد تنجح التصاميم التي تمرر كل ادعاء عبر خطوة تحقق بشكل أكبر.
اتبع نفس النهج بالنسبة للوكلاء الذين يعتمدون على نماذج أصغر وأكثر تحفظاً للإجراءات المالية.
انتظر دورات لوحة الصدارة القادمة والخلفاء القادمين لـR1 لتعرف ما إذا كان يتم تضييق فجوة المفاضلة بين قوة الاستدلال والدقة.
لاحظ حالياً أن الفارق بين 14,3% و3,9% هو تفصيل تشغيلي يستحق المتابعة، إذ يمكن أن يميز بين رموز وكلاء الذكاء الاصطناعي التي تقدم منتجات عملية وتلك التي تكتفي بالوعود.
أضف COINOTAG كمصدر مفضل
أضف COINOTAG إلى مصادرك المفضلة في أخبار Google والبحث لرؤية تغطيتنا أولاً.
إضافة على Google