مقالات المجتمع

via Cryptopolitan Arabic · بقلم Cryptopolitan Arabic Editorial

تُقدّم OpenAI نماذج صوتية تُحلّل وتُترجم وتُفرّغ النصوص مباشرةً - Cryptopolitan

جاري تحميل بيانات السوق...
WLD
WLD

-

-

حجم التداول (24 ساعة): -

CA
Cryptopolitan Arabic Editorial
(١١:٥٠ م UTC)
3 دقائق للقراءة
AA
دققهAhmed Al-Hassan
604 مشاهدة
0 تعليق

أصدرت OpenAI جيلاً جديداً من نماذج الصوت في واجهة برمجة التطبيقات الخاصة بها يوم الأربعاء، مما يمنح المطورين أدوات لبناء تطبيقات يمكنها التفكير في الطلبات المنطوقة، والترجمة عبر أكثر من 70 لغة، ونسخ الكلام أثناء حدوثه.

تُسمى النماذج الثلاثة GPT-Realtime-2 و GPT-Realtime-Translate و GPT-Realtime-Whisper. وهي تنقل واجهات الصوت المدعومة بالذكاء الاصطناعي من مجرد تبادل الأسئلة والأجوبة إلى مجال يستطيع فيه وكيل الذكاء الاصطناعي الاستماع والتفكير والتصرف أثناء المحادثة.

يُضفي GPT-Realtime-2 مزيدًا من الدقة على الاستدلال الصوتي

يُعدّ GPT-Realtime-2 النموذج الرائد. وتؤكد OpenAI أنه يوفر قدرة استدلالية تضاهي GPT-5، ما يمثل نقلة نوعية مقارنةً بسابقه GPT-Realtime-1.5.

وقد حقق النموذج أداءً أعلى بنسبة 15.2% في اختبار Big Bench Audio، وهو معيار لقياس الذكاء الصوتي، وأعلى بنسبة 13.8% في اختبار Audio MultiChallenge، الذي يختبر اتباع التعليمات في الحوار المنطوق متعدد الأدوار.

تستهدف التحسينات العملية المطورين الذين يبنون وكلاء صوتيين للإنتاج. يدعم النموذج الآن نافذة سياقية بحجم 128 كيلوبايت، أي أربعة أضعاف الحد السابق البالغ 32 كيلوبايت، ويوفر خمسة مستويات من جهد الاستدلال القابل للتعديل من "الأدنى" إلى "العالي جدًا"

يمكنه استدعاء أدوات متعددة في وقت واحد، والتعافي من الأخطاء من خلال تأكيدات صوتية، وإنتاج عبارات انتقالية قصيرة مثل "دعني أتحقق من ذلك" أثناء معالجة الطلب.

يتولى برنامج GPT-Realtime-Translate الترجمة الفورية للكلام. وهو يقبل أكثر من 70 لغة إدخال ويُخرج النتائج بـ 13 لغة، مصمم لمواكبة المتحدث في الوقت الفعلي.

يوفر GPT-Realtime-Whisper خاصية تحويل الكلام إلى نص (STT) أثناء نطق الكلمات بدلاً من انتظار اكتمال النطق.

شركة زيلو وشركة دويتشه تيليكوم تختبران النماذج في مرحلة الإنتاج

حصلت عدة شركات على إمكانية الوصول المبكر. تعمل شركة زيلو على تطوير مساعد صوتي قادر على معالجة استفسارات العقارات المعقدة، والتعامل مع طلبات البحث عن قوائم العقارات، والامتثال للوائح الإسكان العادل.

أعلنت الشركة عن تحسن بنسبة 26 نقطة في معدل نجاح المكالمات على أصعب معيار عدائي لديها بعد التحسين الفوري باستخدام GPT-Realtime-2، ليصل إلى 95٪ مقارنة بـ 69٪ سابقًا.

شركة دويتشه تيليكوم الترجمة الفورية لدعم العملاء، مما يسمح للمتصلين بالتحدث بلغتهم المفضلة بينما يتولى النموذج عملية التحويل من كلا الجانبين.

تستكشف شركة Priceline مساعد سفر صوتي يمكنه إدارة عمليات البحث عن الرحلات الجوية وتغييرات الفنادق والترجمة الفورية في جلسة واحدة.

تستهدف هذه النماذج الشركات التي تتطلع إلى توسيع قدرات خدمة العملاء، ولكنها أشارت أيضًا إلى التطبيقات المحتملة في مجالات التعليم والإعلام والفعاليات ومنصات المبدعين.

شركة OpenAI أعلنت أنها أدمجت خاصية مراقبة المحتوى في نماذجها الجديدة، مع وجود آليات تنبيه تُوقف المحادثات التي تُعتبر مخالفة لإرشادات المحتوى الضار. وقد وصفت الشركة هذه الضوابط بأنها حماية من الرسائل المزعجة والاحتيال وغير ذلك من أشكال الإساءة.

فيما يخص التسعير، تُحاسب نماذج الترجمة والهمس بالدقيقة، بينما يُحاسب نموذج GPT-Realtime-2 بناءً على استهلاك الرموز. تتوفر النماذج الثلاثة جميعها عبر واجهة برمجة تطبيقات الوقت الحقيقي من OpenAI، والتي يمكن الوصول إليها عبر طرق اتصال WebRTC وWebSocket وSIP.

أضف COINOTAG كمصدر مفضل

أضف COINOTAG إلى مصادرك المفضلة في أخبار Google والبحث لرؤية تغطيتنا أولاً.

إضافة على Google

المصدر

Cryptopolitan Arabic Editorial · Cryptopolitan Arabic

← اقرأ المقال كاملاً

التعليقات
التعليقات