يمثل تطور الذكاء الاصطناعي تقنية متطورة تمكّن الآلات والأنظمة الحاسوبية من أداء مجموعة متنوعة من المهام بطريقة ذكية، مما يفتح آفاقًا واسعة للاستفادة منها في مختلف المجالات. يُعَدُّ استخدام الذكاء الاصطناعي فرصة حقيقية لزيادة الإنتاجية وتحسين الكفاءة في الصناعات والقطاعات المختلفة. في هذا السياق، يقدم فريق OpenAI تطويرًا جديدًا في مجال الذكاء الاصطناعي بنموذج GPT-4o، حيث يرمز الحرف “o” إلى “omni”، مما يعني “الكل” أو “عالميًا”. يمثل هذا الطراز خطوة نحو تفاعل أكثر طبيعية بين الإنسان والحاسوب. بالإضافة إلى قدراته السابقة، يتيح الإصدار الثالث من نموذج GPT-4 القدرة على الرؤية، مما يمكّنه من التحدث والرؤية والتفاعل بشكل متكامل وسلس أكثر من الإصدارات السابقة. إليك مقالة “إصدار GPT-4o: التقدم الجديد في عالم الذكاء الاصطناعي مع التفاعل البشري”
GPT-4o: تجربة تفاعلية تشبه تفاعل الإنسان
يستطيع GPT-4o استقبال مجموعة متنوعة من الإدخالات بما في ذلك النصوص، الأصوات، الصور، ومقاطع الفيديو، ويقوم بإنتاج مخرجات متعددة تشمل النصوص، الأصوات، والصور. لأول مرة، يُقدم تجربة تفاعلية شبه فورية، حيث يمكن التواصل مع GPT-4o بطريقة تحاكي التفاعل اليومي مع الأشخاص؛ حيث يتميز بقدرته على الرد على الإدخالات الصوتية خلال 232 ميلي ثانية فقط، بمعدل متوسط يبلغ 320 ميلي ثانية، مما يعكس سرعة الاستجابة البشرية في الحوارات الطبيعية.
يُعادل GPT-4o في أدائه نسخة GPT-4 Turbo فيما يخص النصوص الإنجليزية والبرمجة، مع تحسينات ملحوظة في النصوص باللغات الأخرى. كما يتفوق بسرعته العالية وتكلفته المنخفضة بنسبة 50% عبر واجهة برمجة التطبيقات API. يتمتع GPT-4o بفهم أعمق للمحتوى البصري والصوتي مقارنةً بالنماذج السابقة.
تجربة فيديو تفاعلية واقعية
تمنح واجهة برمجة التطبيقات (API) لـ GPT-4o القدرة على فهم محتوى الفيديو حتى في حالة عدم وجود صوت، من خلال تقنيات الرؤية المتطورة. تمنحك هذه الواجهة تجربة تفاعلية واقعية للغاية، حيث يمكن للنظام التفاعل معك بشكل شبه طبيعي، كما لو كان بتكلم صديقك مكالمة فيديو. كما يمكن لـ GPT-4o التعليق على مظهرك كما لو كان مرآتك الخاصة، ويقدم نصائح حول مظهرك إذا كنت تستعد لحضور مناسبة خاصة، وبالإضافة إلى إمكانية معرفة أين تعمل من شكل مكتبك، كما هو موضح في الفيديو أدناه:
نموذج GPT-4o يمثل ثورة حقيقية في تفاعل الفيديوهات، حيث يتمتع بقدرة فريدة على وصف أي شيء بدقة متناهية. هذه القدرة تجعله ليس فقط مفيدًا للأشخاص الذين يعانون من فقدان البصر، بل يمكنه أيضًا توجيه وصف دقيق للمشهد المدينة لهم إذ كانوا في الشارع، حيث يمكنهم الحصول على معلومات تساعدهم في اتخاذ القرارات بشكل آمن، مثل توقيف سيارة أجرى لهم للركوب أو حتى تحذيرهم أثناء عبور الشارع. هذا النوع الجديد من التفاعل الفعال مع الفيديو يفتح أبوابًا جديدة للتكنولوجيا لخدمة المجتمع وتحسين جودة الحياة للعديد من الأشخاص. كما هو موضح في الفيديو أدناه:
تفاعل صوتي واقعي
قبل ظهور GPT-4o، كان بإمكانك استخدام وضع الصوت Voice Mode للتحدث مع ChatGPT، ولكن مع تأخيرات متوسطة تبلغ 2.8 ثانية (في GPT-3.5) و 5.4 ثانية (في GPT-4). لتحقيق ذلك، كان يعتمد وضع الصوت على ثلاث نماذج منفصلة: نموذج بسيط يحول الصوت إلى نص، ونموذج GPT-3.5 أو GPT-4 يأخذ النص ويُخرج نصًا، ونموذج بسيط ثالث يحول النص مرة أخرى إلى صوت.
هذه العملية تعني أن المصدر الرئيسي للذكاء، GPT-4، يفقد الكثير من المعلومات، فهو لا يمكنه ملاحظة النبرة مباشرة، أو وجود متحدثين متعددين، أو الضوضاء الخلفية، ولا يمكنه إخراج الضحك، أو الغناء، أو التعبير عن العواطف. لكن مع GPT-4o، قامت OpenAI بتدريب نموذج واحد جديد من البداية إلى النهاية عبر النص والرؤية والصوت، مما يعني أن جميع المداخل والمخارج يتم معالجتها بواسطة نفس الشبكة العصبية.
حيث بالإضافة إلى قدرته على التفاعل مع الصور ومقاطع الفيديو بدقة، يتمتع GPT-4o أيضًا بقدرة استثنائية على فهم وإنتاج ملفات الصوت. يبرز GPT-4o بمستوى مذهل من التحكم الدقيق في الصوت المولد، حيث يستطيع تعديل سرعة التواصل وتغيير الأصوات بناءً على الطلب، وحتى الغناء عند الحاجة؛ وليس فقط يمتلك GPT-4o القدرة على التحكم في إنتاجه الخاص، بل يمتلك أيضًا القدرة على استيعاب الصوت الوارد كسياق إضافي لأي طلب. بالإضافة إلى ذلك، يستطيع GPT-4o تقديم ترجمة فورية بينك وبين الشخص الآخر بسرعة تفوق على نماذج أخرى من Meta و Google. كل هذه الميزات موضحة بوضوح في الفيديو أدناه:
GPT-4o: معلم خصوصي يساعدك في حل الواجباتك
في الإصدارات السابقة من ChatGPT، كان بإمكانه حل مسائلك ومساعدتك في فهم كيفية حل مشكلة معينة من خلال شرح الخطوات. لكن يتجاوز نموذج GPT-4o هذا الإمكانية، حيث يمكنه أن يصبح معلمك الخصوصي، حيث يقدم لك الدعم في حل الواجبات دون تقديم الحلول مباشرة، بل يوجهك لتجد الحل بنفسك. يمثل هذا التطور تقدمًا هائلًا في تفاعل النماذج اللغوية، ويسهم في تعزيز قدراتها على المساعدة في التعلم وتطوير المهارات بطريقة شخصية وفعالة، كما هو موضح في الفيديو أدناه:
هل جميع هذه المميزات ستكون مجانية؟
كل الميزات الجديدة لـ GPT-4o ستتاح تدريجيًا لجميع المستخدمين مجانًا، بينما ستكون متاحة أيضًا لمستخدمي الإصدار بلس مع حدود رسائل مضاعفة تصل إلى 5 مرات أكثر من النسخة المجانية. كما سيتم تقديم نسخة جديدة من وضع الصوت Voice Mode مع GPT-4o النسخة التجريبية داخل ChatGPT Plus خلال الأسابيع القادمة. بالإضافة إلى ذلك، من المقرر أن تقدم OpenAI دعمًا لقدرات الصوت والفيديو الجديدة لـ GPT-4o لمجموعة صغيرة من الشركاء الموثوق بهم في خلال الأسابيع القادمة.