باسل النجار - القاهرة - الاثنين 8 أبريل 2024 02:00 مساءً - استخدمت شركة OpenAI أكثر من مليون ساعة من مقاطع الفيديو على موقع الفيديوهات الشهير YouTube لتدريب نموذجها اللغوي الجديد GPT-4، وهو تقرير كشفت عنه الشركة في وقت تحاول فيه شركات التكنولوجيا الكبرى الحصول على المزيد من البيانات لتدريب نماذج الذكاء الاصطناعي (AI) الخاصة بها.
شركة OpenAI تطلق أحدث ميزاتها في التعامل مع YouTube
وذكرت صحيفة نيويورك تايمز أن نموذج GPT-4 تم تدريبه باستخدام أداة التعرف على الكلام المسماة Whisper لنسخ مقاطع فيديو YouTube.
وفقًا للتقارير تم نسخ أكثر من مليون ساعة من محتوى الفيديو مما أثار مخاوف بشأن الامتثال لسياسات YouTube حيث أن YouTube المملوك لشركة Google يقيد استخدام مقاطع الفيديو الخاصة به للتطبيقات المستقلة.
YouTube ترفض استخدام الذكاء الاصطناعي
يأتي ذلك بعد أيام من سؤال الرئيس التنفيذي لشركة YouTube، نيل موهان، عما إذا كان مولد الفيديو Sora التابع لشركة OpenAI يستخدم بيانات من موقع YouTube في مقابلة مع صحيفة وول ستريت جورنال.
وقال إنه لم يكن على علم بما إذا كانت OpenAI قد استخدمت أي بيانات على YouTube لتدريبها على أداة الفيديو الجديدة، لكنه ادعى أنها ستكون مشكلة إذا استخدمت OpenAI مقاطع فيديو YouTube.
وزعم التقرير أيضًا أن Google قامت بنسخ مقاطع فيديو على YouTube للتدريب على الذكاء الاصطناعي والتي من المحتمل أن تنتهك قوانين حقوق الطبع والنشر. حتى أن مارك زوكربيرج ناقش إمكانية الحصول على إمكانية الوصول إلى Simon & Schuster لمكتبة ضخمة من الكتب.
شركات الذكاء الاصطناعي تريد الحصول على المزيد من البيانات
يتم تعزيز فعالية نماذج الذكاء الاصطناعي من خلال حجم البيانات التي يتم تدريبها عليها، وقد أفيد في وقت سابق أن الطلب على البيانات عالية الجودة مرتفع للغاية لدرجة أن بعض شركات التكنولوجيا قد تستنفد بيانات الإنترنت المتاحة بحلول عام 2026.
وقالت OpenAI إن كل نموذج من نماذج الذكاء الاصطناعي الخاصة بها يتم تدريبه على مجموعة بيانات فريدة بينما أقرت Google بتدريب نماذج الذكاء الاصطناعي على بعض محتوى YouTube بموجب اتفاقيات مع المبدعين.
أقرا أيضا: أداة جديدة لاستنساخ الصوت بالذكاء الاصطناعي من «OpenAI»