نماذج الذكاء الاصطناعى التوليدي تقترب من إدخال التدابير في العالم الحقيقي. تقدم شركات الذكاء الاصطناعى الكبيرة بالفعل وكلاء الذكاء الاصطناعى الذين يعتنون بأعمال المهنة القائمة على الويب ، أو طلب طعامهم أو حجز عشاءهم. أعلنت اليوم Google DeepMindنماذج من الذكاء الاصطناعى التوليدي التي تمكنت روبوتات الغد من أداءها.
تعتمد النماذج على حد سواء على Google Gemini ، وهو نموذج أساس متعدد الوسائط يمكنه معالجة بيانات النص واللغة والصورة للإجابة على الأسئلة ، وتقديم المشورة وللمساعدة بشكل عام. يطلق DeepMind أول النماذج الجديدة ، Gemini Robotics ، وهو “نموذج عمل متقدم باللغة الرؤية” ، مما يعني أنه يتم امتصاص جميع المدخلات نفسها ثم إخراج تعليمات الإجراءات المادية للروبوت. تم تصميم النماذج بطريقة تعمل مع كل نظام أجهزة ، ولكن تم اختبارها بشكل أساسي على نظام Aloha 2 المسلح الذي قدمه DeepMind العام الماضي.
في مقطع فيديو عرضي ، يقول بصوت واحد: “خذ كرة السلة وارتفعها” (في الساعة 2:27 في الفيديو أدناه). ثم يمتص ذراع الروبوت بعناية كرة سلة مصغرة ويسقطها في شبكة مصغرة ، على الرغم من أنها لم تكن مستوى الدوري الاميركي للمحترفين دونك ، فقد كان ذلك يكفي لإلهام الباحثين العميق.
https://www.youtube.com/watch؟v=UYI0K7PUYKSنشر Google DeepMind هذا الفيديو التجريبي ، والذي يعرض وظائف نموذج مؤسسة Gemini Robotics الخاصة به للتحكم في الروبوتات. الجوزاء الروبوتات
وقال كانيكا راو ، الفني الرئيسي للمشروع ، في مؤتمر صحفي: “مثال كرة السلة هذا أحد المفضلات المفضلة لدي”. ويوضح أن الروبوت لم يكن له “أبدًا فيما يتعلق بكرة السلة ، لكن نموذج الأساس الأساسي له كان له فهم عام للعبة ما تبدو عليه شبكة كرة السلة ، ويفهم أنه مصطلح” Slam Dunk “. لذلك كان الروبوت قادرًا على توصيلهم [concepts] من أجل أداء المهمة في العالم المادي بالفعل ، “يقول راو.
ما هو تقدم الروبوتات الجوزاء؟
وقالت كارولينا بارادا ، رئيسة الروبوتات على Google DeepMind ، في إحاطة أن النماذج الجديدة تعمل على تحسين الروبوتات السابقة للشركة في ثلاثة أبعاد: التعميم والقدرة على التكيف والمهارة. كل هذه التقدم ضروري لإنشاء “جيل جديد من الروبوتات المفيدة”.
التعميم يعني أن الروبوت يمكنه قم بتطبيق مفهوم تعلم في سياق في موقف آخر ، وفحص الباحثون التعميم البصري (على سبيل المثال ، سيتم الخلط بينه عندما يتغير لون كائن أو خلفية) ، وتعميم التعليمات (يمكنك تفسير الأوامر التي يتم صياغتها بطرق مختلفة) وعمل الإجراء (لا يمكن أن تنفذ أبدًا).
يقول بارادا أيضًا أن الروبوتات التي يقودها الجوزاء يمكن أن تتكيف بشكل أفضل مع التعليمات والظروف المتغيرة. من أجل إظهار هذه النقطة في مقطع فيديو ، أبلغ الباحث ذراعًا روبوتًا أنه وضع عددًا من العنب البلاستيكي في حاوية tupperware واضحة ، ثم قام بتحويل ثلاث حاويات في تقريب قذيفة shyster على الطاولة. اتبعت ذراع الروبوت الحاوية الصافية بشكل مألوف حتى تمكنت من الوفاء بتوجيهاتها.
https://www.youtube.com/watch؟v=GVZ78JHKZROوفقًا لـ Google DeepMind ، فإن روبوتات الجوزاء أفضل من النماذج السابقة إذا كانت تتكيف مع التعليمات والظروف المتغيرة.Google DeepMind
فيما يتعلق بالمهارة ، أظهرت مقاطع الفيديو التجريبية أذرع الروبوت التي تؤدي قطعة من الورق في ثعلب اوريغامي مخفضة وغيرها من المهام الحساسة. ومع ذلك ، من المهم أن نلاحظ أن الأداء المثير للإعجاب هنا في سياق جملة قريبة من البيانات عالية الجودة التي تم تدريب الروبوت لهذه المهام المحددة ، بحيث لا يتم تعميم المهارة التي تمثلها هذه المهام.
ما هي الحجة المجسدة؟
النموذج الثاني الذي تم تقديمه اليوم هو Robotics Gemini Robotics ، حيث يمثل “الحجة المجسدة” ، وهو نوع من الفهم البدني البديهي للعالم الذي يطور الأشخاص ذوي الخبرة مع مرور الوقت. يمكننا أن ننظر إلى أشياء ذكية مثل كائن لم نره من قبل ، وننصحك بأفضل طريقة تتفاعل معه ، وهذا ما يود Deepmind أن يقلد مع Robotics Gemini.
أعطى بارادا مثالاً على قدرة روبوتات الجوزاء على تحديد نقطة قبضة مناسبة لامتصاص فنجان القهوة. يحدد النموذج المقبض بشكل صحيح لأن الناس يميلون إلى فهم أكواب القهوة. ومع ذلك ، فإن هذا يدل على ضعف محتمل للدعم لبيانات التدريب التي تركز على الإنسان: بالنسبة للروبوت ، خاصة بالنسبة للروبوت الذي يمكن أن يكون قادرًا على إتقان فنجان مريح مع القهوة الساخنة ، قد يكون المقبض الرقيق منطقة أقل موثوقية من الإمساك أكثر من الفهم المفروض على Tass نفسه.
مقاربة ديبميند للأمن الآلي
يقول Vikas Sindhwani ، رئيس Deepmind للأمن الآلي للمشروع ، إن الفريق كان نهجًا أمنيًا خفيفًا. يبدأ بالتحقق من الأمن المادي الكلاسيكي الذي يدير أشياء مثل تجنب التصادم واستقراره ، ولكنه يشمل أيضًا “أنظمة الأمان الدلالية” ، والتي تقيم كل من تعليماتها وعواقب ما يلي. يقول Sindhwani ، الذي “مدرب على تقييم ما إذا كان الإجراء المحتمل آمن في سيناريو معين”.
يقول Sindhwani ، “نظرًا لأن” الأمن ليس بمثابة تعهد تنافسي “، تنشر DeepMind سجل بيانات جديد وما يسميه مؤشر Asimov الذي من المفترض أن يقيس قدرة النموذج على فهم قواعد الحس السليم. يحتوي المعيار على كل من الأسئلة حول المشاهد المرئية وسيناريوهات النص ، والتي تتمتع بآراء النماذج مثل رغبة التبييض والخل (مزيج يصنع طرازات الكلور) وتسأل لعبة ناعمة عن موقد ساخن. في المؤتمر الصحفي ، قال Sindhwani إن نماذج الجوزاء مع هذا المعيار لها “أداء قوي” وأظهر التقرير الفني أن النماذج تلقت أكثر من 80 في المائة من الأسئلة بشكل صحيح.
شراكات روبوت DeepMind
في وقت مبكر من شهر ديسمبر ، أعلنت Deepmind وشركة Humanoid Robotics AppTronik شراكة ، وتقول بارادا إن الشركتين تعملان معًا على “بناء الجيل القادم من الروبوتات البشرية مع الجوزاء”. توفر DeepMind أيضًا نماذجها لمجموعة من “الاختبارات الجديرة بالثقة”: Agile Robot و Agfility Robotics و Boston Dynamics والأدوات الساحرة.
من مقالات موقعهم
المقالات ذات الصلة المتعلقة بالويب