يتحكم وكلاء الذكاء الاصطناعي: استكشاف وكلاء استخدام الكمبيوتر

يتحكم وكلاء الذكاء الاصطناعي: استكشاف وكلاء استخدام الكمبيوتر

بعد عامين من بدء طفرة الذكاء الاصطناعى التوليدي بالفعل مع إطلاق ChatGpt ، لم يعد يبدو أنه من المثير أن يكون لديك مساعد منظمة العفو الدولية مفيدة بشكل هائل في متصفح الويب أو هاتفك ، فقط في انتظار طرح الأسئلة عليه. الدفعة الكبيرة التالية في الذكاء الاصطناعي هي لوكلاء الذكاء الاصطناعى الذين يمكنهم اتخاذ إجراء نيابة عنك. ولكن في حين أن Agentic AI قد وصل بالفعل لمستخدمي الطاقة مثل المبرمجين ، فإن المستهلكين العاديين ليس لديهم هذه الأنواع من مساعدي الذكاء الاصطناعى.

سيتغير ذلك قريبًا. تم الكشف عن جميع النماذج التجريبية للأنثروبور و Google DeepMind و Openai مؤخرًا والتي يمكنها استخدام أجهزة الكمبيوتر بالطريقة التي يعمل بها الأشخاص – البحث عن الويب للحصول على المعلومات ، وملء النماذج ، والنقر فوق الأزرار. من خلال القليل من التوجيه من المستخدم البشري ، يمكنهم القيام بالتفكير مثل محلات البقالة أمر أو استدعاء Uber أو البحث عن أفضل سعر للمنتج أو العثور على رحلة لقضاء إجازتك القادمة. وعلى الرغم من أن هذه النماذج المبكرة لها قدرات محدودة ولا تتوفر على نطاق واسع ، إلا أنها تُظهر الاتجاه الذي تسير فيه الذكاء الاصطناعي.

وقال سام ألتمان ، الرئيس التنفيذي لشركة Openai في مقطع فيديو تجريبي ، “هذا هو مجرد النقر على الذكاء الاصطناعى”.

يلاحظ زاكاري ليبتون ، أستاذ مشارك في التعلم الآلي في جامعة كارنيجي ميلون ، أن وكلاء الذكاء الاصطناعى يجري بالفعل دمجهم في برامج متخصصة لأنواع مختلفة من عملاء المؤسسات مثل مندوبي المبيعات والأطباء والمحامين. لكن حتى الآن ، لم نر وكلاء الذكاء الاصطناعي يمكنهم “القيام بأشياء روتينية على الكمبيوتر المحمول”. “ما يثير الاهتمام هنااحتمال أن يبدأ الناس في تسليم المفاتيح “.

وكلاء الذكاء الاصطناعى من الأنثروبور ، Google Deepmind ، و Openai

كانت الأنثروبور أول من كشف النقاب عن هذه الوظيفة الجديدة ، مع إعلان في أكتوبر / تشرين الأول ، يمكن الآن لدردشة Claude الآن “استخدام أجهزة الكمبيوتر بالطريقة التي يفعلها البشر”. أكدت الشركة أنها كانت تمنح النماذج هذه القدرة كاختبار تجريبي عام ، وأنها متاحة فقط للمطورين الذين يقومون ببناء الأدوات والمنتجات على رأس نماذج اللغة الكبيرة في الإنسان. يتنقل كلود من خلال عرض لقطات شاشة لما يراه المستخدم وحساب البكسلات المطلوبة لنقل المؤشر إلى بقعة معينة للنقرة. يقول متحدث باسم أنثروبور أن كلود يمكنه القيام بهذا العمل على أي جهاز كمبيوتر وفي أي تطبيق لسطح المكتب.

بعد ذلك ، كان Google DeepMind من Google مع مشروع Mariner ، الذي تم تصميمه فوق نموذج لغة Gemini 2 من Google. أظهرت الشركة مارينر في ديسمبر ، لكنها وصفتها بأنها “نموذج أولي للبحث المبكر” وقالت إنها توفر الأداة فقط “للمختبرين الموثوق بهم” في الوقت الحالي. كإجراء احترازي آخر ، يعمل Mariner حاليًا فقط داخل متصفح Chrome ، وفقط في علامة تبويب نشطة ، مما يعني أنه لن يعمل في الخلفية أثناء العمل في مهام أخرى. في حين يبدو أن هذا المطلب يهزم إلى حد ما الغرض من وجود مساعد منظمة العفو الدولية لتوفير الوقت ، فمن المحتمل أن يكون مجرد حالة مؤقتة لهذه المرحلة المبكرة من التطور.

أخيرًا ، أطلقت Openai في يناير Openai وكيل استخدام الكمبيوتر (CUA) ، ودعا المشغل. وصفها Openai بأنها “معاينة بحثية” وأتيحت لها متاحة فقط للمستخدمين الذين يدفعون 200 دولار أمريكي شهريًا مقابل خدمة Openai المميزة ، على الرغم من أن الشركة قالت إنها تعمل من أجل إصدار أوسع. يقول Yash Kumar ، المهندس في فريق المشغل ، إن الأداة يمكنها العمل مع أي موقع ويب بشكل أساسي. يقول كومار: “لقد بدأنا بالمتصفح لأن هذا هو المكان الذي يحدث فيه غالبية العمل”. لكنه يلاحظ أن “نموذج CUA مدرب أيضًا على استخدام جهاز كمبيوتر ، لذلك من الممكن أن نتمكن من توسيعه” للعمل مع تطبيقات سطح المكتب الأخرى.

مثل الآخرين ، يعتمد المشغل على تفكيك سلسلة التفكير لاتخاذ التعليمات وإنقاذها إلى سلسلة من المهام التي يمكن أن تكملها. إذا كانت بحاجة إلى مزيد من المعلومات لإكمال المهمة – مثل ، على سبيل المثال ، إذا كنت تفضل شراء البصل الأحمر أو الأصفر – فسوف يتوقف ويطلب الإدخال. كما يسأل عن التأكيد قبل اتخاذ خطوة أخيرة ، مثل حجز طاولة المطعم أو وضع أمر البقالة.

مخاوف السلامة لوكلاء استخدام الكمبيوتر

فيما يلي بعض الأشياء التي لا يستطيع وكلاء استخدام الكمبيوتر القيام بها بعد: تسجيل الدخول إلى المواقع ، والموافقة على شروط الخدمة ، وحل Captchas ، وإدخال بطاقة الائتمان أو تفاصيل الدفع الأخرى. إذا جاء الوكيل ضد أحد حواجز الطرق هذه ، فإنه يعيد عجلة القيادة إلى المستخدم البشري. يلاحظ Openai أن المشغل لا يأخذ لقطات شاشة للمتصفح أثناء إدخال المستخدم معلومات تسجيل الدخول أو الدفع.

لاحظت جميع الشركات الثلاث أن وضع الذكاء الاصطناعي المسؤول عن جهاز الكمبيوتر الخاص بك قد يشكل مخاطر السلامة. أثارت الأنثروبور على وجه التحديد قلق هجمات الحقن الفوري ، أو الطرق التي يمكن من خلالها الجهات الفاعلة الخبيثة إضافة شيء إلى موجه المستخدم لجعل النموذج يتخذ إجراءً غير متوقع. “نظرًا لأن كلود يمكنه تفسير لقطات الشاشة من أجهزة الكمبيوتر المتصلة بالإنترنت ، فمن المحتمل أنه قد يتعرض للمحتوى الذي يتضمن هجمات الحقن السريع” ، كتبت الأنثروبور في منشور مدونة.

يقول ليبتون من CMU أن الشركات لم تكشف عن الكثير من المعلومات حول وكلاء استخدام الكمبيوتر وكيفية عملها ، لذلك من الصعب تقييم المخاطر. “إذا كان شخص ما يحصل على مشغل الكمبيوتر الخاص بك للقيام بشيء شرير ، فهل هذا يعني أن لديهم بالفعل الوصول إلى جهاز الكمبيوتر الخاص بك؟” يتساءل ، وإذا كان الأمر كذلك ، فلماذا لا يتخذ Misceant إجراءً مباشرة؟

ومع ذلك ، يقول ليبتون ، مع كل الإجراءات التي نتخذها وشرائها التي نقوم بها عبر الإنترنت ، “لا يتطلب قفزة برية من الخيال لتخيل الإجراءات التي من شأنها أن تترك المستخدم في مخلل”. على سبيل المثال ، يقول: “من سيكون أول شخص يستيقظ ويقول ،” [agent] اشترى لي أسطول من السيارات؟ “

مستقبل وكلاء استخدام الكمبيوتر

في حين أن أيا من الشركات لم تكشف عن جدول زمني لإتاحة وكلاء استخدام الكمبيوتر على نطاق واسع ، يبدو أنه من المحتمل أن يبدأ المستهلكون في الوصول إليهم هذا العام-إما من خلال شركات الذكاء الاصطناعى الكبير أو من خلال الشركات الناشئة التي تخلق طرقًا أرخص.

يقول كومار من Openai إنه وقت مثير ، ويمثل هذا المشغل خطوة نحو مستقبل أكثر تعاونًا للبشر و AI. يقول: “إنه نقطة انطلاق على طريقنا إلى Agi” ، في إشارة إلى الحلم/الكابوس الممتاز منذ فترة طويلة في الذكاء العام الاصطناعي. “القدرة على استخدام نفس الواجهات والأدوات التي يتفاعل معها البشر بشكل يومي توسع فائدة الذكاء الاصطناعي ، مما يساعد الناس على توفير الوقت في المهام اليومية.”

إذا كنت تتذكر فيلم Prescient 2013 هايبدو أننا نتجه نحو العالم الذي كان موجودًا في بداية الفيلم ، قبل أن تبدأ سامانثا التي تم تخزينها في التحدث إلى أذن بطل الرواية. إنه عالم يمتلك فيه كل شخص منظمة العفو الدولية مملة ومحايدة لمساعدتهم على القراءة والرد على الرسائل والرعاية بمهام دنيوية أخرى. بمجرد أن تحقق شركات الذكاء الاصطناعي هذا الهدف بقوة ، سوف تبدأ بلا شك في العمل على سامانثا.

من مقالات موقعك

المقالات ذات الصلة حول الويب

المصدر المرجعي

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *