المنطق التوليدي – أورايلي

المنطق التوليدي – أورايلي

أحدث نموذج من Alibaba ، QWQ-32B Preview ، تلقى بعض المراجعات المثيرة للإعجاب لمهارات الجدال. مثل Openas GPT-4 O1 ،1 وقد أبرز تدريبه التفكير على أنه مجرد استنساخ للغة. يبدو أن هذا يختبر شيئًا-على الأقل للعب حوله-حيث سمعت أنه كان متاحًا بسرعة كبيرة في Ollama ولم يكن كبيرًا جدًا للتشغيل على جهاز كمبيوتر محمول مجهز بشكل معتدل ، وقمت بتنزيل QWQ وجربته. لقد جربت أيضًا بعض النماذج المتنافسة: GPT-4 O1 و GEMMA-2-27B. كان GPT-4 O1 هو النموذج الأول الذي ادعى أنه تم تدريبه خصيصًا على الحجة. جيما لا تقدم مثل هذا الادعاء بقدر ما أعرف.

كيف تختبر نموذج جدال؟ ليس من السهل للغاية التحقق من الحقائق. فكرت: “ربما يمكنني أن أسأل Fermats Last Theorem” ، لكنني أدركت بسرعة أن الإجابة الوحيدة التي يمكنني تقييمها “لا يمكنني إثبات ذلك”. (في الواقع ، كان هذا هو الإجابة التي تلقيتها من جميع النماذج الثلاثة) عندما اكتشف QWQ بضعة آلاف من الرموز من “البراهين” ، تمكنت من القول بثقة أن حجته كانت غير صحيحة – لمجرد أنني أعلم أن الدليل الفعلي أطول بكثير ، مائة صفحة من التفكير الرياضي الكثيف. ولكن هذا بالكاد اختبار صحيح.


تعلم أسرع. الاستيلاء أعمق. استمر في الرؤية.

ماذا عن فيرماز نظرية صغيرة؟ إنه أسهل بكثير ، لكنه مثال على كتاب مدرسي. مهما كانت النتيجة ، فلن أعرف أبدًا ما إذا كان QWQ قد جادل بالفعل أو ما إذا كان قد تمكنت فقط من إخراج شيء من عقوبة التدريب. هناك أكثر من عدد قليل من الكتب المدرسية الرياضية عبر الإنترنت ، ومن العدل أن نفترض أن الجميع في بيانات التدريب.

لذلك جربت مثالًا أغمق إلى حد ما: أثبت أن الرقم يتكون فقط من هؤلاء (مثل 11.111.111) ويجب أن يكون عدد الأرقام (جميعها) أيضًا الرقم الرئيسي. تمكنت من إثبات ذلك ، لكنها ليست مشكلة مشهورة بما يكفي لجذب انتباه الكتاب المدرسي. لذلك دعنا نذهب! هنا دليل QWQS:

>>> Can you prove that if all the digits of a prime number are 1,
then the number of digits must be prime?

دعونا نتناول هذه المشكلة خطوة بخطوة. وبالتالي فإن البيان هو: إذا كانت جميع أرقام الرقم الأول الأول ، فيجب أن يكون عدد الأرقام هو الرقم الرئيسي. حسنًا ، مثير للاهتمام. دعونا نستقر.

دعونا أولاً نفهم ما نتعامل معه. لدينا عدد أولي تكون فيه جميع الأرقام 1. على سبيل المثال ، أرقام مثل 11 ، 111 ، 1111 وما إلى ذلك ، ولكن فقط أولئك الذين هم primema. علينا أن نثبت أن عدد الأرقام في هذا الرقم الرئيسي نفسه يجب أن يكون رقمًا رئيسيًا.

دعني أفكر في ذلك. دعونا نشير إلى عدد أرقام \( n \). لذلك يتكون الرقم من \( n \) واحد. يشار إلى هذه الأرقام كأرقام إعادة النقابة. A AB هو رقم يتكون فقط في ممثله العشري. على سبيل المثال، \( R_2 = 11 \)حاضر \( R_3 = 111 \)حاضر \( R_4 = 1111 \)وهكذا على أين \(\ R_n \) يصف A من طول الطول \( n \).

هدفنا هو إظهار ذلك إذا \( R_n \) ثم برايم \( n \) يجب أن يكون رئيسًا.

دعونا نفكر في مقابلة هذا البيان. غير إيجابية “إذا \( R_n \) ثم برايم \( n \) هو الابتدائي “هو” إذا \( n \) ليس أساسيا بعد ذلك \( R_n \) ليس من الدرجة الأولى. “إذا تمكنا من إثبات contraposity ، يتم تحديد التفسير الأصلي.

… وهكذا ، حتى …

** الجواب النهائي **
\[ \boxed{\text{If } R_n \text{ is prime,
then } n \text{ is prime.}} \]

لقد أنقذتك الدليل (جداً) – إذا كنت تريد رؤيته ، فضع QWQ في النص بنفسك. يكفي القول أنه كان على حق. أعطاني كل من GPT-4 O1 و GEMMA-2-27B نفس الأدلة ، ولكن مع الثرثرة الأقل. تخطيت جيما بضع خطوات يمكن للشخص أن ينظر إليها.2

هل يمكن أن نذهب خطوة واحدة إلى الأمام ونتعميم بعد ذلك؟

>>> does this proof hold for
bases other than base 10?

هذا سؤال مثير للاهتمام! دعنا ندرس ما إذا كان يمكن تمديد هذا الدليل إلى قواعد أخرى كأساس 10.

في القاعدة \( b \)انخفاض في الطول \( n \) يتم تعريفه على النحو التالي:
\[ R_n^{(b)} = \frac{b^n - 1}{b - 1} \]

… وهكذا …

جربها بنفسك مرة أخرى – وقد أثبتت QWQ ذلك بشكل صحيح مرة أخرى. لا يتم عرض هذا الاقتراح الثاني أيضًا في الكتب المدرسية أو غيرها من الموارد. إنه دليل أقل من الملاحظة على أن الأدلة الأصلية لم تقدم أي افتراضات حول القاعدة.

عندما طلبت من GPT أن تثبت نفس الجملة ، تلقيت دليلًا مشابهًا جدًا (وصحيحًا) تم إعطاؤه تعليقًا رسميًا وأقل ملونة. هذا ليس مفاجئًا بشكل خاص ، حيث تم تدريب GPT أيضًا. لقد فوجئت أكثر برؤية أن GEMMA-2-27B أعطاني أيضًا أدلة صحيحة. تم تدريب جيما على النصوص الرياضية ، ولكن ليس على وجه التحديد في “الحجة”. (ربما لم يفكر التسويق في Google مطلقًا في تسمية هذا التدريب بأنه “حجة”.) لقد تركت Gemma بعض الخطوات – من المحتمل أن يقوم الشخص العادي بحذفه كما هو واضح ، لكن عالم الرياضيات سوف يكتب الاكتمال. (فقط للتأكد من أنني طلبت من GPT التأكد من أن Gemma كان صحيحًا. كان هذا صحيحًا.)

هل أثبتنا أن نماذج التدريب لها “تعمل”؟ حسنًا ، لا يمكننا أن نقول أننا أثبتنا شيئًا استنادًا إلى عملية ناجحة – أو على أساس عدد كبير للغاية من المحاولات. (في حالة أن تسأل نفسك ، فشل Gemma-2-7b ، وهو نموذج أصغر.) لكننا تعلمنا شيئًا مهمًا للغاية. فكر في حجم النماذج: لم يقل Openai شيئًا عن حجم GPT-4 O1 ، ولكن يشاع أنه يحتوي على معلمة تريليون. يزن QWQ 32 مليار معلمة و GEMMA-2-27 مليار في 27 مليار. لذلك QWQ و GEMMA2 بين ما يقرب من اثنين من الحجم أصغر من GPT. بالإضافة إلى ذلك ، تعمل GPT مع واحدة من أكبر الحواسيب الفائقة في العالم. لا نعرف الحجم ، لكننا نعلم أن البنية التحتية لـ Openai ضخمة وتتضمن نسبة كبيرة من وحدات معالجة الرسومات الراقية في جميع أنحاء العالم. ركض QWQ و Gemma بسعادة على MacBook Pro. تركوا المروحة تتحول وتمتص البطارية ، ولكن لا شيء غير عادي. من المسلم به أن GPT يستخدم الآلاف من المستخدمين في نفس الوقت بحيث لا تكون مقارنة عادلة. ومع ذلك ، من المهم أن ندرك أن GPT ليست اللعبة الوحيدة في المدينة وأن النماذج التي تعمل محليًا يمكن أن تتوافق مع المهام غير التافهة. لقد توصل معظم الأشخاص الذين جربوا على نماذج الموقع إلى استنتاجات مماثلة ، لكنهم فكروا في معنى هذا. إذا قمت بإنشاء تطبيق AI ، فلن تضطر إلى ربط نفسك بـ Openai. يمكن للموديلات المفتوحة الأصغر القيام بالمهمة – وسوف تحميها من فواتير Openais (وزيادة أسعار لا مفر منها) ، يمكنك الاحتفاظ ببياناتك محليًا وتركك تتحكم في مصيرك.

ماذا يمكن أن نتعلم؟ تساءلت كيف يمكن تدريب نموذج اللغة للمنطق. قال حدسي أن هذه ستكون مشكلة أكثر صعوبة وتعقيدًا من التدريب على اللغة. كان حدسي خطأ. لا أعرف كيف تم تدريب هذه النماذج ، لكن الآن أعتقد أن الإنتاج الناجح للمنطق أسهل من نواح كثيرة من إنشاء اللغة. لماذا؟ تفاصيل QWQ تعطينا ملاحظة كبيرة: “دعونا نلقي نظرة على التنظير من هذا البيان.” إن الإضفاء القياس المنطقي: عندما يشير A إلى B و B ، يعني C C. أدلة عن طريق التناقض: من أجل إثبات أن A يعني A ، يفترض أن A لا ينطوي على B ويظهر أن الافتراض خاطئ. الحث: أظهر هذا متى A(n) ضمني B(n)ثم A(n+1) ضمني B(n+1)؛ ثم أظهر ذلك A(0) ضمني B(0).

سيكون من السهل تربية قائمة أطول بكثير من الأنماط. هناك رموز أفضل لتقديم هذه الأنماط ، ولكن قائمة أطول والتمثيلات الأفضل ليست مهمة هنا. من المهم أن ندرك أن هذه الأنماط – وأن تكوين أنماط منطقية في العبارات المنطقية أو الأدلة لا يميز بشكل أساسي عن تكوين الكلمات (أو الرمز المميز) في جمل. هل نمط الدفع لجوهر المنطق؟ هذا ليس سؤالًا عادلًا: إنه منطق إذا قمت بذلك بشكل صحيح ، غير منطقي إذا لم تفعل. لا يوجد المنطق في الأنماط ، ولكن عندما تعرف كيفية تجميع الأنماط لحل المشكلات – وينبغي أن تكون عملية بناء أنماط البناء محور التدريب والنظر كيف يتم وضع الأنماط معا. يمكن أن يضللها كل من هذه الأنماط المنطقية إذا لم تكن حذرة. من السهل بناء مقاس قسطي كاذب من خلال البدء بمباني كاذبة. لا أتوقع أن يشفي المنطق مشكلة الهلوسة. لكنني أظن أن تدريب نموذج في الأنماط المنطقية هو وسيلة أفضل للنموذج “لتعلم” المنطق بدلاً من مجرد التدريب على الكلمات (البيانات البشرية). هذا هو الرهان على أن Openai و Alibaba وربما Google – ويبدو أنك تفوز.

هل يمكننا المضي قدما؟ هل هناك أي أنواع أخرى من الأنماط التي يمكن تدريب نماذج اللغة؟ نعم. لقد أثبتت الذكاء الاصطناعي التوليدي أنها مفيدة لتوليد التعليمات البرمجية ، ولكن (لا يزال) قد قدمت مقدمة مهمة لتصميم البرمجيات. هل يمكن أن تكون نماذج التدريب بمثابة اختراق خاصة لأنماط التصميم؟3 لا أعرف ، لكني أود أن أرى كيف يحاول شخص ما. نموذج متخصص في تصميم البرامج يستحق ذلك.

هل يمكن أن نفعل بشكل أفضل مع الموسيقى التوليدية إذا قمنا بتدريب نماذج للأنماط التي تم تحليلها في نظرية الموسيقى بالإضافة إلى الصوت؟ تطبيقات مثل Suno هي الكثير من المرح ، ولكن عند وصولك إليها ، كرر الكليشيهات من أنماط الموسيقى الشائعة فقط. هل سيساعد على نقل شيء عن نظرية الموسيقى ، ومعرفة النمط وراء الموسيقى بالإضافة إلى الموسيقى نفسها؟ هل تكتب نماذج اللغة قصائد أفضل إذا تم تدريبها على الأنماط باللغة الشعرية (الأجهزة البلاغية ، واللغة التصويرية) وليس فقط الكلمات؟ كانت إحدى تجاربي الأولى مع الذكاء الاصطناعي التوليدي هي طلب GPT-3 لكتابة سوناتة بتراركاني التي لها بنية مختلفة من الأحد الأكثر شيوعًا لشكسبير. فشل GPT-3 ومعاصريه. استغرق الأمر وقتًا طويلاً للعثور على نموذج يمكنه القيام بذلك بنجاح ؛ على الرغم من أن معظم النماذج كانت قادرة على تحديد السوناتة بتراركاني ، إلا أنها لم تتمكن إلا من إنشاء سوناتات شكسبير. تم تدريب هذا الجيل من النماذج فقط على الكلمات ، وليس على الأنماط الأكبر.

هل هذه طريقة للمضي قدما في الذكاء الاصطناعي؟ لا أعرف ، لكني أود تجربة باحثو الذكاء الاصطناعي. ومع ذلك ، في غضون ذلك ، يكفي إدراك أنه ، نظرًا لأن نماذج GPT ، يمكنك تنفيذ نماذج مفتوحة صغيرة على جهاز كمبيوتر محمول أو هاتف يعمل بشكل جيد.


حاشية

  1. لقد اختبرت المعاينة ، التي تمت ترقيتها الآن إلى GPT-4 O1. لم أختبر نفسي مرة أخرى مع آخر O1 ، والذي ربما تدرب وربما استمرت.
  2. في وقت لاحق قررت أنه من غير العدل ترك كلود بعيدا. لذلك جربت نموذج كلود الصغير من هايكو (معلمة 8b) وتلقيت أدلة صحيحة. كان هذا هو الأكثر ندرة في المجموعة وكان عليه أن يفكر أكثر ليرى أنه كان صحيحًا.
  3. ترتبط أنماط التصميم عمومًا بالتصميم الموجود نحو الكائن ، لكن المفهوم أكثر عمومية حقًا. تحاول أنماط التصميم تسمية حلول للمشاكل التي تراها كل يوم. إذا قمت بتسمية الحل ، فيمكنك التحدث عنها. ينطبق هذا التعريف على كل تخصص ، بما في ذلك البرمجة الوظيفية والهندسة المعمارية (بالطبع).

المصدر المرجعي

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *