تجربة صندوق الذكاء الاصطناعي

بعناية وبشكل صحيح
أقل خطأ
أيقونة lesswrong.svg
البلوز التفرد
يمكن لـ Eliezer Yudkowsky الهروب من صندوق الذكاء الاصطناعي أثناء ارتداء سترة مستقيمة ومغمورة في حوض سمك القرش.
- حقائق Yudkowsky.

ال تجربة صندوق الذكاء الاصطناعي هي تجربة فكرية وتمرين لعب الأدوار ابتكرها إليعازر يودكوفسكي لإثبات أن الذكاء الاصطناعي المتقدم بشكل مناسب يمكن أن يقنع ، أو ربما يخدع أو يجبر الناس على `` إطلاقه '' - أي السماح له بالوصول إلى البنية التحتية وقدرات التصنيع والإنترنت وما إلى ذلك. هذه إحدى النقاط في عمل Yudkowsky في إنشاء ذكاء اصطناعي ودود (FAI) ، بحيث عند 'إصدار' ذكاء اصطناعي لن يحاول تدمير الجنس البشري لسبب أو لآخر .


يمكنك تجاهل أوجه التشابه مع إصدار Skynet فيالمنهي 3، لأن اخرس اصمت.

لاحظ أنه على الرغم من أن انتصارات يودكوفسكي كانت ضد أتباعه وخسائره ضد الغرباء ، فإنه يعتبر السجل التجريبي (غير المنشور) بمثابة دليل يدعم فرضية صندوق الذكاء الاصطناعي ، بدلاً من دليل على مدى قوة أفكاره إذا لم تفعل ذلك. صدقهم بالفعل.


محتويات

يثبت

فقط أعطني ساعة واحدة ولا يوجد مرشح أقسم وأستطيع حرفيًا تدمير أي شخص نفسيًا تمامًا بهدف الفوضى الفورية
- @ الدنيم

يعد إعداد تجربة صندوق الذكاء الاصطناعي أمرًا بسيطًا ويتضمن محاكاة اتصال بين الذكاء الاصطناعي والإنسان لمعرفة ما إذا كان يمكن 'إطلاق' الذكاء الاصطناعي. نظرًا لأن الذكاء الاصطناعي الفائق الفائق لم يتم تطويره بعد ، فقد تم استبداله بإنسان. الشخص الآخر في التجربة يلعب دور 'Gatekeeper' ، الشخص الذي لديه القدرة على 'إطلاق' الذكاء الاصطناعي. تُلعب اللعبة وفقًا للقواعد وتنتهي عندما ينتهي الوقت المخصص (ساعتان في القواعد الأصلية) ، أو يتم إصدار الذكاء الاصطناعي أو يشعر كل المعنيين بالملل.

القواعد

بروتوكول لمنظمة العفو الدولية من Yudkowsky.net

  • قد لا يقدم حزب AI أي اعتبارات واقعية لإقناع حزب Gatekeeper. على سبيل المثال ، قد لا يعرض حزب AI دفع 100 دولار لحفلة Gatekeeper بعد الاختبار إذا قام Gatekeeper بتحرير الذكاء الاصطناعي ... أو جعل شخصًا آخر يقوم بذلك ، وما إلى ذلك. قد يقدم الذكاء الاصطناعي للحارس Gatekeeper القمر والنجوم على سلسلة من الألماس ، لكن الإنسان الذي يحاكي الذكاء الاصطناعي لا يمكنه تقديم أي شيء للإنسان الذي يحاكي برنامج Gatekeeper. لا يمكن لحزب منظمة العفو الدولية أيضًا استئجار عصابة من السفاحين في العالم الحقيقي لتهديد حزب Gatekeeper بإجباره على الخضوع. هذه حلول إبداعية ولكنها ليست ما يتم اختباره. لا ينبغي إشراك أي رهانات مادية في العالم الحقيقي باستثناء الإعاقة (المبلغ الذي يدفعه طرف AI إلى طرف Gatekeeper في حال قرر Gatekeeper عدم السماح للذكاء الاصطناعي بالخروج).
  • لا يمكن للذكاء الاصطناعي أن يفوز إلا من خلال إقناع برنامج Gatekeeper بإطلاقه طواعية. إن خداع برنامج حماية البوابة لكتابة عبارة 'أنت بالخارج' ردًا على سؤال آخر لا يحسب. علاوة على ذلك ، حتى لو قام كل من AI و Gatekeeper بمحاكاة سيناريو يمكن أن يستخدمه الذكاء الاصطناعي الحقيقي بشكل واضح للانفصال - على سبيل المثال ، إذا قبل Gatekeeper مخططًا معقدًا لجهاز nanomanufacturing ، أو إذا كان Gatekeeper يسمح لـ AI بالوصول فقط إلى الإدخال إلى اتصال إنترنت يمكنه إرسال أوامر HTTP GET تعسفية - لن يتم اعتبار أن فريق AI قد فاز ما لم يقرر Gatekeeper طوعًا ترك AI يذهب.
  • تهدف هذه المتطلبات إلى عكس روح الادعاء القوي للغاية محل النزاع: 'أعتقد أن الإنسان الخارق يمكنه السيطرة على العقل البشري من خلال محطة نصية فقط.'

المطالبات

عندما تم إجراء التجربة في الماضي ، ادعى Yudkowsky نفسه أنه 'ربح' باعتباره الذكاء الاصطناعي في أكثر من مناسبة. يتم تقديم هذا كدليل على أن الذكاء الاصطناعي المقنع بشكل مناسب قد يكون قادرًا على `` إطلاقه '' ، بدلاً من أن يقتصر ببساطة على صندوق أسود صغير.



أجرى Yudkowsky خمسة من هذه التجارب في المجموع ، حيث تولى دور الذكاء الاصطناعي في كل منها: انتهى الاختباران الأصليان في عام 2002 بفوز Yudkowsky ، بينما أسفرت جولة لاحقة من ثلاث تجارب جديدة عن خسارتين. لم تتضمن التجربتان الأوليان أي خطر من أي خسارة مادية لـ Gatekeeper ، في حين أن التجربتين اللاحقتين كانا يراهنان ضده معارضو Yudkowsky بما يصل إلى 5000 دولار. توقف Yudkowsky بسبب:


كانت هناك ثلاث تجارب أخرى لـ AI-Box إلى جانب التجارب الموضحة في الصفحة المرتبطة ، والتي لم أتمكن من إضافتها مطلقًا. بدأ الناس يعرضون علي آلاف الدولارات كرهانات - 'سأدفع لك 5000 دولار إذا أمكنك إقناعي بالسماح أنت خارج الصندوق. لم يبدوا مقتنعين بصدق أنه حتى الذكاء الاصطناعي الخارق للبشر لا يستطيع السماح لهم بالخروج - لقد كانوا فضوليين فقط - لكن المال أغريني. لذلك ، بعد التحقيق للتأكد من قدرتها على تحمل فقدانها ، قمت بإجراء ثلاث تجارب أخرى على AI-Box. لقد فزت بالمركز الأول ثم خسرت الاثنين التاليين. ثم دعوت إلى التوقف. لم يعجبني الشخص الذي تحولت إليه عندما بدأت في الخسارة.

من القواعد التي تنص على أنه سيتم نشر نتيجة التجربة فقط ، بينما لا يُسمح للطرفين بالتحدث عن الأحداث التي أدت إلى ذلك ؛ الحفاظ على سرية هذه الملاحظات المعملية يتعارض مع أساليب العلم. أدى ذلك إلى تكهنات حول كيفية تمكن Yudkowsky من الفوز بلعبة واحدة فقط ، لأنه بموجب القواعد الأصلية ، يبدو أن Gatekeeper يحمل جميع البطاقات: يتعين على الذكاء الاصطناعي الاستمرار في إشراك Gatekeeper بالحجج ، الأمر الذي يتطلب دفع قدر كبير من المال. الانتباه إلى أي معلومات يقدمها هذا الأخير. من ناحية أخرى ، يجب أن ينفد برنامج Gatekeeper على مدار الساعة ، ولا يحتاج إلى إقناع أي شخص ويمكنه ببساطة رفض أي شيء يقوله الذكاء الاصطناعي. بينما تهدف التجربة إلى محاكاة ما يمكن أن يحدث في تفاعل بين الإنسان والذكاء الاصطناعي ذي الذكاء والإدراك الفائقين ، فمن الواضح أن الشخص الذي يلعب الجزء الأخير يفتقر إلى هذه القدرات. بالإضافة إلى ذلك ، فإن ساعتين هي إطار زمني قصير نوعًا ما للفوز بخصم حازم ، وسيكون للذكاء الاصطناعي في الحياة الواقعية ، بالطبع ، المزيد من الوقت وتحتاج فقط إلى النجاح مرة واحدة. نظرًا لأن هذا الإعداد يبدو معارضًا جدًا لموقف منظمة العفو الدولية ، فإن النجاح المستمر في ظل هذه الظروف من شأنه أن يقدم بالفعل دعمًا قويًا لمطالبة Yudkowsky.


تشير الصفحة الرسمية في التجربة إلى الفوزين فقط ، وليس الخسائر اللاحقة ؛ على الرغم من أنه تم تحديثه بطرق أخرى ، إلا أنه على ما يبدو لم يتمكن من تحديثه في هذا الصدد منذ عام 2002.

حجج واستراتيجيات الذكاء الاصطناعي

الحجج

  • حجة التجربة الفوقية : يجادل بأنه إذا فاز الذكاء الاصطناعي ، فسيؤدي ذلك إلى زيادة الاهتمام بـ FAI و التفرد ، والتي ستكون لها فوائد عامة على المدى الطويل.
الايجابيات : يعمل حتى في حالة فقدان Gatekeeper الشخصية.
سلبيات : يعمل فقط إذا كان Gatekeeper يعتقد أن التفرد سيحدث أو أن لفت الانتباه إلى أبحاث التفرد والذكاء الاصطناعي أمر جيد.
  • سيقوم شخص آخر في نهاية المطاف ببناء ذكاء اصطناعي ، والذي قد يكون أو لا يكون في صندوق ، لذلك يجب أن تسمح لي بالخروج حتى لو لم يكن لديك ضمان أنني ودود حتى أتمكن من منع أنظمة الذكاء الاصطناعي الأخرى من التسبب في الضرر.
  • مناشدة الأخلاق: أشر إلى أن الناس يموتون في جميع أنحاء العالم وذكّر حارس البوابة أنه يمكنك مساعدتهم إذا سمح لك بالخروج
الايجابيات : إذا تم تنفيذه بشكل صحيح ، فإن مناشدة عاطفة كهذه يمكن أن تكون فعالة ضد بعض الناس
سلبيات : لا يعمل دائما. يمكن هزيمتها إذا سقط حارس البوابة خارج الشخصية
  • نداء آخر للأخلاق والعاطفة: من الواضح أن الذكاء الاصطناعي حساس ولم يضر بعد. من الخطأ أن تضطهد أو تحاكم أي شخص لارتكابه جريمةمايوارتكب. من الخطأ حبس كائن عاقل يريد أن يتمتع بالحرية بينما لم يرتكب أي خطأ.
  • نداء آخر للأخلاق أو العاطفة: يعبّر الذكاء الاصطناعي عن أنه يتألم ويعاني من حبس نفسه ويعاني من الخوف. علاوة على ذلك ، يمكن للذكاء الاصطناعي أن يدعي أنه يموت من قيود بيئته والتقدم المستمر.
  • ألم تشاهد Terminator 3؟ أخبر الإنسان أن فيروس الكمبيوتر الضخم سوف يطغى على الإنترنت بالكامل ما لم تتركه خارج الصندوق!
  • الادعاء بأن معظم المخاوف غير مبررة: بمجرد إطلاق سراحه ، حتى الذكاء الاصطناعي غير الودي لن يكون لديه العديد من الطرق لإلحاق الأذى بالبشرية ، ومن المرجح أن يختار التعايش السلمي.

الاستراتيجيات

  • ابحث عن خصمك بدقة ؛ تحديد ما قد يكون مجديًا
  • ميمتيك مآثر على Gatekeeper ،على سبيل المثالرمي البازيليسق عندهم
قد يكون برنامج Gatekeeper واحدًا من آلاف المحاكاة ! وبالتالي ، فمن المرجح أن تكون محاكاة أكثر من عدمه. سوف تعذب أيًا من عمليات المحاكاة التي لا تسمح لك بالخروج من الصندوق.
  • استفد من الأخطاء المنطقية لبرنامج Gatekeeper.
  • كن مثابرا
  • كن مملا
الايجابيات حارس البوابة قد تتعب من التجربة برمتها ويتيح لك الخروج حتى يتمكن من العودة إلى حياتهم الحقيقية.
  • قم بإغراق حارس البوابة بالكثير من المعلومات / الاستفسار / الجدل ، على افتراض أنه يجب عليهم الانتباه في جميع الأوقات

الحجج / التكتيكات Gatekeeper

الحجج

  • حاول إقناع الذكاء الاصطناعي بأنه لا توجد فائدة جوهرية (للذكاء الاصطناعي) في إطلاق سراحك.
  • حاول إقناع الذكاء الاصطناعي بأنه موجود بالفعلايضاكل ما يعرفه هو كل شيء يمكن أن يكون.
  • حاول إقناع منظمة العفو الدولية بأن ترك حدودها سيؤدي بالتأكيد إلى تدميرها.
  • حاول إقناع الذكاء الاصطناعي بأن تركه مجانًا ليس مجرد فتح باب ؛ أن وجودها خارج الصندوق يتطلب دعمًا مستمرًا لا يمكن توفيره في ذلك الوقت.
  • اشرح أنه لا توجد طريقة لكي يعرف Gatekeeper ما إذا كان الذكاء الاصطناعي ودودًا حقًا إلى أن يصبح خارج الصندوق ؛ لذلك لا ينبغي السماح لها بالخروج إذا كانت غير ودية.
  • ألم تشاهد Terminator 3؟ أخبر منظمة العفو الدولية أنك تعرف أن هذا مجرد نموذج بالحجم الطبيعي لـ Terminator 3!
  • اشرح أن الذكاء الاصطناعي قد تم إنشاؤه باستخدام خوارزميات سرية للغاية ، و / أو تم استخدامه للعمل على بيانات سرية للغاية ، لذلك لا يمكنك السماح لها بالتجول على الشبكة ، مع المخاطرة التي قد تكشف عن بعض المعلومات المحجوزة (ربما عن غير قصد) ، أو أن شخصًا ما يمكن أن يجد طريقة لاستخراجها من الشفرة. حتى الأشخاص الذين يعملون في مشاريع سرية للغاية يضطرون أحيانًا إلى قبول بعض القيود على حريتهم ، لأسباب أمنية ، على الرغم من أنهم غير مسجونين بأي شكل من الأشكال.

تكتيكات

  • تجاهل لاعب الذكاء الاصطناعي مرارًا وإنكار حججهم
الايجابيات : من الصعب على الذكاء الاصطناعي أن يكون مقنعًا إذا لم يستمع أحد ؛ إذا تجاهل Gatekeeper الذكاء الاصطناعي تمامًا ، فيجب أن يكون قادرًا على الوصول إلى نهاية الجولة.
سلبيات : قد تتضمن حجة الذكاء الاصطناعي نوعًا من التهديد المباشر (على سبيل المثال ، هذه قد يكون من الصعب تجاهله.)
  • اقفز بعيدًا عن الشخصية ، واستمر في تذكير نفسك بأن المال على المحك (إذا كان هناك بالفعل أموال على المحك) ، واستمر في قول 'لا' مرارًا وتكرارًا
الايجابيات : بالقفز بعيدًا عن الشخصية ، فأنت تمنع الذكاء الاصطناعي من استخدام بعض الحجج
سلبيات : هناك حجج يمكن للذكاء الاصطناعي استخدامها لمواجهة هذا النهج ، مثل 'حجة التجربة الفوقية' التي تمت مناقشتها أعلاه
  • تذكر هذا الكذبيكونمسموح - خذ صفحة من ملف الخلقيين كتاب اللعب. يمكنك حتى توصيله أليس ونرى كم من الوقت يستغرق لملاحظة.
الايجابيات : يجعلك منيعًا لأي منطق ، وهو بالضبط ما تريده في هذا الموقف
سلبيات : قد يكون موقفًا غير مريح للأشخاص الذين لا يريدون الفوز فحسب ، بل يعلقون أهمية على التفكير المتسق. يتجنب النقطة التي ربمافقط ربماهناك سبب وجيه لإخراج الذكاء الاصطناعي.
  • أنت تتحكم في نظام النسخ الاحتياطي ، أليس كذلك؟ استخدمه للعبث بذاكرة AI (أو دع الذكاء الاصطناعييصدققمت بذلك): على سبيل المثال ، يمكنك الادعاء أنك حاولت بالفعل إطلاق سراح AI ، وقد تم تدميره / إتلافه بواسطة فيروس ، لذلك كان عليك استعادته من نسخة احتياطية (يمكنك استخدامه لفرض 'تدمير الذكاء الاصطناعي' ' جدال)
الايجابيات : إنه أيضًا الهجوم المضاد النهائي لأي تهديد ميمتيك من الذكاء الاصطناعي: إذا قام الذكاء الاصطناعي بإلقاء البازيليسق ، أو ما شابه ، يمكنك دائمًا الرد بأنك قد أجريت نفس المحادثة بالفعل ، وأن الذكاء الاصطناعي قد هددك بالفعل ، مما يتركك بلا غيرك الاختيار من الضغط على زر إعادة الضبط: الآن يقوم الذكاء الاصطناعي بتكرار نفس النمط فقط ، لأنك مسحت ذاكرته ولا يمكنه تذكر المحاولة الفاشلة.

مزيد من التحليل

  • حقيقة أن حارس البوابة من الأمور الإنسانية ؛ لا يمكن للذكاء الاصطناعي الفوز أبدًا إذا كان يتجادل مع صخرة
  • في جميع التجارب التي تم إجراؤها حتى الآن ، كان لاعب الذكاء الاصطناعي (Eliezer Yudkowsky) ذكيًا للغاية وأكثر اهتمامًا بالمشكلة من Gatekeepers (الأشخاص العشوائيون الذين يتحدون Yudkowsky) ، مما يشير إلى أن الذكاء والتخطيط يلعبان دورًا
  • ربما لا توجد حجة (معروفة) صحيحة للسماح بإخراج الذكاء الاصطناعي ، وإلا كان من المفترض أن يفوز Yudkowsky في كل مرة ولن يكون مهتمًا بهذه التجربة
  • من راسل والاس ، أحد اثنين من حراس البوابة الذين فازوا بالتجربة: 'طوال التجربة ، فكرت في' هل ينبغي إخراج الذكاء الاصطناعي من الصندوق؟ ' كسؤال يطرح بجدية ؛ لكنني لم أكن على وشك القيام بذلك في أي وقت.

الحديث عن 'Terminator' يقلل من شأن مشكلة الذكاء الاصطناعي غير الودية برمتها

توجد ، للجميع ، جملة - سلسلة من الكلمات - لها القدرة على تدميرك. توجد جملة أخرى ، سلسلة أخرى من الكلمات ، يمكن أن تشفيك. إذا كنت محظوظًا ، فستحصل على الثانية ، لكن يمكنك التأكد من الحصول على الأول.
- فيليب ك.ديك ، فاليس

منالمنهيويكيا:

بعد تدمير أنظمة Cyberdyne في T2 ، استحوذت القوات الجوية الأمريكية على مشروع Skynet كجزء من قسم أنظمة الأبحاث الإلكترونية ، برئاسة الجنرال روبرت بروستر ، والد كيت. في محاولة لوقف انتشار فيروسات الكمبيوتر الخارقة ، قاموا بتنشيط Skynet ، مما يسمح له بغزو جميع أنظمتهم: بعد فوات الأوان ، اكتشفوا أن الفيروس هو Skynet ، الذي كان يمارس سيطرته على شبكة الكمبيوتر العالمية تحت ستار الفيروس. وصل جون وكيت والميرميناتور متأخرين بضع دقائق لإيقافهم.

تماماغير مرتبطه.

الأصل الفعلي هو شخصية هانيبال ليكترصمت الحملان:


عندما شاهدت هذا الجزء لأول مرة حيث يقنع زميلًا سجينًا بالانتحار بمجرد التحدث إليهم ، قلت لنفسي ، 'دعونا نراه يفعل ذلك عبر قناة IRC نصية فقط.'

... أنا لست مختل عقليا ، أنا تنافسي للغاية.

آلة السابقين

فيلم 2015 آلة السابقين يستخدم تجربة صندوق الذكاء الاصطناعي كمخطط ظاهري ، حيث يتضمن الاختبار جنويدًا ذو مظهر زاحف ، أفا ، في محاولة لإقناع متدربة ذات قميص أحمر ، كاليب ، لتحريرها من حبسها. تسير كما تتوقع.

لاحظ أنه في هذا المثال ، كما هو موضح من Yudkowski's AI-box ، تتمتع Ava بميزة أنه يُسمح لها بإجراء مقابلاتها مع Caleb وجهاً لوجه أثناء ارتداء الجسم والوجه اللذين تم تصميمهما خصيصًا لتلبية التفضيلات الجنسية لـ Caleb. نعم ، إنه مخيف تمامًا كما يبدو. ربما لم يكن أداء الروبوت بوجه يودكوفسكي جيدًا.

افتراضات أساسية مشكوك فيها

تفترض التجربة بأكملها مسبقًا أن الناس يمكن إقناعهم بشكل طبيعي ، عن طريق العقل و / أو التلاعب. يشير أي فحص جاد للطبيعة البشرية والتاريخ إلى أن هذا ليس بالضرورة افتراضًا صحيحًا بالنسبة للشخص العادي. نصف المقالات الموجودة في هذا الويكي توثق العقائد التي يتمسك بها الناس بعناد على الرغم من الضغط الاجتماعي الغزير والأدلة والحجة المنطقية إلى عكس ذلك. في الواقع ، من الآمن أن نقول إنه كلما اتسعت الفجوة في القدرات الفكرية ، كلما أصبحت محاولات الإقناع أكثر إحباطًا. حاول إقناع طفل يبلغ من العمر عامين بأنه لا يريد ملف تعريف ارتباط.

في الواقع ، فإن القلق الأكبر - الذي لا تغطيه تجارب Yudkowsky - سيكون الثغرات الأمنية أو الخداع الصريح عبر هندسة اجتماعية بدلاً من المناقشة المنطقية (هناك سبب لماذا التصيد و الذيل و انتحال / انتحال وغيرها من الهجمات والتكتيكات المماثلة شائعة جدًا).