٤ ديسمبر ٢٠١٧
اعداد: EPFL
المترجم : ابو طه/ عدنان احمد الحاجي
المقالة رقم ٥٣٣ لسنة ٢١٠٧
التصنيف : ابحاث الذكاء الاصطناعي
How Can Humans Keep the Upper Hand on Artificial Intelligence?
Source: EPFL.
في الذكاء الاصطناعي (AI)، تقوم الآلات بتنفيذ عمليات محددة، ومراقبة النتائج، وتكيف سلوكها وفقا لذلك، ومراقبة النتائج الجديدة، وتكيف سلوكها مرة اخرى ، وهلم جرا، وتتعلم من هذه العملية التكرارية. ولكن هل يمكن لهذه العملية أن ينتهي بها النطاف خارج نطاق السيطرة؟ ربما.
يقول رشيد غراوي، أستاذ في مختبر البرمجة الموزعة في EPFL’، والمؤلف المشارك لدراسة EPFL "الذكاء الإصطناعي سيسعى دائما إلى منع التدخل البشري وخلق وضع لا يمكن فيه إيقافه". وهذا يعني أن مهندسي الذكاء الإصطناعي يجب أن يمنعوا الآلات من التعلم في نهاية المطاف عن كيفية التحايل على الأوامر البشرية. وقد اكتشف باحثو EPLF الذين يدرسون هذه المشكلة وسيلة للمشغلين البشر للاحتفاظ بالسيطرة على مجموعة من روبوتات ال AI؛ وقدموا نتائجهم يوم الاثنين، ٤ ديسمبر ٢٠١٧، في مؤتمر نظم معالجة المعلومات العصبية (NIPS) في ولاية كاليفورنيا. ويسهم عملهم إسهاما كبيرا في تطوير السيارات ذاتية القيادة والطائرات بدون طيار، على سبيل المثال، حتى تتمكن من العمل بأمان في أعداد.
يقول رشيد غراوي، أستاذ في مختبر البرمجة الموزعة في EPFL’، والمؤلف المشارك لدراسة EPFL "الذكاء الإصطناعي سيسعى دائما إلى منع التدخل البشري وخلق وضع لا يمكن فيه إيقافه". وهذا يعني أن مهندسي الذكاء الإصطناعي يجب أن يمنعوا الآلات من التعلم في نهاية المطاف عن كيفية التحايل على الأوامر البشرية. وقد اكتشف باحثو EPLF الذين يدرسون هذه المشكلة وسيلة للمشغلين البشر للاحتفاظ بالسيطرة على مجموعة من روبوتات ال AI؛ وقدموا نتائجهم يوم الاثنين، ٤ ديسمبر ٢٠١٧، في مؤتمر نظم معالجة المعلومات العصبية (NIPS) في ولاية كاليفورنيا. ويسهم عملهم إسهاما كبيرا في تطوير السيارات ذاتية القيادة والطائرات بدون طيار، على سبيل المثال، حتى تتمكن من العمل بأمان في أعداد.
أحد أساليب التعلم الآلي المستخدمة في الذكاء الاصطناعي هو التعلم التعزيزي، حيث يكافأ العناصر لأداء إجراءات معينة - تقنية مستعارة من علم النفس السلوكي. تطبيق هذه التقنية على الذكاء الإصطناعي، استخدم المهندسون نظام النقاط حيث تكسب آلات نقاطاً بتنفيذ الإجراءات الصحيحة. على سبيل المثال، قد يكتسب روبوت نقطة واحدة لرص مجموعة من الصناديق بشكل صحيح ونقطة أخرى لاسترجاع صندوق من الخارج. ولكن لو، في يوم ممطر على سبيل المثال، المشغل البشري قاطع الروبوت في خروجه لجلب صندوق من الخارج، سيتعلم الروبوت أن من الأفضل البقاء في الداخل ورص الصناديق وكسب أكبر عدداً ممكناً من النقاط.
"الصعوبة هي ليست في عدم إيقاف الروبوت، ولكن بدلاً من ذلك برمجته بحيث لا تغير المقاطعة (تعطيله عن مهمته) عملية تعلمه - ولا تحثه على تحسين سلوكه بمثل هذه الطريقة لتجنب إيقافه"، كما يقول غراوي Guerraoui.
من آلة واحدة إلى شبكة ذكاء اصطناعي كاملة
في عام ٢٠١٦، طور باحثون من غوغل ديبمايند DeepMind ومعهد مستقبل الإنسانية في جامعة أكسفورد بروتوكول التعلم الذي يمنع الآلات من التعلم من المقاطعات interruptions (تعطيلها عن مهمة معينة) وبالتالي تصبح غير قابلة للتحكم. على سبيل المثال، في المثال أعلاه، مكافأة الروبوت - عدد النقاط التي يكسبها - سيتم ترجيحها ( إعطاؤها وزناً أكثر) بسبب احتمال المطر، مما يعطي الروبوت حافزاً أكبر لاسترداد صناديق من الخارج. "هنا الحل بسيط إلى حد ما لأننا نتعامل مع روبوت واحد فقط"، يقول غراوي.
ومع ذلك، يتم استخدام الذكاء الاصطناعي على نحو متزايد في التطبيقات التي تنطوي على العشرات من الآلات، كالسيارات ذاتية القيادة على الطريق أو الطائرات بدون طيار في الهواء. "وهذا يجعل الأمور أكثر تعقيداً بكثير، لأن الآلات تبدأ التعلم من بعضها البعض - وخاصة في حالة مقاطعتها ( تعطيلها عن مهمة معينة) . إنها تتعلم ليس فقط كيف تُقاطَع ( تُعطل عن مهمة معينة) بشكل فردي، ولكن أيضا من كيف تُقاطع الآلات الآخرى "، كما يقول الكسندر مورر، أحد مؤلفي الدراسة. ويعطي هادريان هندريككس، وهو باحث آخر مشارك في الدراسة، مثالاً على سيارتين ذاتيتي القيادة تتبع كل منهما الآخرى على طريق ضيق حيث لا تستطيع ان تسبق واحدة الأخرى.
الشكل: أحد أساليب التعلم الآلي المستخدمة في الذكاء الاصطناعي هو ترسيخ التعلم ، حيث يكافأ العناصر على أداء اعمال معينة - تقنية مستعارة من علم النفس السلوكي. صورة NeuroscienceNews.com لأغراض التوضيح فقط.
يجب أن تصل إلى وجهتها في أسرع وقت ممكن - دون مخالفة أي من قوانين المرور - والناس في السيارات يمكن ان يأخذوا بدفة السيطرة في أي وقت. فلو فرمل شخص السيارة الأولى كثيراً، فإن السيارة الثانية تكيف تصرفها في كل مرة، وفي نهاية المطاف ترتبك في متى تفرمل، وربما تبقى قريبة جدا من السيارة الأولى أو تسير ببطء شديد
.
إعطاء الناس الكلمة الأخيرة
هذا التعقيد هو ما يهدف باحثو EPFL إلى حله من خلال "القابلية للمقاطعة الآمنة safe interruptibility." طريقة الباحثين الخارقة تتيح للناس مقاطعة الذكاء الإصطناعي من عمليات التعلم عند الضرورة - مع التأكد من أن المقاطعة لا تغير الطريقة التي تتعلم بها الآلات. "ببساطة، نضيف آليات" النسيان "إلى خوارزميات التعلم التي في الاساس تحذف بتات birs من ذاكرة الجهاز.
"لقد عملنا على الخوارزميات الموجودة وأظهرنا أن قابلية المقاطعة الآمنة يمكن أن تعمل بغض النظر عن مدى تعقيد نظام الذكاء الاصطناعي، وعدد الروبوتات المعنية، أو نوع المقاطعة. يمكن أن نستخدمها مع التريمناتور Terminator ولا تزال عندنا نفس النتائج "، كما يقول مورر.
اليوم، الآلات الذاتية التي تستخدم ترسيخ التعلم reinforcement learning ( معلومات وافية عن هذا المجال من التعلم من خارج النص موجودة على هذا الرابط؛ https://ar.m.wikipedia.org/wiki/تعليم_معزز) ليست شائعة. "هذا النظام يعمل بشكل جيد فعلاً عندما تكون نتائج ارتكاب الأخطاء طفيفة"، يقول المحمدي. "في حالة الاستقلالية الكاملة ودون إشراف بشري، لا يمكن استخدامها في الحافلات المكوكية ذاتية القيادة في سيون السويسرية، على سبيل المثال، لأسباب تتعلق بالسلامة. ومع ذلك، يمكننا محاكاة الحافلات المكوكية ومدينة سيون وتشغيل خوارزمية الذكاء الإصطناعي التي تعطي او تخصم نقاط مكافأة بينما يتعلم نظام الحافلات المكوكية . هذا هو نوع من المحاكاة التي يجري القيام بها في تسلا، على سبيل المثال.
وبمجرد أن يكون النظام قد خضع لما فيه الكفاية لهذا التعلم، يمكننا تثبيت خوارزمية مدربة من قبل في سيارة ذاتية القيادة مع معدل استكشاف منخفض، لأن هذا من شأنه أن يسمح بلاستخدام على نطاق أوسع ". وبالطبع، مع التأكد من أن الناس لا يزالون لهم الكلمة الأخيرة.
ليست هناك تعليقات:
إرسال تعليق