ما هي reinforcement-learning؟
Q-learning وDQN وPPO وA3C وأساليب تدرج السياسات والأنظمة متعددة الوكلاء وبيئات الصالة الرياضية. يُستخدم لتدريب الوكلاء أو الذكاء الاصطناعي للألعاب أو الروبوتات أو أنظمة اتخاذ القرار. المصدر: pluginagentmarketplace/custom-plugin-ai-data-scientist.