مفاهیم و مدل یادگیری تقویتی توی خیلی قضایا کاربرد داره... دنبال جواب همگرا و همینطور دنبال جواب بهینه چیزهایی است که در خیلی از مسایل از جمله بورس مطرح میشه
مدل اینه که ما در شرایط و موقعیت (state) های مختلف قرار می گیریم و باید تصمیماتی اتخاذ کنیم... هر تصمیم یک پاداش یا جزا داره و ما رو از یک موقعیت به موقعیت دیگه می بره... هدف اینه که بیشترین پاداش رو جمع آوری کنیم...
مثلا فرض کنیم که بیشترین پاداش ۱۰۰۰ تومان هست و شما ۷۰۰ تومان جمع آوری کردید... این اختلاف ۳۰۰ تومان رو regret یا پشیمانی می گن .... پس میشه تصور کرد که یک دنباله تصمیم یا عمل/موقعیت وجود داره که اگر دنبال بشن و اجرا بشن بیشترین پاداش رو فراهم می کنن
موقعیت -> تصمیم -> پاداش : موقعیت -> تصمیم -> پاداش: موقعیت -> تصمیم -> پاداش: موقعیت ....
و اگر تصمیمات غلطی گرفته بشه پاداش کل جمع شده (یعنی جمع منفی و مثبت ممکنه زیاد نشه)
البته باید پاداش کلی رو در نظر گرفت نه پاداش لحظه ای .... مثلا شاید می شد که اون سهم رو گرونتر می فروختم ولی ممکن بود موقعیت خرید اون یکی سهم رو از دست می دادم و در مجموع شاید بدتر بود و یا تفاوتی نسبت به اینکه الان سهم بهتری خریدم نمی کرد... مگر اینکه تصمیم می گرفتم پول جدیدی رو وارد کار کنم...
به هر حال در خیلی از مسایل ما به دنبال بهره وری از زمان و مکان و موقعیت هستیم تا بیشترین بازدهی رو کسب کنیم... یا بیشترین بازدهی ممکن رو کسب کنیم... به هر حال خواه ناخواه ما ممکنه سودی کسب کنیم و یا بازدهی داشته باشیم ولی این بازدهی بازدهی بهینه نباشه... هر چند به شکل نسبی یک سیاست (مجموعه تصمیمات در موقعیت های مختلف) ممکنه از یک سیاست دیگه بهتر باشه حتی اگر سیاست بهینه نباشه...
یک سوال مطرح می شه ... به نظر یک سیاست بهینه در یک چارچوب و با توجه به یک هدف و پاداش قابل تعریف هست وگرنه فرض کنید یک ورزشکار شطرنج بهترین سیاست رو در برد آموخته و یک شخص دیگه مهارت و سیاستی در شطرنج نداره اما تونسته مال و منالی جمع کنه.... در واقع سیاستش در زمینه اقتصادی بهتر بوده... و حتی سیاست در کل زندگی به هدف غایی انسان از زندگی برمی گرده... یک زندگی بهینه چه تعریفی داره؟ چه پاداشی رو جمع می کنه؟ اقتصادی؟ سلامتی؟
هدف و پاداش توسط صورت مساله داده میشه
+ نوشته شده در جمعه نوزدهم اردیبهشت ۱۳۹۹ ساعت 15:51 توسط بینام
|