اصلاح برداشت
برداشت من رو یاد یادگیری تقویتی انداخت. در یادگیری تقویتی ما وقتی به کرات در یک موقعیت قرار بگیریم سعی می کنیم ارزش هر عمل در اون موقعیت رو به روز کنیم و به شکل متوسط بهترین عمل ممکن در اون موقعیت رو پیدا کنیم....
در اینجا نیز اگر بتونیم هر نوشته را به شکل یک حالت (موقعیت) کد کنیم و وقتی دوباره به اون مطلب رسیدیم از میان برداشتهای ممکن یک برداشت رو انتخاب کنیم و یه جورهایی ارزش هر برداشت رو تخمین بزنیم جوری که برداشت بهتر رو پیدا کنیم.... در یادگیری تقویتی ما به ازا انتخاب هر برداشت یک جزا و پاداش دریافت می کنیم و در واقع در مرحله آموزش این پاداشهای هستند که ما را به سمت یافتن عمل بهتر رهنمون می کنند. پس در اینجا نیز باید یک روش پاداشدهی به هر پاداش انتخاب کنیم. شاید باید یک هدف تعیین کنیم و پاداش در هدف رو زیاد قرار بدیم و یک سری از اعمال (برداشتها) و دوباره برداشتها طبق این برداشتها ما رو به سمت هدف رهنمون کنه و اگر به هدف رسیدیم نشون میده که دنباله برداشتهای ما درست بوده!.... یک عامل حتی باید بفهمه که شاید برداشتش کامل نشده یعنی برداشتش رو تغییری نده تا زمانی که شواهد کافی برای رد و یا تایید فرضیش ایجاد شد... این بحث ایجاد فرضیات و یافتن شواهد برای اونها هم اینجا می تونه کاربرد داشته باشه... حتی در سیستم qa ما با توجه به برداشت از سوال و یافتن شواهد جلو می ریم
می تونه ایده خوبی باشه... باید در موردش تحقیق کنم....