{"product_id":"apprendimento-per-rinforzo-von-satyanarayana-s-thayyaba-khatoon-md-und-n-v-madhu-bindu","title":"Apprendimento per rinforzo","description":"\u003cp\u003eQuesto libro è strutturato in cinque unità, per offrire un'esperienza di apprendimento olistica. Il viaggio inizia con un'introduzione agli algoritmi bandit, esplorando concetti fondamentali come gli algoritmi Upper Confidence Bound (UCB) e Probably Approximately Correct (PAC). L'unità successiva introduce la struttura completa del Reinforcement Learning (RL), andando oltre gli algoritmi bandit per considerare le interazioni agente-ambiente su più fasi temporali. I processi decisionali di Markov (MDP) sono introdotti come struttura fondamentale per la modellazione di compiti decisionali sequenziali. La quarta unità tratta i metodi di programmazione dinamica, i metodi di differenza temporale (TD) e l'equazione di ottimalità di Bellman in RL. Questi concetti consentono agli agenti di pianificare, apprendere e ottimizzare efficacemente le proprie azioni. L'ultima unità esplora le tecniche avanzate di RL, come le tracce di ammissibilità, l'approssimazione delle funzioni, i metodi dei minimi quadrati, l'apprendimento Q adattato, la rete Q profonda (DQN) e gli algoritmi di gradiente delle politiche.\u003c\/p\u003e\u003cdiv class=\"aw-variant-hidden-subtitle-div\" id=\"aw-variant-subtitle-9786206403326\"\u003e\u003ch3\u003eLibro della nuova generazione\u003c\/h3\u003e\u003c\/div\u003e","brand":"Autorenwelt Shop","offers":[{"title":"Softcover - 9786206403326","offer_id":47027257737541,"sku":"9786206403326","price":68.9,"currency_code":"EUR","in_stock":true}],"thumbnail_url":"\/\/cdn.shopify.com\/s\/files\/1\/0940\/0622\/files\/43b81900-5307-4dbc-9cd1-9ef9c6af6710.jpg?v=1759035130","url":"https:\/\/shop.autorenwelt.de\/products\/apprendimento-per-rinforzo-von-satyanarayana-s-thayyaba-khatoon-md-und-n-v-madhu-bindu","provider":"Autorenwelt Shop","version":"1.0","type":"link"}