Close

policy gradient 예제

다음은 기준b를 사용하는 정책 그라데이션 알고리즘에 대한 일반 알고리즘입니다. 따라서 기준 b라는 다른 변수를 도입하여 보상의 차이를 최적화하려고 합니다. 그라데이션 추정값을 편향되지 않게 유지하려면 정책 매개 변수와 독립적인 기준선을 사용합니다. 정책 그라데이션은 강화 학습 문제를 해결하기위한 접근 방식입니다. 보강 학습 분야를 살펴보지 않았다면 먼저 문제 정의 및 주요 개념에 대한 “A (긴) 보강 학습 » 주요 개념” 섹션을 읽어보십시오. 로봇 공학에서 특히 유용한 한 가지 세부 사항은 낮은 차원 피처의 다양한 물리적 단위를 정규화하는 방법에 관한 것입니다. 예를 들어, 모델은 로봇의 위치와 속도를 입력으로 사용하여 정책을 학습하도록 설계되었습니다. 이러한 물리적 통계는 본질적으로 다르며 동일한 유형의 통계조차도 여러 로봇에 따라 많이 다를 수 있습니다. 일괄 처리 정규화는 하나의 minibatch에서 샘플에 걸쳐 모든 차원을 정규화하여 이를 해결하기 위해 적용됩니다. [18] 가브리엘 바스-마론, 외.

“분산 분포 결정적 정책 그라데이션.” ICLR 2018 포스터. Part 4: Doom 및 Cartpole이 있는 정책 그라데이션에 대한 소개 정책 그라데이션의 두 가지 주요 구성 요소는 정책 모델과 값 함수입니다. 값 함수를 아는 것이 바닐라 정책 그라데이션의 그라데이션 분산을 줄이는 것과 같은 정책 업데이트를 지원할 수 있기 때문에 정책 이외에 값 함수를 배우는 것이 많은 의미가 있으며, 이것이 Actor-Critic 메서드가 수행하는 것과 같습니다. 그라데이션을 따라 최상의 매개 변수를 찾기 때문에 로컬 최대(최악의 경우) 또는 전역 최대값(최상의 경우)으로 수렴할 수 있습니다. 정책 그라데이션 메서드는 같은 방식으로 이러한 문제로 인해 어려움을 겪지 않기 때문에 크게 다릅니다. 예를 들어 상태의 불확실성은 정책의 성능을 저하시킬 수 있지만(추가 상태 추정기를 사용하지 않는 경우) 정책에 대한 최적화 기술을 변경할 필요가 없습니다. 연속 상태 및 작업은 이산 상태와 정확히 동일한 방식으로 처리 될 수 있지만 학습 성능은 종종 증가합니다. 적어도 로컬 최적에 수렴이 보장됩니다. 다행히도, 정책 그라데이션 정리는 세상을 구하기 위해 온다! Woohoo! 상태 분포의 미분화를 포함하지 않고 그라데이션 계산을 많이 단순화하지 않는 객관적 함수의 미분의 변형을 제공한다. 결정적 정책 그라데이션 정리는 공통 정책 그라데이션 프레임워크에 연결할 수 있습니다. 강화 학습의 목표는 에이전트가 최적의 보상을 얻을 수있는 최적의 행동 전략을 찾는 것입니다.

정책 그라데이션 메서드는 정책을 직접 모델링하고 최적화하는 것을 목표로 합니다. 정책은 일반적으로 θ에 대한 매개 변수화된 함수로 모델링됩니다. 보상 (목표) 함수의 가치는이 정책에 따라 달라집니다 다음 다양한 알고리즘은 최상의 보상을위해 θ를 최적화하기 위해 적용 할 수 있습니다. [윌리엄스, 1992] 윌리엄스, R. J. (1992). 연결주의 강화 학습을위한 간단한 통계 그라데이션 다음 알고리즘. 강화 학습에서 5-32쪽.

Springer. 다른 기계 학습 문제와 마찬가지로 J를 최대화하는 매개 변수를 찾을 수 있다면 작업을 해결했을 것입니다. 기계 학습 문헌에서 이러한 최대화 문제를 해결하는 표준 접근 방식은 그라데이션 상승(또는 하강)을 사용하는 것입니다. 그라데이션 상승에서, 우리는 다음 업데이트 규칙을 사용하여 매개 변수를 통해 스테핑 유지 주요 아이디어는 J (θ)는 우리의 π가 얼마나 좋은 우리에게 말할 것입니다. 정책 그라데이션 상승은 좋은 작업의 샘플을 최대화하기 위해 최상의 정책 매개 변수를 찾는 데 도움이 됩니다. 절차를 보여 줄 정책 행위자 – 비평가 알고리즘의 예를 생각해 봅시다. 온-정책 행위자-비평가의 각 반복에서 두 가지 작업이 결정적으로 수행되고 정책 매개 변수에 대한 SARSA 업데이트는 위에서 계산한 새 그라데이션에 의존합니다. 수많은.