강화학습에서 보상 형성(Reward Shaping)이란? 완벽 가이드 2024

TL;DR: 보상 형성(Reward Shaping)은 강화학습 에이전트가 더 빠르고 효율적으로 학습할 수 있도록 원래의 보상 신호에 추가적인 보상 정보를 더해주는 기법입니다.

보상 형성(Reward Shaping)이란 무엇인가?

강화학습(Reinforcement Learning, RL)에서 에이전트는 환경과 상호작용하며 보상(Reward)을 최대화하는 방향으로 학습합니다. 하지만 현실 세계의 많은 문제에서는 보상이 매우 희박(sparse)하거나 지연되어 에이전트가 올바른 행동을 학습하는 데 엄청난 시간이 걸립니다. 예를 들어, 체스 게임에서 에이전트는 수백 번의 수를 두고 나서야 승패라는 보상을 받습니다. 이런 상황에서 에이전트는 어떤 행동이 좋았는지 파악하기 매우 어렵습니다.

보상 형성(Reward Shaping)은 이 문제를 해결하기 위해 등장한 기법입니다. 원래의 환경 보상에 추가적인 인공 보상을 더함으로써 에이전트가 더 빠르게 목표를 향해 나아갈 수 있도록 안내합니다. 쉽게 말해, 에이전트에게 중간 중간 "잘하고 있어!" 또는 "이 방향이 맞아!"라고 알려주는 힌트를 제공하는 것입니다.

왜 보상 형성이 필요한가?

희소 보상 문제(Sparse Reward Problem)

강화학습의 가장 큰 도전 중 하나는 희소 보상 문제입니다. 에이전트가 목표를 달성했을 때만 보상을 받는다면, 초기 학습 단계에서 에이전트는 거의 아무런 피드백도 받지 못합니다. 이는 학습 속도를 극도로 느리게 만들고, 때로는 학습 자체가 불가능하게 만들기도 합니다.

지연 보상 문제(Delayed Reward Problem)

보상이 행동 직후가 아닌 한참 후에 주어지는 경우, 에이전트는 어떤 행동이 그 보상에 기여했는지 파악하기 어렵습니다. 이를 신용 할당 문제(Credit Assignment Problem)라고도 합니다. 보상 형성은 중간 단계에서 즉각적인 피드백을 제공함으로써 이 문제를 완화합니다.

보상 형성의 핵심 원리

보상 형성의 수학적 기반은 다음과 같이 표현됩니다. 원래의 보상 함수 R(s, a, s')에 추가 보상 F(s, a, s')를 더하여 새로운 보상 함수를 만듭니다:

R'(s, a, s') = R(s, a, s') + F(s, a, s')

여기서 가장 중요한 것은 추가 보상 F가 에이전트의 최적 정책(Optimal Policy)을 변경하지 않아야 한다는 점입니다. 이를 보장하는 가장 대표적인 방법이 포텐셜 기반 보상 형성(Potential-Based Reward Shaping, PBRS)입니다.

포텐셜 기반 보상 형성(PBRS)

Ng, Harada, Russell(1999)이 제안한 PBRS는 추가 보상을 다음과 같이 정의합니다:

F(s, a, s') = γ·Φ(s') - Φ(s)

여기서 Φ(s)는 상태 s의 포텐셜 함수이고, γ는 할인 인수(discount factor)입니다. 이 형태의 보상 형성은 원래의 최적 정책을 보존한다는 것이 수학적으로 증명되어 있습니다. 즉, 보상 형성을 적용해도 에이전트가 최종적으로 학습하는 최적 행동은 변하지 않습니다.

보상 형성 실제 구현 예제

다음은 Python과 OpenAI Gym을 활용한 간단한 보상 형성 예제입니다. MountainCar 환경에서 차량이 목표 지점에 도달하도록 학습할 때, 속도와 위치를 기반으로 추가 보상을 설계합니다:

import gym
import numpy as np

class ShapedMountainCarEnv:
    def __init__(self):
        self.env = gym.make('MountainCar-v0')
        self.observation_space = self.env.observation_space
        self.action_space = self.env.action_space

    def potential(self, state):
        # 위치와 속도를 기반으로 포텐셜 함수 정의
        position, velocity = state
        # 목표 위치(0.5)에 가까울수록 높은 포텐셜
        return 10 * (position + 0.5) + 5 * abs(velocity)

    def step(self, action):
        state, reward, done, info = self.env.step(action)
        
        # 포텐셜 기반 보상 형성 적용
        gamma = 0.99
        shaped_reward = reward + gamma * self.potential(state) - \
                        self.potential(self.prev_state)
        
        self.prev_state = state
        return state, shaped_reward, done, info

    def reset(self):
        state = self.env.reset()
        self.prev_state = state
        return state

# 환경 초기화 및 학습
shaped_env = ShapedMountainCarEnv()
state = shaped_env.reset()

for episode in range(100):
    state = shaped_env.reset()
    total_reward = 0
    
    for step in range(200):
        action = shaped_env.action_space.sample()
        next_state, reward, done, info = shaped_env.step(action)
        total_reward += reward
        state = next_state
        
        if done:
            break
    
    print(f"Episode {episode}: Total Reward = {total_reward:.2f}")

보상 형성 설계 시 주요 고려사항

보상 형성을 설계할 때는 다음 사항들을 반드시 고려해야 합니다:

• 도메인 지식 활용: 문제에 대한 깊은 이해를 바탕으로 의미 있는 중간 목표를 설정해야 합니다.

• 보상 해킹 방지: 잘못 설계된 보상은 에이전트가 의도하지 않은 방식으로 높은 보상을 얻는 보상 해킹(Reward Hacking)을 유발할 수 있습니다.

• 최적 정책 보존: 가능하면 PBRS를 사용하여 원래의 최적 정책이 변경되지 않도록 보장하세요.

• 보상 스케일 균형: 추가 보상이 원래 보상에 비해 너무 크거나 작지 않도록 조절해야 합니다.

보상 형성의 실제 응용 분야

보상 형성은 다양한 실제 문제에 적용되고 있습니다:

로봇공학(Robotics)

로봇 팔이 물체를 집는 작업을 학습할 때, 최종 성공 여부만을 보상으로 주면 학습이 매우 어렵습니다. 대신, 로봇 팔과 물체 사이의 거리가 줄어들 때마다 작은 보상을 주는 보상 형성을 적용하면 학습 속도가 크게 향상됩니다.

게임 AI

복잡한 전략 게임에서 에이전트가 자원을 획득하거나 특정 위치를 점령할 때 중간 보상을 제공함으로써 장기적인 전략을 더 효과적으로 학습할 수 있습니다. AlphaGo와 같은 시스템도 다양한 형태의 보상 설계 기법을 활용합니다.

자율주행

자율주행 차량의 경우, 목적지 도착이라는 최종 보상 외에도 차선 유지, 안전 거리 확보, 교통 법규 준수 등에 대한 중간 보상을 설계하여 더 안전하고 효율적인 주행 정책을 학습시킬 수 있습니다.

AI 플랫폼 활용

강화학습과 보상 형성을 직접 구현하고 실험해보고 싶다면, Anakin.ai와 같은 AI 플랫폼을 활용해보세요. Anakin.ai는 복잡한 AI 알고리즘을 쉽게 구현하고 테스트할 수 있는 환경을 제공하여, 개발자와 연구자 모두가 보상 형성 실험을 빠르게 진행할 수 있도록 도와줍니다.

보상 형성의 한계와 주의사항

보상 형성은 강력한 도구이지만, 몇 가지 중요한 한계점도 존재합니다. 첫째, 도메인 지식 의존성입니다. 효과적인 보상 형성을 위해서는 문제에 대한 깊은 이해가 필요하며, 이는 모든 상황에서 쉽게 얻을 수 없습니다. 둘째, 보상 해킹 위험입니다. 잘못 설계된 추가 보상은 에이전트가 원래 목표와 다른 방향으로 최적화될 수 있습니다. 셋째, 일반화 문제입니다. 특정 환경에 맞게 설계된 보상 형성은 다른 환경에서는 효과가 없거나 오히려 해로울 수 있습니다.

이러한 한계를 극복하기 위해 최근에는 역강화학습(Inverse Reinforcement Learning), 모방 학습(Imitation Learning), 그리고 인간 피드백을 활용한 강화학습(RLHF) 등의 방법들이 함께 연구되고 있습니다.

자주 묻는 질문 (FAQ)

Q1. 보상 형성과 보상 함수 설계는 어떻게 다른가요?

보상 함수 설계(Reward Function Design)는 환경의 기본 보상 구조 자체를 설계하는 것이고, 보상 형성(Reward Shaping)은 이미 존재하는 보상 함수에 추가적인 보상을 더하는 기법입니다. 보상 형성은 원래의 보상 구조를 유지하면서 학습 효율만을 향상시키는 것을 목표로 합니다. PBRS를 사용할 경우 최적 정책이 변경되지 않는다는 수학적 보장도 있습니다.

Q2. 보상 형성이 항상 학습 성능을 향상시키나요?

아니요, 반드시 그런 것은 아닙니다. 잘못 설계된 보상 형성은 오히려 학습을 방해하거나 에이전트가 의도하지 않은 행동을 학습하게 만들 수 있습니다. 효과적인 보상 형성을 위해서는 충분한 도메인 지식과 신중한 설계가 필요합니다. 또한, 보상 형성의 효과는 사용하는 강화학습 알고리즘과 환경의 특성에 따라 크게 달라질 수 있습니다.

Q3. 포텐셜 기반 보상 형성(PBRS)이 아닌 다른 보상 형성 방법도 있나요?

네, 다양한 보상 형성 방법이 있습니다. 대표적으로 동적 포텐셜 기반 보상 형성(Dynamic PBRS)은 포텐셜 함수가 시간에 따라 변할 수 있도록 확장한 방법입니다. 또한 인간 피드백 기반 보상 형성은 인간 전문가의 평가를 보상으로 활용하며, 자동 보상 형성(Automated Reward Shaping)은 메타러닝이나 진화 알고리즘을 사용하여 보상 함수를 자동으로 학습합니다. 최근에는 대규모 언어 모델(LLM)을 활용하여 보상 함수를 자동 생성하는 연구도 활발히 진행되고 있습니다.