data.yml

algo:
  name: a2c_continuous
config:
  bounds_loss_coef: 0.5
  clip_value: true
  critic_coef: 1
  e_clip: 0.2
  entropy_coef: 0.0
  env_name: BipedalWalkerHardcoreCnn-v3
  gamma: 0.99
  grad_norm: 0.5
  learning_rate: 1e-4
  lr_schedule: adaptive
  lr_threshold: 0.008
  max_epochs: 20000
  mini_epochs: 4
  minibatch_size: 2048
  name: walker_0_1
  normalize_advantage: true
  normalize_input: false
  num_actors: 16
  ppo: true
  reward_shaper:
    min_val: -1
    scale_value: 0.1
  score_to_win: 300
  seq_length: 8
  steps_num: 256
  tau: 0.9
  truncate_grads: true
load_checkpoint: false
load_path: nn/walker_0_0ep=813.0rew=287.86985430901296
model:
  name: continuous_a2c_logstd
network:
  cnn:
    activation: elu
    convs:
    - filters: 64
      kernel_size: 3
      padding: 1
      strides: 1
    - filters: 64
      kernel_size: 3
      padding: 1
      strides: 1
    - filters: 64
      kernel_size: 3
      padding: 1
      strides: 1
    - filters: 128
      kernel_size: 2
      padding: 0
      strides: 1
    initializer:
      name: variance_scaling_initializer
      scale: 2
    regularizer:
      name: None
    type: conv1d
  mlp:
    activation: elu
    initializer:
      name: variance_scaling_initializer
      scale: 2
    regularizer:
      name: None
    units:
    - 128
  name: actor_critic
  separate: true
  space:
    continuous:
      fixed_sigma: true
      mu_activation: None
      mu_init:
        name: variance_scaling_initializer
        scale: 0.02
      sigma_activation: None
      sigma_init:
        name: const_initializer
        value: 0