'DRL for computer graphics - 수업'에 해당되는 글 4건

  1. 2019.08.17 앞으로 더 적을 내용
  2. 2019.08.17 RL 사용 전 방식의 옛날 논문 3가지
  3. 2018.05.30 PD controller
  4. 2018.05.30 카테고리 설명

- motion grammars for character animation, Eurographics, 2016

DL 쓰기 이전의 최신 논문

 

- DeepMind control suite, arxiv, 2018

D4PG(Distributed Distributional Deep Deterministic Policy Gradient) 제안, uniform reward [0,1], unsolvable or cheating(의도하지 않은 reward가 많이 보인다), 잘되는게 하나씩은 있다

 

- asynchronous methods for deep reinforcement learning, ICML, 2016

A3C를 사용하여 이전 논문들(Q-learning)에 비해 16CPU로 여러 GPU보다 더 빠른 병렬적 학습 가능, replay memory를 사용하지 않음

 

 - high dimensional continuous control using generalized advantage estimation, ICLR, 2016

새로운 approach로 안정적인 학습을 할 수 있게한 논문이었던것 같다. 잘못된 설명을 할 것같아서 링크로 대체

https://reinforcement-learning-kr.github.io/2018/06/23/6_gae/

 

 - space time planning with parameterized locomotion controllers

 과도기적 논문, high level A* space-time plan + lower level RL controller (RL의 초기 접목 단계), Sergey Levine이 이때부터쯤 유명해졌다고 들은 듯 하다.

 

 - continuous control with deep reinforcement learning, ICLR, 2016

 DDPG를 소개한 논문?

 

여기 설명 너무 잘되있다;

https://talkingaboutme.tistory.com/983

 

[RL] Policy Gradient Algorithms

(해당 글은 OpenAI Engineer인 Lilian Weng의 포스트 내용을 원저자 동의하에 번역한 내용입니다.) Policy Gradient Algorithms Abstract: In this post, we are going to look deep into policy gradient, why it..

talkingaboutme.tistory.com

 

 

'DRL for computer graphics - 수업' 카테고리의 다른 글

RL 사용 전 방식의 옛날 논문 3가지  (0) 2019.08.17
PD controller  (0) 2018.05.30
카테고리 설명  (0) 2018.05.30
Posted by sjo200
,

 - 귀찮아서 대문자는 안쓴다. 그리고 DRL 전공자가 아니라 내용 설명 중 틀릴 확률이 매우 높음.

 

개요: 컴퓨터 그래픽스 논문지에 자주 실리는, DRL을 사용한 운동 시뮬레이터에 대해 알아볼 것이다. 그러나 이 글은 RL이 사용되기조차 전의 논문들을 알아볼 것이며, 열심히 보지 않아도 된다. 옛날 논문들이라 대부분이 파라미터와 함수를 정하고 그에 따라 스켈레톤 트리의 노드에 힘과 벡터를 지정해주는 것이기 때문이다. 요즘 DRL을 사용하는 논문들은 대체로 고차원의 continuous한 파라미터에서 현재 위치와 목표 위치만 주어진 채로 좋은 reward를 받아가며 해공간을 찾아가는 방법을 제시해주기 때문에, 굳이 linear interpolation 사용해가며 해를 찾는 옛날 논문을 잘 이해해서 좋을건 없다는 말이다.

 

1. construction and optimal search of interpolated motion graphs, ACM ToG, 2007

 

 운동을 나타내는 dimension을 축소시키고, interpolated motion graph (IMG)를 쓰며, A*로 최적해를 찾는 논문이다. 옛날 방식이라 다시 읽기가 귀찮다... 수업때 기억으로는 DB에 포즈별로 스켈레톤 트리의 노드별 정보가 들어있고, 특정 위치마다 어떤 포즈를 정하고 현재 포즈로부터 linear interpolation 하는 듯 하다. 

 

2. SIMBICON: Simple Biped Locomotion Control, ACM ToG, 2007

 

 어렵게 써놨는데 그냥 각종 파라미터들을 정해서 그에 맞게 각 부위가 특정 방향으로 힘을 주게 하는 시뮬레이터이다. 노가다 많이 했을듯한 느낌이다. 특징으로는, FSM을 두어 걷는 phase를 정의하고 state에 따라 힘을 줄 부위를 정하는 것이다. motion capture 데이터에 따라 파라미터를 정할 수도 있다고 한다.

 

3. data-driven biped control, ACM ToG, 2010

 

 SIMBICON(Simple Biped Locomotion Control)보다 더 자연스러운 움직임을 만들었다고 한다. 유저 인터페이스도 있어서 특정 파라미터 입력을 받을 수도 있고, DB에 저장된 데이터(당연히 MoCap?)를 쓸 수도 있다고 한다.

 

'DRL for computer graphics - 수업' 카테고리의 다른 글

앞으로 더 적을 내용  (0) 2019.08.17
PD controller  (0) 2018.05.30
카테고리 설명  (0) 2018.05.30
Posted by sjo200
,

1. 개념


PD controller에 대한 한글 설명이 구글링 해도 보이지 않아 쓰게 되었다.


PD controller는 한 개체가 다른 개체에 점근(gradually approach)할 수 있도록


Spring(S) 와 Damper(C) 를 사용한 시스템을 나타낸다.


참고 - http://www.matthewpeterkelly.com/tutorials/pdControl/index.html



위 참고 url을 보면 PD controller를 다음과 같이 힘을 주는 수식으로 표현한다.





(x_ref - x)


위 항은 위치의 차이를 나타내고,


(v_ref - v)


위 항은 속도의 차이를 나타낸다.


즉 k_p 가 Spring 역할로, 위치의 차이만큼 힘을 주게 되고


k_d 가 Damper 역할로, 속도의 차이만큼 반대로 힘을 주게 된다.


k_d가 0이라면 Spring에 의해 oscillate 할 것이고,


0이 아니라면 Spring에 의해 속도가 가속될수록 반대로 힘을 주어


목표 위치에 근접했을때 정지하도록 한다.



- Damper에 따른 상황 분류


over damped, critically damped, under damped 상황이 있다.


f = ma에 따라 위 수식은 (가속도, 속도, 위치)에 관한 식으로 나타내지는데


이를 (x'', x', x) 로 치환해서 나타내면 2차 미분방정식이 된다.


이때 


1. 해가 2개면 over damped:  늦게 점근하는 특징을 가진다.


2. 중근이면 critically damped: 가장 빠르게 점근하는 특징을 가진다.


3. 허근이면 under damped: 빠르게 접근(점근 아님)하여 oscillate한다. 



덧붙이자면, 댐퍼는 보통 실린더 안에 구멍뚫린 원판을 잡아당기거나 밀 수 있도록 만든다고 한다.


실린더에 액체가 있으면 유압을 이용하여 속도에 반대되는 방향으로 힘을 줄 수 있기 때문이다.

'DRL for computer graphics - 수업' 카테고리의 다른 글

앞으로 더 적을 내용  (0) 2019.08.17
RL 사용 전 방식의 옛날 논문 3가지  (0) 2019.08.17
카테고리 설명  (0) 2018.05.30
Posted by sjo200
,

1. computer graphics - physics controller


 컴퓨터 그래픽스의 2018년도 기준 역사와 근황을 살펴보는 과목이었다. ACM SIGGRAPH 기준으로 논문을 쓸 때 자신의 contribution이 어떤 맥락에서 존재하는지 알아야 올바른 글쓰기를 할 수 있다. 그리고 이를 통해 reject를 면할 것이다(나는 논문 한편 안써본 석사 나부랭이지만..). 따라서 2018년 기준 그래픽스 분야에 흥행중인 DRL이 접목된 controller에 대해 주로 다룰 것이다. 이를 위해 PD controller, Deep Reinforcement Learning에 대해 알아볼 것이다. DRL에 Neural Network이 쓰이긴 하지만 주로 visuomotor control 을 위해 시각 정보 인식용 CNN, 연속적인 운동 정보 사용을 위한 RNN 등 제한적으로만 사용될 것이다. 그러므로 NN에 관한 설명은 하지 않을 것이다.



2. 논문 쓰는 과정


 논문은 논리적으로 실험결과를 담아내는 글이지만, 논문 심사과정은 매우 정치적인 것이라고 한다. reviewer가 왜 내 것은 cite 안했는지 의문을 가지는 것부터 (자연계열 중 심한 곳에는)자기 학파가 아니라고 reject하는 경우까지 있다고 한다. 좋게 말하면 전문가가 좋은 논문을 엄선해주는 것이지만, 나쁘게 말하면 끼리끼리 해먹으며(익명 논문의 글, 결과 사진, 그래프 등을 보면 어느 연구실인지 정도를 약간 추측 가능하다) 자신의 이익에 따라 권력을 휘두를 수 있는 존재가 있다고 할 수 있다(하지만 이는 conflict of interest라 하여 금기시한다). 다만 top tier를 보면 각자 맡은 역할을 열심히 하여 단점이 최소화된 모습을 보인다. 이에 관한 내용을 생각나는 대로 쓸 것이며(2019년 현재 너무 많이 까먹음) 논문 학회 대신 더 좋은, 발전적인 집단 연구 방법이 생기길 바란다. 앞서 말했듯이 나는 석사 나부랭이이며 수업 회상용으로 쓰는 글이므로 전적으로 신뢰하지는 않길 바란다.


'DRL for computer graphics - 수업' 카테고리의 다른 글

앞으로 더 적을 내용  (0) 2019.08.17
RL 사용 전 방식의 옛날 논문 3가지  (0) 2019.08.17
PD controller  (0) 2018.05.30
Posted by sjo200
,