RNN의 변형 - LSTM(Long Short Term Memory)

Recent Posts

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

관리 메뉴

너와 나의 스토리

RNN의 변형 - LSTM(Long Short Term Memory) 본문

Data Analysis/Machine learning

RNN의 변형 - LSTM(Long Short Term Memory)

노는게제일좋아! 2019. 7. 24. 15:14

* Kaggle 참고

What is Vanishing Gradient problem?

Vanishing Gradient problem: gradient 기반 학습 방법 및 backpropagation을 사용하여 인공 neural network를 학습하는데 어려움이 있다.

이러한 방법으로, 신경망의 각각의 가중치는 각 반복 학습에서 현재 가중치에 대한 와 함수의 부분 도함수에 비례하는 업데이트를 수신한다. 문제는 경우에 따라 gradient이 작아져서 weight이 효과적으로 값을 변경하지 못하게하는 것이다.

최악의 경우, 이것은 신경망을 추가 훈련으로부터 완전히 정지시킬 수 있다.

즉, 각 단계에 해당하는 가중치가 조금만 작아도 결과적으로 엄청 작아져서 vanishing gradient problem이 생길 수 있다.

RNN은 관련 정보와 그 정보를 사용하는 지점 사이 거리가 멀 경우 역전파시 그래디언트가 점차 줄어 학습 능력이 크게 저하되는 것으로 알려져 있다. - vanishing gradient problem

Long Short Term Memory(LSTM) - RNN의 변형

LSTM units은 RNN의 계층을 위한 building unit이다. LSTM 유닛으로 구성된 RNN은 종종 LSTM 네트워크라고 한다.

일반적인 LSTM 유닛은 cell, input gate, output gate, forget gate로 구성된다.

cell은 임의의 시간 간격에 대해 값을 "기억"한다. 따라서 LSTM에서 "momory"라는 단어를 사용한다.

세 개의 게이트 각각은 multi-layer(or feedforward) 신경 네트워크에서처럼 "conventional(일반적인)" 인공 신경으로 생각할 수 있다. 즉, 가중치 합계의 활성화(활성화 함수 사용)를 계산한다. 직관적으로 그들은 LSTM의 연결을 통해가는 값의 흐름의 규제자라고 생각할 수 있다. 그러므로 표기는 "gate"이다. 이 게이트들과 셀 사이에는 연결이 있다.

long short-term이라는 표현은 LSTM이 장기간 지속될 수 있는 단기 기억의 모델이라는 사실을 의미한다.

LSTM은 중요 이벤트 사이의 알 수 없는 크기 및 기간의 시간 지연을 통해 시계열 분류, 처리 및 예측하는데 적합하다.

LSTM은 전통적인 RNN을 학습 할 때 explding and vanishing gradient problem를 해결하기 위해 개발되었다.

'Data Analysis > Machine learning' 카테고리의 다른 글

Computer Network Traffic - kaggle 실습 / RNN (0)	2019.07.25
RNN & LSTM & GRU 완벽 정리 (0)	2019.07.25
time series data 다루기 - kaggle 실습 / pandas 함수 정리 (0)	2019.07.22
[Machine Learning - google developers] 손실 줄이기 (0)	2019.07.19
[Machine Learning - google developers] ML로 전환하기 - 선형 회귀 / 학습 및 손실 (0)	2019.07.19