신경망과 딥러닝 - 심층 신경망 네트워크

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

Tags more

Archives

Today

Total

관리 메뉴

코딩로그

신경망과 딥러닝 - 심층 신경망 네트워크 본문

코딩로그/Andrew Ng's ML class

신경망과 딥러닝 - 심층 신경망 네트워크

hyeonnny 2019. 12. 24. 01:58

<더 많은 층의 심층 신경망>

얼마나 깊은 신경망을 사용해야 하는지 미리 정확하게 예측하기는 어렵습니다.

표기법

L : 네트워크 층의 수
n[l] : l층에 있는 유닛 개수
a[l] : l층에서의 활성값
a[0] : 입력 특징 (X)
a[L] : 예측된 출력값 ( y^ )

<정방향 전파와 역방향 전파>

l 번째 층에서 정방향 전파는 이전 층의 활성화 값인 a[l−1]을 입력으로 받고, 다음 층으로 a[l] 값을 출력으로 나오게 합니다. 이때 선형결합된 값인 z[l] 와 변수 W[l],b[l] 값도 캐시로 저장해둡니다.
l 번째 층에서 역방향 전파는 da[l] 을 입력으로 받고, da[l] 를 출력합니다. 이때 업데이트를 위한 dW[l] 와 db[l] 도 함께 출력합니다. 이들을 계산하기 위해서 전방향 함수때 저장해두었던 캐시를 쓰게 됩니다.

<심층 신경망에서의 정방향전파>

다음과 같이 한 층씩 정방향 전파를 진행합니다.

<왜 심층 신경망이 더 많은 특징을 잡아 낼 수 있을까요?>

직관 1: 네트워크가 더 깊어 질 수록, 더 많은 특징을 잡아낼 수가 있습니다. 낮은 층에서는 간단한 특징을 찾아내고, 깊은 층에서는 탐지된 간단한 것들을 함께 모아 복잡한 특징을 찾아낼 수 있습니다.
직관 2: 순환 이론에서 따르면, 상대적으로 은닉층의 개수가 작지만 깊은 심층 신경망에서 계산할 수 있는 함수가 있습니다. 그러나 얕은 네트워크로 같은 함수를 계산하려고 하면, 즉 충분한 은닉층이 없다면 기하급수적으로 많은 은닉 유닛이 계산에 필요하게 될 것입니다.

순환 이론: 로직 게이트의 서로 다른 게이트에서 어떤 종류의 함수를 계산할 수 있을지에 관한 것입니다.

<심층 신경망 네트워크 구성하기>

l 번째 층에서 정방향 함수는 이전 층의 활성화 값인 a[l−1] 을 입력으로 받고, 다음 층으로 a[l] 값을 출력으로 나오게 합니다. 이때 선형결합된 값인 z[l] 와 변수 W[l],b[l] 값도 캐시로 저장해둡니다.
l 번째 층에서 역방향 함수는 da[l] 을 입력으로 받고, da[l] 를 출력합니다. 이때 업데이트를 위한 dW[l] 와 db[l] 도 함께 출력합니다. 이들을 계산하기 위해서 전방향 함수때 저장해두었던 캐시를 쓰게 됩니다.

<변수 VS 하이퍼 파라미터>

변수란 신경망에서 학습 가능한 W 와 b 를 뜻합니다.
하이퍼파라미터는 다양하게 있는데, 아래와 같습니다.

학습률(learning rate, \alphaα )
반복횟수(numbers of iteration)
은닉층의 갯수(numbers of hidden layer, L)
은닉유닛의 갯수(numbers of hidden units)
활성화 함수의 선택(choice of activation function)
모멘텀항(momentum term)
미니배치 크기(mini batch size)

매개변수인 하이퍼파라미터를 결정함으로서 최종 모델의 변수를 통제할 수 있습니다.
하이퍼파라미터는 결정 된것이 없으며, 여러번의 시도를 통해 적합한 하이퍼파라미터 를 찾아야합니다.

<인간의 뇌와 어떤 연관이 있을까요?>

신경망과 인간의 뇌 간의 관계는 크지 않습니다. 다만, 신경망의 복잡한 과정을 단순화해서 뇌세포의 프로세스로 비유하게 되면, 사람들에게 조금 더 직관적이고, 효과적으로 전달 할 수 있습니다.
그러나 오늘날 신경 과학자들조차도 하나의 뉴런이 무엇을 하는지 거의 모릅니다. 우리가 신경과학에서 특징짓는 것보다 하나의 뉴런은 훨씬 더 복잡하고 알기 어렵습니다. 게다가 뉴런이 신경망 처럼 역전파를 통해서 학습 하는지도 의문입니다.
최근에는 이런 비유가 점점 무너져 가고 있습니다.

'코딩로그 > Andrew Ng's ML class' 카테고리의 다른 글

신경망과 딥러닝 - 얕은 신경망 네트워크 (0)	2019.12.24
신경망과 딥러닝 - 파이썬과 벡터화 (0)	2019.12.24
신경망과 딥러닝 - 신경망과 로지스틱 회귀 (0)	2019.12.24
Numpy 기초, 기본 정리 (0)	2019.12.05

'코딩로그/Andrew Ng's ML class' Related Articles

more

티스토리툴바