본문 바로가기

머신러닝 읽어주는 남자

음악생성

반응형

Dynamics(셈여림: 각 노트의 자연스러운 강약)

Timre(음색)

bar 마디

 

Magenta

강화학습으로 학습시킨 LSTM모델

롱텀 구조를 강화하기 위해 GAN, Transformer도 사용했음, 그냥 트랜스포머보다 relative 트랜스포머가 효과적

 

magneta studio라는 프로그램 또는 Ableton Live라는 프로그램의 플러그 인으로 제공

 

패널티 조건:

  • 키에 없는 음표 사용, 
  • 음악의 다양성을 주기 위해, 작곡 간에 autocorrelation이 높은 경우
  • 음표가 심하게 반복 될 경우

보상 조건

  • 작곡의 시작이 토닉 노트(C major)에서 도로 시작할 경우
  • 너무 인터벌이 길어지면 어색하니 뒤로 돌아감
  • 유일한 최대 음표, 유일한 최수 음표로 작곡한 경우
  •  모티브에 있는 음표를 사용한 경우

 

MuseGAN

음표 그룹에 대응하기 위해, 기본 요소를 음표가 아닌 마디를 사용한다. 그래서  CNN을 통해서 마디 마디 생성하게 된다.

음악 생성을 위해 총 5가지 특징을 지정해야함.

 

  • 빈마디 비율
  • 배치당 사용될 pitch class의 수
  • 드럼 패턴 8비트/16비트
  • 적합한 음의 비율(적합한 음:3 타임 스텝보다 긴 음)
  • Tonal distance: 트랙간에 harmonicity 측정, 해당값이 크면 트랙간 하모닉 관계가 약해짐

 

Wavenet

대부분의 연구는 음표를 다루는 비연속적 인코딩을 다뤘다면, 본 연구는 오디오 데이터를 바로 다루는 연속적 인코딩을 다룬다.

생성도 바로 audio waverform 행태로 출력됨. 심지어 음성까지도 같이 만들어냄

컨볼루션 레이어에 dilatation factors 를 주어 과거를 통해서 현재의 음악을 만들어냄

 

MuseNet

해당 모델은 NLP 랭기지 모델의 소타모델인 GPT2를 기반한 모델로, 음악 시퀀스에서 다음 토큰을 예측하는 모델이다

다양한 작곡가, 장르를 섞어서 작곡이 가능하다.

 

 

Maia

반응형