WAV 음악파일 속도 변형

1. WAV 파일이란?

WAV(웨이브 오디오 포맷, Waveform audio format)은 마이크로소프트와 IBM의 오디오 파일 표준입니다.

덕분에 해당 포맷에 대해 상세하게 적혀있는 사이트들과 각종 pdf자료들이 존재합니다. 아래는 그중 한 사이트입니다.

http://soundfile.sapp.org/doc/WaveFormat/

Microsoft WAVE soundfile format

WAVE PCM soundfile format The WAVE file format is a subset of Microsoft's RIFF specification for the storage of multimedia files. A RIFF file starts out with a file header followed by a sequence of data chunks. A WAVE file is often just a RIFF file with a

soundfile.sapp.org

아래는 WAV 파일에 대한 포맷 정보입니다.

WAV 파일은 크게 세 개의 영역으로 분류되는 것을 볼 수 있으며, Big Little dndian을 섞어 사용하는 것을 볼 수 있습니다.

Python에서 WAV 파일을 불러와 위의 포맷을 확인해보겠습니다.

단순히 샘플 파일을 하나 갖고 와서 위와 같이 열어보았습니다.

이를 위 사이트(http://soundfile.sapp.org/doc/WaveFormat/)에 나와있는 정보와 비교해보며 보겠습니다.

2. First Block - RIFF 영역 헤더

먼저 Little endian과 Big endian에 따라 hex값을 출력해주는 함수를 만들어주었습니다.

다음으로 위의 사이트에 나와있는 첫 번째 블록 정보를 보았습니다.

ChunkID : "RIFF"라는 문자를 ASCII로 갖고 있음. (big-endian기준 : 0x52494646)

ChunkSize : 전체 파일크기 중 ChunkID와 ChunkSize부분인 8Byte를 제외한 전체 크기를 말함

Format : "WAVE"라는 문자를 갖고 있음 (big-endian기준 : 0x57415645)

이번에는 파이썬에서 보겠습니다.

위와 같이 홈페이지에 나와있는 것과 동일한 ChunkID와 Format값을 갖고 있는 것을 볼 수 있으며, ChunkSize의 값을 10진수로 표시하고 8을 더해 전체 파일크기와 비교해보겠습니다.

보시는 것과 같이 동일한 파일크기를 갖는 것을 볼 수 있습니다.

3. Second Block - fmt 영역 헤더

다음은 두 번째 블록 정보입니다.

Subchunk1ID : "fmt "값을 갖고 있음. (big-endian기준 : 0x666d7420)

Subchunk1Size : Subchunk1의 크기

AudioFormat : PCM 방식이면 1

NumChannels : Mono = 1, Stereo = 2

SampleRate : 샘플링 주기

ByteRate : SampleRate * NumChannels * BPS/8

BlockAlign : NumChannels * BPS/8

BPS : 초당 비트 값

Extra Data

마찬가지로 파이썬에서 실제 데이터로 보겠습니다.

각각의 데이터는 Hex데이터임을 생각하시고 봐주세요.

위의 데이터를 보게 되면, 해당 음원(wav파일)은 아래와 같은 정보를 갖고 있습니다.

PCM 방식 파일 압축, 스테레오 음원, 샘플링 주기는 44100Hz(0xac44), BPS는 16bit

위 정보를 기반으로 음원 재생 프로그램은 노래를 재생하게 되는 중요한 정보입니다.

4. Last Block - data 영역

마지막 블록입니다.

Subchunk2ID : "Data"라는 값을 갖고 있음. (big-endian 기준 : 0x64617461)

Subchunk2Size : Subchunk2의 크기를 말합니다.

Data : 실제 음원 정보를 갖고 있는 데이터입니다.

Data 영역은 Little endian으로 구성되어있는 모습 그대로 표시한 것입니다.

이렇게 해서 일단 WAV 파일의 정보를 모두 확인해보았습니다.

다음장에서는 해당 데이터를 수정하여 음원을 변경하는 것을 보여드리겠습니다.

구글 API에 올라와있는 샘플코드를 응용하여 만들었습니다.

Python 코드

from google.cloud import texttospeech

client = texttospeech.TextToSpeechClient()

voice_eng = texttospeech.types.VoiceSelectionParams(
    language_code='en-US',
    ssml_gender=texttospeech.enums.SsmlVoiceGender.NEUTRAL)

voice_kor = texttospeech.types.VoiceSelectionParams(
    language_code='ko-KR',
    ssml_gender=texttospeech.enums.SsmlVoiceGender.NEUTRAL)

audio_config = texttospeech.types.AudioConfig(
    audio_encoding=texttospeech.enums.AudioEncoding.MP3)

-> 기본적으로 음성변화 기능을 불러오는 코드입니다.

def exchange_eng(input_text): # 영어를 음성으로 변형하기
    synthesis_input = texttospeech.types.SynthesisInput(text=input_text)
    response = client.synthesize_speech(synthesis_input, voice_eng, audio_config)
    return response.audio_content

def exchange_kor(input_text): # 한국어를 음성으로 변형하기
    synthesis_input = texttospeech.types.SynthesisInput(text=input_text)
    response = client.synthesize_speech(synthesis_input, voice_kor, audio_config)
    return response.audio_content

-> 텍스트를 음성으로 변형시키는 함수입니다.

def makeFile(textList, *adder):
    if len(adder) == 0: adder = 'output'
    else : adder = adder[0]
        
    for i, text in enumerate(textList):
        if type(text) == type(list()):
            with open('/Users/youngQ/tts_output/'+str(adder)+str(i)+'_eng.mp3', 'wb') as out:
                out.write(exchange_eng(text[0]))
            with open('/Users/youngQ/tts_output/'+str(adder)+str(i)+'_kor.mp3', 'wb') as out:
                out.write(exchange_kor(text[1]))
        else:
            with open('/Users/youngQ/tts_output/'+str(adder)+str(i)+'.mp3', 'wb') as out:
                out.write(exchange_eng(text))

-> 음성으로 변환된 파일을 저장하는 코드입니다.

다음은 위의 코드를 실행하는 부분입니다.

: makeFile( 변환할 텍스트 리스트, 저장할 파일명 ) 입니다.

1) 단순 영어를 음성으로 변형시키는 경우

location = ['in front of a fountain', 'in a clothing store', 'at a construction site', 'at a plaza',
           'in a parking lot', 'in a shopping district', 'at a crosswalk']
makeFile(location, 'location')

2) [영어 + 한국어] 텍스트를 음성으로 변형하는 경우

behavior = [['he is sitting arm in arm', '그는 팔짱을끼고 앉아있다.'], 'they are holding hands', 
            ['he is holding up someting', '그는 무언가를 들고있다.'],
            ['they are smiling at each other', '그들을 서로를 보며 웃고있다.'],
            ['he is legs crossed', '그는 다리를 꼬고있다.'], 
            ['A man is raising his hand', '한 남자가 손을 들고있다.'],
            ['he is taking a walk', '그는 산책을 하고있다.'],
            ['A man is crossing a street','한 남자가 길을 건너고있다.'],
            ['A man is working at a construction site','한 남자가 건설현장에서 작업하고있다.'],
            ['They are having a meeting at work', '그들은 직장에서 회의중이다.'],
            ['They are looking at something', '그들은 무언가를 보고있다.'],
            ]
makeFile(behavior, 'behavior')

실행결과

'프로그래밍 > Python 3 - 응용' 카테고리의 다른 글

[맥 아나콘다 에러] 아나콘다 경로 에러 (5)	2019.11.22
Conda 환경 셋팅 (0)	2019.10.29
[Python] 구글 API로 문자 읽어주기 (1/2) (0)	2019.05.29
[파이썬 함수] #1. startswith (0)	2019.03.15

구글 API로 문자를 음성으로

구글 API 등록부터 입력한 문자를 음성으로 저장하는 방법을 정리합니다.

Python코드는 다음 페이지에 있습니다.

구글 API 관리 : https://console.developers.google.com

Google Cloud Platform

하나의 계정으로 모든 Google 서비스를 Google Cloud Platform을 사용하려면 로그인하세요.

accounts.google.com

Cloud Text-to-Speech API

사용할 API의 이름입니다.

1) 프로젝트 생성하기

현재 tts proj라는 기존의 프로젝트가 있는 상태입니다.

따라서 새로 프로젝트를 생성해주겠습니다.(프로젝트 생성방법은 큰 차이가 없습니다.)

위와같은 순서로 진행됩니다.

프로젝트 이름은 본인이 사용할 API들을 관리하는 하나의 큰 틀이라고 생각하시면 좋습니다.

2) API 설정하기

위와같이 프로젝트가 생성이되면, [EABLE APIS AND SERVICES]를 클릭하여 프로젝트에 API를 새로 추가하겠습니다.

사용할 API의 이름을 검색하고 선택합니다.

API 사용 설정 버튼을 클릭하시면 결제방법을 등록하시라는 창이 나올 수 있습니다.

처음 사용하시는 중이라면 무료 크리딧이 주어집니다.

또한, 일정 사용량까지는 무료로 제공되기 때문에 제품을 위한 API가 아니고 혼자 사용하시는 것이라면 큰 결제가 발생하지는 않습니다.

3) 사용자 인증정보 만들기

위와같이 API사용중지라는 버튼이 활성화된 상태라면, API설정이 완료된 상태입니다.(클릭하지마세요!!!)

우측에 [사용자 인증 정보 만들기]를 클릭하세요.

키 생성완료가되면 위의 파일이 PC에 저장됩니다.

이제 환경변수만 설정과 SDK설치만하면됩니다!!

거의 다 왔습니다!!

4) 환경변수 설정하기

API문서를 참고하였습니다.

OS에 따라서 설정방법이 다르기 때문에 아래를 참고하셔서 설정해주시면 감사하겠습니다.

[OSX에서 환경변수 설정 후 확인한 내용입니다.]

SDK 설치하기

https://cloud.google.com/sdk/docs/

Google Cloud SDK 문서 | Cloud SDK | Google Cloud

Google Cloud SDK 문서 Google Cloud SDK는 Google Cloud Platform에서 호스팅되는 리소스와 애플리케이션을 관리하는 데 사용할 수 있는 도구 집합으로, 여기에는 gcloud, gsutil, bq 명령줄 도구가 포함됩니다. cloud 명령줄 도구는 Cloud SDK와 함께 다운로드됩니다. gcloud 명령줄 도구 개요에서 gcloud CLI에 대한 종합 가이드를 참조할 수 있습니다. 또한 gcloud CLI 참조에는 g

cloud.google.com

구글은 보안을 위해서인지 API키 파일을 통해 직접 API서버에 접속하지 않고 SDK를 통해서 API를 관리합니다.

위의 링크에서 해당 프로그램을 설치하시면됩니다.

SDK까지 설치가 끝나시면 이제 프로그램코드 부분으로 넘어갑니다.

이어지는 다음 페이지에 해당 코드가 있습니다.

'프로그래밍 > Python 3 - 응용' 카테고리의 다른 글

[맥 아나콘다 에러] 아나콘다 경로 에러 (5)	2019.11.22
Conda 환경 셋팅 (0)	2019.10.29
[Python] 구글 API로 문자 읽어주기 (2/2) (0)	2019.05.29
[파이썬 함수] #1. startswith (0)	2019.03.15

YoungQ

파이썬

[Python 음악파일] WAV 파일 뜯어보기 (1/2)

WAV 음악파일 속도 변형

1. WAV 파일이란?

2. First Block - RIFF 영역 헤더

3. Second Block - fmt 영역 헤더

4. Last Block - data 영역

[Python] 구글 API로 문자 읽어주기 (2/2)

구글 API에 올라와있는 샘플코드를 응용하여 만들었습니다.

Python 코드

다음은 위의 코드를 실행하는 부분입니다.

실행결과

'프로그래밍 > Python 3 - 응용' 카테고리의 다른 글

[Python] 구글 API로 문자 읽어주기 (1/2)

구글 API로 문자를 음성으로

구글 API 등록부터 입력한 문자를 음성으로 저장하는 방법을 정리합니다.

Python코드는 다음 페이지에 있습니다.

Cloud Text-to-Speech API

1) 프로젝트 생성하기

2) API 설정하기

3) 사용자 인증정보 만들기

4) 환경변수 설정하기

SDK 설치하기

'프로그래밍 > Python 3 - 응용' 카테고리의 다른 글

+ Recent posts

티스토리툴바