AI 목소리 사용법 안내

다양한 환경에서 깨끗한 음질의 음성을 만들기 어려울 때 이 AI로 음성을 만들어 주는 서비스를 활용하면 좋을 것 같습니다. 이사양잡스라 채널은 파이프라인 개발, 디지털노마드 경험을 토대로 강의 콘텐츠를 올려주는 채널인데요. AI 음성 활용방법 안내하는 영상이 있어 스크랩했습니다. 영상의 주요 핵심만 정리해봤습니다. 원문영상 전체를 보시려면 글 하단에 있으니 참고하세요~

AI 음성 서비스

지금 소개해 드리는 이 AI 음성은 레퍼럴 시스템입니다. 우리는 항상 물건을 팔든 혹은 글을 쓰든 이렇게 서비스를 소개하는 레퍼럴을 생각하셔야 됩니다. 그리고 이런 레퍼럴을 소개할 때에는 정말 좋은 서비스인 AI 음성 서비스도 엄청 많거든요. 소비자에게 피해가 가지 않으면서 좋은 서비스를 제공한 대가로 레퍼런스 수익을 받을 수 있는 그런 걸 하셔야 올해 디지털 노마드로 파이프라인 수익을 다각화하실 수 있어요. 제가 지금 AI 목소리로 말씀드리고 있는 거는 일레븐 랩스라는 서비스인데요.

AI 제공되는 음성과 특징

이게 지금 로그인해서 제가 가장 많이 쓰는 페이지 여기 이사양잡스라고 되어 있는데 이게 제가 제 목소리를 학습시키기 위해서 사용했습니다. 학습이라는 거창한 단어를 썼지만 엄청 거창한 학습도 있고요. 정말 간단하게 목소리를 학습시키는 방법이 있어요.

그래서 여기 뒤에 목소리가 있는데 이걸 플레이하면 잘 들리실지 모르겠지만 이렇게 샘플로 영어 발음으로 들을 수 있습니다. 그리고 이거는 제가 이사양잡스를 만든 거고요. 기존에 자주 쓰이는 목소리들이 나와 있어요. 예를 나레이션을 하는 건데 들어볼까요 말투도 있죠. 그리고 여기 다니엘은 브리티시 발음이고요. 딥한 느낌의 뉴스 프리젠터이라고 돼 있네요. 들어볼까요?

네 이런 식으로 굉장히 다양한 언어가 들어 있습니다. 이런 목소리와 톤을 우리가 마음대로 쓸 수 있는 건데요. 저는 이거를 쓰지는 않는데요. 샘플을 보여드릴게요. 안토니 목소리로 한번 만들어보겠습니다. 이거는 조금 괜찮은데요. 이게 영어로 들을 때는 엔터님의 목소리가 굉장히 좋은 것 같은데 이게 한국어 목소리로 들으면 좀 못생겨지잖아요. 별로 멋있지가 않죠.

이런 현상이 생깁니다. 대부분 영어 기반이기 때문에 아까 브리티시 발음이 여기 다니엘이 있네요. 다니엘로 한번 해볼게요. 그러니까 이게 영어로 들으면 브리티시나 아까 나레이션 하는 안토니 목소리가 좋은데 한국말로 했을 때는 말 잘하는 외국인이 한국어를 할 때 굉장히 가볍고 느낌이 좀 줄어드는 경향이 있습니다.

AI 음성 학습과 디자인

그래서 이사양잡스 같은 경우는 외국인 톤을 써가지고는 호소력 있는 전달이 불가능하기 때문에 저는 제 목소리를 학습 시켜서 한 것입니다. 학습이라는 것도 그렇게 어렵지는 않아요. 여기 보시면 왼쪽에 보이스에 들어가시면 여기 플러스 버튼이 있습니다. 이걸 누르면 여기 여러 가지가 나오는데 그중에 “보이스디자인”은 아예 없는 보이스를 창조해내는 겁니다.

여자 남자 선택하시고 나이대를 선택하시고 어떤 식의 발음인지 아메리칸 브리티시 아프리카 오스트레일리안 인디안 이렇게 당연히 한국은 없고요. 이런 식으로 선택하신 다음에 악센트나 이런 것들을 선택하여 만드는 거고요. 이런 거를 활용하시면 정말 다양한 채널에서 다양하게 활동하실 수 있습니다.

품질 좋은 음성 얻는 법

저는 이걸 쓴 게 아니라 두 번째 인스턴트 보이스 클로닝(instant voice cloning)에 들어가시면 이거는 굉장히 짧은 샘플이 있잖아요. 그 짧은 샘플만으로도 비슷한 목소리를 만들어내는 겁니다. 그래서 여기다가 녹음을 해가지고 자신이 10메가가 되지 않은 목소리를 업로드하거나 바로 레코드 오디오가 되거든요. 여기서 이걸 누른 다음에 자신의 목소리를 녹음하고 여기 이름 넣으시고 애드 보이스를 누르시면 지금 내가 녹음한 목소리 톤에 새로운 음성이 생성이 되는 겁니다. 그래서 제가 만든 게 여기 보이는 이사양잡스죠.

이게 이제 AI 목소리를 소개하시는 분들이 여기까지 소개하는 제가 실제 기존에 했던 영상과 AI 음성의 목소리톤이 진짜 비슷한 이유는 뭐냐면 저는 유튜브 만들 때 이렇게 텍스트로 넣지 않습니다. 아시는 분은 아시겠지만 저는 유튜브 만들 때 스크립트 작성 안 해요. 저는 항상 즉석에서 그냥 제가 알고 있는 거 말씀드리는 겁니다. 스피치를 좀 해보신 분들 계실지 모르겠는데요. 완벽한 원고가 있으면 자꾸 자신이 모르는 내용을 말하려는 경향이 있어 알지도 못하면서 전달하는 거죠. 그래서 저는 특히 이사양잡스는 다른 유튜브 채널도 마찬가지지만 스크립트 없이 작성을 합니다.

그래서 넣고 싶어도 여기다가 스크립트를 저는 넣을 수 없는 입장입니다. 그럼 저는 뭘 쓰냐 여기 위에 보면 “스피치 to 스피치”라는 메뉴가 있습니다. 이거는 여기다가 음성 파일을 집어넣으면 그 음성 파일을 갖고 기반으로 이사양잡스라는 톤으로 바꿔주는 거죠. 이렇게 넣으면 텍스트로 넣었을 때와는 차원이 다를 정도로 완벽하게 저의 목소리를 반영한 톤의 목소리가 생성이 됩니다.

그러면 이거는 AI로 된 게 아니라 그냥 갖다 나온 거 아니냐 하시겠지만 그렇지 않아요 다릅니다.
그리고 다시 말씀드리지만 제가 지금 샘플로 보여드릴 건데 엄청 울리잖아요. 울리는 부분을 잡기 위해서는 마이크도 사셔야 되고 저처럼 모니터링 헤드폰도 있어야 되고 특히 방을 흡음하는 작업이 굉장히 많은 비용을 들여서 필요합니다.이런 것들을 대체해 줄 수 있는 거기 때문에 장점이 있다고 보시면 되겠습니다.

일레븐랩스

일레븐랩스는 무료는 아닙니다. 프리요금제가 있는데요. 거의 되는 게 없고요. 금액에 따라서 생산할 수 있는 캐릭터가 한도가 있어요. 첫 달만 1달러고 그다음 달부터는 5달러가 청구되는데 여기 보면 한 달에 3만 글자라고 돼 있잖아요. 보통 제가 말하는 속도로 4분짜리 만드는데 5천 글자 정도 소모가 그러면 24분이면 다 쓰는 거죠. 그래서 저처럼 어느 정도 정기적으로 만드시는 분들은 11달러짜리 사실은 22달러죠. 이 정도가 필요하고요.

이건 중요하지 않은데 여기는 192k BPS 이건 거의 CD 음질인데 이거는 우리한테 별로 중요하지 않고 음악하시는 분들이나 오디오북 만드시거나 나레이션 하시는 분들에게는 이거 쓰시면 안 되고 크리에이터 정도의 음질은 꼭 사용하셔야 됩니다.

일레븐랩스 사이트 방문하기

원문영상 – 이사양잡스