카테고리 없음

화면에 갇힌 AI를 풀어주다나만의 '자비스' 만들기

shonelim 2026. 6. 6. 20:17
나만의 자비스 만들기
사학과 임원의 AI 이야기

화면에 갇힌 AI를 풀어주다
나만의 '자비스' 만들기

전화 한 통으로 내 컴퓨터를 부리는
음성 자율 에이전트 설계기

표지
▲ Hermes Agent × ElevenLabs × Twilio — 음성 제어 OS 청사진

며칠 전 흥미로운 자료를 하나 봤습니다. "내 컴퓨터를 진짜로 제어하는 자비스를 만든다"는 영상이었는데요. 보면서 묘한 기분이 들었습니다. 제가 이미 절반은 쓰고 있던 그림이었거든요.

저는 그동안 맥미니에 '히야'라는 원격 에이전트를 띄워두고, 텔레그램으로 명령을 보내 유튜브 콘텐츠를 자동 발행하고, 매일 밤 옵시디언을 노션으로 미러링하게 시켜왔습니다. 자리를 비워도 컴퓨터가 알아서 일하는 구조죠.

그 자료가 더한 건 딱 한 겹이었습니다. "명령을 타이핑하지 말고, 그냥 전화해서 말로 시켜라." 이 글은 그 개념을 정리하고, 제가 실제로 어떻게 붙여볼지를 함께 적은 기록입니다.

1. 챗봇과 '비서'는 다릅니다

우리가 쓰는 ChatGPT 음성은 똑똑하지만 화면 안에 갇혀 있습니다. 질문에 답할 뿐, 내 다운로드 폴더에 파일을 만들거나 내 캘린더에 일정을 넣지는 못하죠.

챗봇 vs Voice OS

반면 '자비스'형 에이전트는 로컬 컴퓨터에 직접 접근합니다. 파일을 쓰고, 터미널 명령을 실행하고, 지난 대화를 기억합니다. 클라우드에 머무는 AI와, 내 운영체제 안에 살면서 실제 일을 하는 AI의 차이입니다.

2. 그래서 뭘 할 수 있나

핵심은 네 가지 영역입니다. 디지털과 현실, 기억과 실행이 교차하는 지점들이죠.

활용 4분면

"자비스, 다운로드 폴더에 시 한 편 써두고, 오후 3시에 일본어 학습 일정 잡아줘. 지난 세션 기록도 확인해줘." — 이 한 문장이 파일 생성 · 캘린더 등록 · 메모리 조회로 동시에 풀립니다. 그것도 통화하듯 자연스럽게요.

3. 구조는 의외로 단순합니다 — 삼위일체

복잡해 보이지만 부품은 셋뿐입니다.

3대 핵심
① Hermes Agent (두뇌와 손) — 명령을 해석하고 로컬 터미널·파일을 실제로 조작하는 OS. 제 경우엔 '히야'가 이 역할입니다.
② ElevenLabs (성대) — 작업 결과를 사람 같은 목소리로 합성해 들려줍니다.
③ Twilio (귀와 연결망) — 실제 전화번호를 부여해, 내 음성 명령을 받아 시스템으로 전달합니다.

두뇌 하나에 입과 귀를 달아주는 셈입니다. 두뇌(에이전트)는 이미 있으니, 저는 입과 귀만 붙이면 됩니다.

4. 전화 한 통이 흐르는 길

음성이 명령이 되고 다시 음성으로 돌아오는 여정입니다.

오디오 신호의 여정 자비스 루프
▲ 사용자 음성 → Twilio(텍스트화) → Hermes(실행) → ElevenLabs(음성합성) → 다시 전화로

이 한 바퀴가 거의 실시간으로 돕니다. 그래서 '응답 속도'가 생명입니다.

5. 가장 중요한 결정 — 빠른 두뇌를 골라라

모델 선택

통화 중에는 '똑똑함'보다 '빠름'이 이깁니다. 아무리 답이 좋아도 3초 침묵이 흐르면 대화가 끊기니까요.

제1원칙: 통화용 두뇌는 가벼운 모델(빠른 응답)을, 무거운 분석은 백그라운드 작업으로 분리한다.

6. 그래서 — 나는 이렇게 만들 계획입니다

개념을 제 환경(히야)에 얹는 실제 순서입니다. 똑같이 따라 하실 분들을 위한 체크리스트이기도 합니다.

1
준비물 3종 발급Twilio 계정(전화번호·Account SID·Auth Token), ElevenLabs(API Key·선호 Voice ID), 그리고 로컬에 띄울 에이전트.
2
전화 받는 입구 만들기Twilio 번호로 전화가 오면 내 서버(웹훅)로 음성을 넘기도록 설정. 음성→텍스트 변환은 Twilio가 처리.
3
두뇌 연결받은 텍스트를 에이전트에게 전달 → 의도 해석 → 파일 생성 일정 등록 같은 실제 도구 실행.
4
목소리로 되돌리기실행 결과 텍스트를 ElevenLabs로 음성 합성 → Twilio가 통화로 재생. 한 바퀴 완성.
5
기억 붙이기지난 통화·작업 로그를 저장해, 다음 통화 때 "어제 그거" 같은 맥락이 통하게.
💡 부담된다면 — 쉬운 길도 있습니다. 전화망(Twilio) 연동이 복잡하면, 일단 컴퓨터 내장 마이크·스피커로 말하는 '토크 모드'부터 시작하세요. 외부 전화 설정 없이 로컬 음성 제어의 감을 바로 잡을 수 있습니다.
토크모드 비교

7. 한 가지, 꼭 짚고 싶은 것

이런 자료들은 끝에 "이제 당신은 자율 직원을 고용한 겁니다"라며 유료 커뮤니티 가입을 권합니다. 멋진 카피지만, 핵심 부품은 모두 공개된 API입니다. 마법이 아니라 조립입니다.

중요한 건 도구가 아니라 '내가 무엇을 자동화하고 싶은가'라는 질문입니다. 저는 콘텐츠 발행과 일정 관리를 맡겼습니다. 수현님은 무엇을 맡기시겠어요?

화면 밖의 진짜 변화는 이제 시작입니다

똑똑한 챗봇을 넘어, 내가 자리를 비운 사이에도
스스로 일하는 동료를 만드는 일.
거창한 코딩보다, 작은 자동화 하나부터.

— 사학과 임원의 AI 이야기