화면에 갇힌 AI를 풀어주다
나만의 '자비스' 만들기
전화 한 통으로 내 컴퓨터를 부리는
음성 자율 에이전트 설계기
며칠 전 흥미로운 자료를 하나 봤습니다. "내 컴퓨터를 진짜로 제어하는 자비스를 만든다"는 영상이었는데요. 보면서 묘한 기분이 들었습니다. 제가 이미 절반은 쓰고 있던 그림이었거든요.
저는 그동안 맥미니에 '히야'라는 원격 에이전트를 띄워두고, 텔레그램으로 명령을 보내 유튜브 콘텐츠를 자동 발행하고, 매일 밤 옵시디언을 노션으로 미러링하게 시켜왔습니다. 자리를 비워도 컴퓨터가 알아서 일하는 구조죠.
그 자료가 더한 건 딱 한 겹이었습니다. "명령을 타이핑하지 말고, 그냥 전화해서 말로 시켜라." 이 글은 그 개념을 정리하고, 제가 실제로 어떻게 붙여볼지를 함께 적은 기록입니다.
1. 챗봇과 '비서'는 다릅니다
우리가 쓰는 ChatGPT 음성은 똑똑하지만 화면 안에 갇혀 있습니다. 질문에 답할 뿐, 내 다운로드 폴더에 파일을 만들거나 내 캘린더에 일정을 넣지는 못하죠.
반면 '자비스'형 에이전트는 로컬 컴퓨터에 직접 접근합니다. 파일을 쓰고, 터미널 명령을 실행하고, 지난 대화를 기억합니다. 클라우드에 머무는 AI와, 내 운영체제 안에 살면서 실제 일을 하는 AI의 차이입니다.
2. 그래서 뭘 할 수 있나
핵심은 네 가지 영역입니다. 디지털과 현실, 기억과 실행이 교차하는 지점들이죠.
"자비스, 다운로드 폴더에 시 한 편 써두고, 오후 3시에 일본어 학습 일정 잡아줘. 지난 세션 기록도 확인해줘." — 이 한 문장이 파일 생성 · 캘린더 등록 · 메모리 조회로 동시에 풀립니다. 그것도 통화하듯 자연스럽게요.
3. 구조는 의외로 단순합니다 — 삼위일체
복잡해 보이지만 부품은 셋뿐입니다.
두뇌 하나에 입과 귀를 달아주는 셈입니다. 두뇌(에이전트)는 이미 있으니, 저는 입과 귀만 붙이면 됩니다.
4. 전화 한 통이 흐르는 길
음성이 명령이 되고 다시 음성으로 돌아오는 여정입니다.
이 한 바퀴가 거의 실시간으로 돕니다. 그래서 '응답 속도'가 생명입니다.
5. 가장 중요한 결정 — 빠른 두뇌를 골라라
통화 중에는 '똑똑함'보다 '빠름'이 이깁니다. 아무리 답이 좋아도 3초 침묵이 흐르면 대화가 끊기니까요.
6. 그래서 — 나는 이렇게 만들 계획입니다
개념을 제 환경(히야)에 얹는 실제 순서입니다. 똑같이 따라 하실 분들을 위한 체크리스트이기도 합니다.
파일 생성 일정 등록 같은 실제 도구 실행.7. 한 가지, 꼭 짚고 싶은 것
이런 자료들은 끝에 "이제 당신은 자율 직원을 고용한 겁니다"라며 유료 커뮤니티 가입을 권합니다. 멋진 카피지만, 핵심 부품은 모두 공개된 API입니다. 마법이 아니라 조립입니다.
중요한 건 도구가 아니라 '내가 무엇을 자동화하고 싶은가'라는 질문입니다. 저는 콘텐츠 발행과 일정 관리를 맡겼습니다. 수현님은 무엇을 맡기시겠어요?
화면 밖의 진짜 변화는 이제 시작입니다
똑똑한 챗봇을 넘어, 내가 자리를 비운 사이에도
스스로 일하는 동료를 만드는 일.
거창한 코딩보다, 작은 자동화 하나부터.