칠전팔기 기록부터 그림판 하트까지 — 설정 이슈와 실험 후기
Claude Desktop에 windows-driver-input-mcp를 연동해 마우스 제어부터 그림판 하트까지 직접 테스트해봤다.
AnyDriver 설정 이슈 해결법과 LLM 에이전트가 빠른 게임에 느릴 수밖에 없는 이유도 함께 정리했습니다.
사용 MCP와 설정
windows-driver-input-mcp 라이브러리를 Claude Desktop에 연동해봤다. 과정은 간단해 보였지만, 예상치 못한 곳에서 막혔다.
- 해당 GitHub 레포를 로컬에
clone - Claude Desktop 설정에서 해당 MCP 프로젝트를 바인딩
- 실행 — 그런데 안 된다.....?
- 가이드대로
env를 설정했는데,AnyDriver가 문제였음...! - 드라이버를
SendInput으로 변경 후 해결!
❌ 문제 — 초기 설정 (AnyDriver)
{
"WINDOWS_MCP_INPUT_BACKEND": "ibsim-dll",
"WINDOWS_MCP_INPUT_DRIVER": "AnyDriver",
"WINDOWS_MCP_RATE_MOVE_HZ": "120",
"WINDOWS_MCP_RATE_MAX_DELTA": "60",
"WINDOWS_MCP_RATE_SMOOTH": "0.0",
"WINDOWS_MCP_RATE_CPS": "8.0",
"WINDOWS_MCP_RATE_KPS": "12.0",
"WINDOWS_INPUT_LOG_LEVEL": "INFO"
}
✅ 해결 — 드라이버를 SendInput으로 변경
{
"WINDOWS_MCP_INPUT_BACKEND": "ibsim-dll",
"WINDOWS_MCP_INPUT_DRIVER": "SendInput",
"WINDOWS_MCP_RATE_MOVE_HZ": "120",
"WINDOWS_MCP_RATE_MAX_DELTA": "60",
"WINDOWS_MCP_RATE_SMOOTH": "0.0",
"WINDOWS_MCP_RATE_CPS": "8.0",
"WINDOWS_MCP_RATE_KPS": "12.0",
"WINDOWS_INPUT_LOG_LEVEL": "INFO"
}
ibsim-ahk로 바꿔봤을 때는 마우스 커서가 아예 이동하지 않았다. 원인은 아직 불명확.Input 제어 사용기
실제로 어떤 것들을 시킬 수 있는지 테스트해봤다.
마우스 중앙으로 이동
!youtube[r4auRymosb8?si=uj-CU_3p9ymKRn64]
마우스를 화면 중앙으로 이동시키는 기본 동작.
마우스 우측 끝으로 이동 후 우클릭
!youtube[bkyI49cjsiI?si=ykE4hPFQcQjVKkX5]
화면 우측 가장자리로 이동 후 우클릭 수행.
메모장에 글 쓰기
!youtube[PwFItUbD2EI?si=x8yvhNTEdV349cL4]
영어 입력은 정상 동작. 메모장이 꺼져 있으면 명령어로 직접 실행해주기도 함...!!!!!!
그림판에 하트 그리게 하기

그림판에 직접 그린 하트 (중간에 네트워크 끊겨서 미완성 🫠)
간단 미니게임 플레이


생각 → 이동 과정을 캡처한 스크린샷
결론
windows-driver-input-mcp를 통해 Claude가 실제로 Windows UI를 자율적으로 조작할 수 있다는 걸 확인했다.
마우스 이동/클릭, 앱 실행, 텍스트 입력, 그림 그리기까지 — 생각보다 꽤 많은 걸 할 수 있었다.
다만 실용적으로 쓰기엔 아직 몇 가지 한계가 있다.
| 항목 | 상태 |
|---|---|
| 영어 입력 | ✅ 정상 동작 |
| 한글 입력 | ❌ 미지원 |
| 앱 자동 실행 | ✅ 정상 동작 |
| 응답 속도 | ⚠️ 느림 (행동 간 딜레이 큼) |
| 장시간 작업 안정성 | ⚠️ 네트워크 끊기면 중단됨 |
설정 시 AnyDriver 대신 SendInput 드라이버를 잡으면 일단 돌아가긴 한다.
속도와 한글 입력 문제가 해결되면 활용도가 훨씬 높아질 것 같다.
왜 "사람처럼 라이브 게임 플레이"는 어려울까?
미니게임 플레이가 굉장히 느렸던 이유는 단순히 모델 성능의 문제가 아니다.
(하이쿠 쓴다해서 빨라지는건 아님)
"사람처럼 라이브로 플레이하는 AI"를 만들려면 사실 세 가지 조건을 동시에 충족해야 한다.
| 조건 | 설명 | LLM 에이전트 | RL 정책 신경망 |
|---|---|---|---|
| 인터페이스 | 화면을 보고 키보드로 입력 (내부 변수 X) | ✅ | ✅ |
| 인지 | 미리 짠 if문이 아닌 스스로 판단 | ✅ | ✅ |
| 속도 | 60FPS 액션 기준 16ms급 판단-입력 | ❌ | ✅ |
현재 MCP로 쓰는 방식은 LLM 기반 에이전트다.
화면 캡처 → 추론 → 입력의 왕복 구조라 한 번 판단에 수백 ms~수 초가 걸린다.
턴제나 느린 게임이라면 충분하지만, 60FPS 액션에서는 판단이 끝나기도 전에 이미 맞고 있었다...(그래서 많이 죽었었음)
모델을 어떤 걸로 바꿔도 이 왕복 구조 자체는 극복이 안 된다.
세 조건을 동시에 만족하는 현실적인 방법은 비전 기반 강화학습(RL) 뿐인 것 같다.
화면 픽셀을 입력받아 학습된 정책으로 행동을 출력하고, 추론 자체는 1ms 미만이라 60FPS도 거뜬히 따라간다고 한다.
다만 수만~수백만 판의 자가 플레이 훈련이 필요하다는 대가가 있다.
결국 LLM 에이전트의 판단은 "적이 셋이니 후퇴하자"처럼 말로 설명되는 느린 추론이고, RL의 판단은 격투게임 고수의 반사신경처럼 빠르지만 설명이 안 되는 반응이다.
빠른 액션 게임에서 사람처럼 노는 건 후자에 가깝다.
(사람도 격투게임 할 때 매번 논리적으로 따지고 누르는 게 아니니까...@!)
'AI 사용기' 카테고리의 다른 글
| [Claude Code] CLAUDE.md가 수백 줄이 되면 생기는 일, 그리고 ".claude/rules/" (0) | 2026.05.30 |
|---|