AI 사용기

[Claude Desktop] Claude MCP로 Windows 입력 제어하기 - 칠전팔기와 실험 후기

또코딩 2026. 5. 30. 18:22

칠전팔기 기록부터 그림판 하트까지 — 설정 이슈와 실험 후기


Claude Desktop에 windows-driver-input-mcp를 연동해 마우스 제어부터 그림판 하트까지 직접 테스트해봤다.

AnyDriver 설정 이슈 해결법과 LLM 에이전트가 빠른 게임에 느릴 수밖에 없는 이유도 함께 정리했습니다.


사용 MCP와 설정

windows-driver-input-mcp 라이브러리를 Claude Desktop에 연동해봤다. 과정은 간단해 보였지만, 예상치 못한 곳에서 막혔다.

  1. 해당 GitHub 레포를 로컬에 clone
  2. Claude Desktop 설정에서 해당 MCP 프로젝트를 바인딩
  3. 실행 — 그런데 안 된다.....?
  4. 가이드대로 env를 설정했는데, AnyDriver가 문제였음...!
  5. 드라이버를 SendInput으로 변경 후 해결!

❌ 문제 — 초기 설정 (AnyDriver)

{
  "WINDOWS_MCP_INPUT_BACKEND": "ibsim-dll",
  "WINDOWS_MCP_INPUT_DRIVER": "AnyDriver",
  "WINDOWS_MCP_RATE_MOVE_HZ": "120",
  "WINDOWS_MCP_RATE_MAX_DELTA": "60",
  "WINDOWS_MCP_RATE_SMOOTH": "0.0",
  "WINDOWS_MCP_RATE_CPS": "8.0",
  "WINDOWS_MCP_RATE_KPS": "12.0",
  "WINDOWS_INPUT_LOG_LEVEL": "INFO"
}

✅ 해결 — 드라이버를 SendInput으로 변경

{
  "WINDOWS_MCP_INPUT_BACKEND": "ibsim-dll",
  "WINDOWS_MCP_INPUT_DRIVER": "SendInput",
  "WINDOWS_MCP_RATE_MOVE_HZ": "120",
  "WINDOWS_MCP_RATE_MAX_DELTA": "60",
  "WINDOWS_MCP_RATE_SMOOTH": "0.0",
  "WINDOWS_MCP_RATE_CPS": "8.0",
  "WINDOWS_MCP_RATE_KPS": "12.0",
  "WINDOWS_INPUT_LOG_LEVEL": "INFO"
}
참고 — 백엔드를 ibsim-ahk로 바꿔봤을 때는 마우스 커서가 아예 이동하지 않았다. 원인은 아직 불명확.

Input 제어 사용기

실제로 어떤 것들을 시킬 수 있는지 테스트해봤다.

마우스 중앙으로 이동

!youtube[r4auRymosb8?si=uj-CU_3p9ymKRn64]

마우스를 화면 중앙으로 이동시키는 기본 동작.

마우스 우측 끝으로 이동 후 우클릭

!youtube[bkyI49cjsiI?si=ykE4hPFQcQjVKkX5]

화면 우측 가장자리로 이동 후 우클릭 수행.

메모장에 글 쓰기

!youtube[PwFItUbD2EI?si=x8yvhNTEdV349cL4]

영어 입력은 정상 동작. 메모장이 꺼져 있으면 명령어로 직접 실행해주기도 함...!!!!!!

한계: 한글 입력은 현재 지원 안 됨.

그림판에 하트 그리게 하기

그림판에 그린 하트

그림판에 직접 그린 하트 (중간에 네트워크 끊겨서 미완성 🫠)

실행 시간이 약 6분으로 굉장히 오래 걸린다. 중간에 네트워크가 끊기면 도중에 멈춰버리는 문제도 있음...하...

간단 미니게임 플레이

게임 플레이 화면 1게임 플레이 화면 2

생각 → 이동 과정을 캡처한 스크린샷

응답 속도가 매우 느리다... 한 번 판단하고 행동하는 데 상당한 시간이 걸림...

결론

windows-driver-input-mcp를 통해 Claude가 실제로 Windows UI를 자율적으로 조작할 수 있다는 걸 확인했다.

마우스 이동/클릭, 앱 실행, 텍스트 입력, 그림 그리기까지 — 생각보다 꽤 많은 걸 할 수 있었다.

 

다만 실용적으로 쓰기엔 아직 몇 가지 한계가 있다.

항목 상태
영어 입력 ✅ 정상 동작
한글 입력 ❌ 미지원
앱 자동 실행 ✅ 정상 동작
응답 속도 ⚠️ 느림 (행동 간 딜레이 큼)
장시간 작업 안정성 ⚠️ 네트워크 끊기면 중단됨

설정 시 AnyDriver 대신 SendInput 드라이버를 잡으면 일단 돌아가긴 한다.
속도와 한글 입력 문제가 해결되면 활용도가 훨씬 높아질 것 같다.

왜 "사람처럼 라이브 게임 플레이"는 어려울까?

미니게임 플레이가 굉장히 느렸던 이유는 단순히 모델 성능의 문제가 아니다.
(하이쿠 쓴다해서 빨라지는건 아님)

 

"사람처럼 라이브로 플레이하는 AI"를 만들려면 사실 세 가지 조건을 동시에 충족해야 한다.

조건 설명 LLM 에이전트 RL 정책 신경망
인터페이스 화면을 보고 키보드로 입력 (내부 변수 X)
인지 미리 짠 if문이 아닌 스스로 판단
속도 60FPS 액션 기준 16ms급 판단-입력

현재 MCP로 쓰는 방식은 LLM 기반 에이전트다.


화면 캡처 → 추론 → 입력의 왕복 구조라 한 번 판단에 수백 ms~수 초가 걸린다.


턴제나 느린 게임이라면 충분하지만, 60FPS 액션에서는 판단이 끝나기도 전에 이미 맞고 있었다...(그래서 많이 죽었었음)


모델을 어떤 걸로 바꿔도 이 왕복 구조 자체는 극복이 안 된다.

세 조건을 동시에 만족하는 현실적인 방법은 비전 기반 강화학습(RL) 뿐인 것 같다.


화면 픽셀을 입력받아 학습된 정책으로 행동을 출력하고, 추론 자체는 1ms 미만이라 60FPS도 거뜬히 따라간다고 한다.
다만 수만~수백만 판의 자가 플레이 훈련이 필요하다는 대가가 있다.

 

결국 LLM 에이전트의 판단은 "적이 셋이니 후퇴하자"처럼 말로 설명되는 느린 추론이고, RL의 판단은 격투게임 고수의 반사신경처럼 빠르지만 설명이 안 되는 반응이다.

 

빠른 액션 게임에서 사람처럼 노는 건 후자에 가깝다.
(사람도 격투게임 할 때 매번 논리적으로 따지고 누르는 게 아니니까...@!)


하지만, 나는 AI가 사용자 컴퓨터에 빠르게 반응할 수 있는 방법을 찾아낼 것이다... To be continued...