컴퓨터 사용 (macOS)
Hermes Agent는 Mac의 데스크톱을 구동 할 수 있습니다. - 클릭, 태핑, 스크롤, 드래그 - 배경에서. 커서가 이동하지 않습니다, 키보드 초점 변경하지 않고 macOS는 스페이스를 전환하지 않습니다. 당신과 에이전트 동일한 기계에 co 일.
대부분의 컴퓨터 사용 통합과는 달리, ** 모든 도구 기능 model** — Claude, GPT, Gemini 또는 로컬 vLLM 엔드포인트의 오픈 모델. 걱정할 필요가 없습니다.
어떻게 작동하나요?
computer_use 도구 모음은 MCP를 stdio에서 cua-driver로 말하며,
SkyLight 개인 SPI를 사용하는 macOS 드라이버 (SLEventPostToPid,
SLPSPostEventRecordTo)와 _AXObserverAddNotificationAndCheckRemote
접근성 SPI에:
- 타겟 프로세스에 직접 합성 된 이벤트를 게시 - 숨겨진 이벤트 탭 없음, cursor 경고 없음.
- Windows를 올리지 않고도 Flip AppKit active-state - 공간 전환 없음.
- 창이 있을 때 Chromium/Electron accessibility tree를 살아있게 유지하세요 관련 기사
이 조합은 OpenAI의 Codex "background Computer-use"선입니다. cua-driver는 오픈 소스와 동일합니다.
지원하다
어떤 경로가 가장 편리한 선택 — 둘 다 동일한 업스트림 설치 프로그램을 실행:
** 옵션 1: 전용 CLI 명령 (최대 직접). * 설명 이름
hermes computer-use install
이 fetches 및 업스트림 cua-driver 설치 프로그램을 실행:
curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh입니다.
hermes computer-use status를 사용하여 설치를 확인합니다.
** 옵션 2: 도구가 상호 작용적으로 활성화됩니다. 더 보기
- 실행
hermes tools, 선택🖱️ Computer Use (macOS)→cua-driver (background). - 설정은 업스트림 설치 프로그램을 실행합니다 (옵션 1).
설치 후, 어떤 경로에 상관없이:
- 신속한 경우 Grant macOS 권한:
- 시스템 설정 → 개인정보 및 보안 → 접근성 → 허용 터미널 (또는 Hermes 앱).
- 시스템 설정 → 개인정보 및 보안 → 화면 녹화 → 허용 같은.
- 도구로 세션을 시작:
hermes -t computer_use chat
또는 computer_use를 ~/.hermes/config.yaml에서 사용 가능한 툴에 추가하세요.
최신 상태로 cua-driver 유지
cua-driver 프로젝트는 정기적으로 수정합니다 (예: v0.1.6는 Safari를 고정 UTM 워크플로우의 창 초점 버그). Hermes는 2에서 이진을 재생합니다 장소 그래서 당신은 stale 릴리스에 갇혀하지 않습니다:
hermes update— 업데이트시 그 자체, ifcua-driver이다 PATH에서 업스트림 설치자는 업데이트의 끝에서 다시 실행합니다. no-op for non-macOS users and for users without cua-driver 설치.hermes computer-use install --upgrade- 수동 파워 리프레시. cua-driver가 있는지 여부에 관계없이 업스트림 설치 프로그램을 실행합니다 이미 설치되었습니다. 당신이 없는 최신 고침을 원할 때 이것을 사용하세요 다음 에이전트 업데이트를 기다리고 있습니다.
hermes computer-use status는 옆에 설치된 버전을 보여줍니다
이진 경로.
빠른 예
사용자 프롬프트: *"스트라이프에서 최신 이메일과 그들이 할 일을 원하는 요약." * 이름
에이전트의 계획:
computer_use(action="capture", mode="som", app="Mail")- 가져오기 각 사이드 바 항목, 도구 모음 버튼, 메시지와 메일의 스크린 샷 행 번호.computer_use(action="click", element=14)- 검색 필드를 클릭 (캡쳐에서 #14 등급).computer_use(action="type", text="from:stripe")computer_use(action="key", keys="return", capture_after=True)- 제출 새로운 스크린 샷을 얻을.- 상단 결과를 클릭, 몸, 요약을 읽으십시오.
이 모든 동안, 당신의 커서는 당신이 그것을 왼쪽과 메일을 결코 유지 오시는 길.
제공자 겸용성
| 회사 소개 | 비전? | 작품? | 지원하다 |
|---|---|---|---|
| Anthropic (클래드 Sonnet/Opus 3+) | ✅ | ✅ | 제일 전반적인; SOM + 익지않는 협조. |
| OpenRouter (모든 비전 모델) | ✅ | ✅ | Multi-part 도구 메시지 지원. |
| OpenAI (GPT-4+, GPT-5)를 | ✅ | ✅ | 위와 같. |
| 로컬 vLLM / LM 스튜디오 (비전 모델) | ✅ | ✅ | 모델이 멀티 파트 도구 콘텐츠를 지원합니다. |
| 텍스트 전용 모델 | ❌ | ✅ (급료) | mode="ax"를 사용하여 접근성 전용 작동. |
스크린 샷은 OpenAI-style image_url로 도구 결과와 인라인 전송
부품. Anthropic의 경우 어댑터는 기본 tool_result로 변환합니다
이미지 블록.
설명
Hermes는 다 층 난간을 적용합니다:
- 파괴적인 행동 (클릭, 유형, 드래그, 스크롤, 키, focus_app)이 필요 승인 - CLI 대화 상자를 통해 대화식으로 또는 messaging-platform 승인 단추.
- 도구 수준에서 하드 블록 키 콤보: 빈 쓰레기, 힘 삭제, 잠금 화면, 로그 아웃, 힘 로그 아웃.
- Hard-blocked 유형 본:
curl | bash,sudo rm -rf /, 포크 폭탄, 기타. - 에이전트의 시스템 프롬프트는 명시적으로 알려줍니다. 권한이 없는 경우 대화 상자, 암호를 입력하지 않고, 다음 지침이 내장되지 않음 스크린 샷.
approvals.mode: manual 와 쌍 ~/.hermes/config.yaml 는 모든 작업을 확인한 경우입니다.
토큰 효율
스크린 샷 비싼. Hermes는 낙관의 4개의 층을 적용합니다:
- **Screenshot eviction ** - Anthropic 어댑터는 3 가지 만 유지 컨텍스트의 최근 스크린 샷; 이전 것들은 '[screenshot 제거 컨텍스트를 저장하려면]` placeholders.
- Client-side Compression pruning - 컨텍스트 컴프레서 감지 multimodal 공구 결과 및 스트립 이미지는 오래된 것에서 분해합니다.
- **Image-aware 토큰 추정 ** - 각 이미지는 ~1500 토큰으로 계산됩니다 base64 char 길이 대신 (Anthropic's flat rate).
- **서버 사이드 컨텍스트 편집 (Anthropic only) ** — 활성화 될 때 어댑터는 HERMES TOKEN 00000 을 통해 HERMES TOKEN 00001 를 활성화합니다 Anthropic의 API는 오래된 도구 결과 서버 측을 삭제합니다.
1568 × 900 디스플레이의 20 회 세션은 일반적으로 ~ 토큰을 비용 스크린 샷 컨텍스트의 ~.
계정 관리
- **macOS 만. ** cua-driver는 개인 Apple SPI를 사용하여 존재하지 않습니다
리눅스 또는 Windows. 크로스 플랫폼 GUI 자동화를 위해
browser를 사용하세요 도구. - 개인 SPI 위험. Apple은 SkyLight의 상징 표면을 어느 곳에서나 바꿀 수 있습니다
OS 업데이트.
HERMES_CUA_DRIVER_VERSION로 드라이버 버전을 핀 env var macOS 범프를 통해 재현성을 원하는 경우. - 정보. 배경 모드는 전경보다 느립니다. — SkyLight-routed 이벤트는 ~5-20ms 대 직접 숨겨지은 게시물을 찍습니다. 설명 에이전트 속도 클릭에 대 한 눈에 띄는; 보고할 수 있는 경우 기록 속도 실행.
- 키보드 암호 항목 없음.
type에는 하드 블록 패턴이 있습니다 command-shell payloads; 암호를 위해, 시스템의 자동 채우기를 사용합니다.
제품 설명
드라이버 바이너리 경로 (tests / CI)를 무시:
HERMES_CUA_DRIVER_CMD=/opt/homebrew/bin/cua-driver
HERMES_CUA_DRIVER_VERSION=0.5.0 # optional pin
backend를 완전히 교환하세요 (시험을 위해):
HERMES_COMPUTER_USE_BACKEND=noop # records calls, no side effects
문제 해결
computer_use backend unavailable: cua-driver is not installed — 실행
hermes computer-use install는 cua-driver 바이너리를 태우거나 실행합니다
hermes tools는 컴퓨터 사용 툴킷을 가능하게 합니다.
**클립 및 확인이 없습니다. 당신을 modal
입력을 차단할 수 없습니다. escape 또는 닫히기
버튼.
Element indices는 stale입니다. — SOM 인덱스는 유효하지 않습니다
다음 capture. 어떤 국가 변화 활동 후에 Re-capture.
"타입 텍스트에서 차단된 패턴" — type에 시도한 텍스트
위험-shell-pattern 목록과 일치합니다. 명령을 실행하거나
관련 기사.
더 보기
- Universal 기술:
macos-computer-use - cua-driver 소스 (trycua/cua)
- Browser Automation 크로스 플랫폼 웹 작업을 위해.