본문으로 건너뛰기

컴퓨터 사용 (macOS)

Hermes Agent는 Mac의 데스크톱을 구동 할 수 있습니다. - 클릭, 태핑, 스크롤, 드래그 - 배경에서. 커서가 이동하지 않습니다, 키보드 초점 변경하지 않고 macOS는 스페이스를 전환하지 않습니다. 당신과 에이전트 동일한 기계에 co 일.

대부분의 컴퓨터 사용 통합과는 달리, ** 모든 도구 기능 model** — Claude, GPT, Gemini 또는 로컬 vLLM 엔드포인트의 오픈 모델. 걱정할 필요가 없습니다.

어떻게 작동하나요?

computer_use 도구 모음은 MCP를 stdio에서 cua-driver로 말하며, SkyLight 개인 SPI를 사용하는 macOS 드라이버 (SLEventPostToPid, SLPSPostEventRecordTo)와 _AXObserverAddNotificationAndCheckRemote 접근성 SPI에:

  • 타겟 프로세스에 직접 합성 된 이벤트를 게시 - 숨겨진 이벤트 탭 없음, cursor 경고 없음.
  • Windows를 올리지 않고도 Flip AppKit active-state - 공간 전환 없음.
  • 창이 있을 때 Chromium/Electron accessibility tree를 살아있게 유지하세요 관련 기사

이 조합은 OpenAI의 Codex "background Computer-use"선입니다. cua-driver는 오픈 소스와 동일합니다.

지원하다

어떤 경로가 가장 편리한 선택 — 둘 다 동일한 업스트림 설치 프로그램을 실행:

** 옵션 1: 전용 CLI 명령 (최대 직접). * 설명 이름

hermes computer-use install

이 fetches 및 업스트림 cua-driver 설치 프로그램을 실행: curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh입니다. hermes computer-use status를 사용하여 설치를 확인합니다.

** 옵션 2: 도구가 상호 작용적으로 활성화됩니다. 더 보기

  1. 실행 hermes tools, 선택 🖱️ Computer Use (macOS)cua-driver (background).
  2. 설정은 업스트림 설치 프로그램을 실행합니다 (옵션 1).

설치 후, 어떤 경로에 상관없이:

  1. 신속한 경우 Grant macOS 권한:
    • 시스템 설정 → 개인정보 및 보안 → 접근성 → 허용 터미널 (또는 Hermes 앱).
    • 시스템 설정 → 개인정보 및 보안 → 화면 녹화 → 허용 같은.
  2. 도구로 세션을 시작:
    hermes -t computer_use chat

또는 computer_use~/.hermes/config.yaml에서 사용 가능한 툴에 추가하세요.

최신 상태로 cua-driver 유지

cua-driver 프로젝트는 정기적으로 수정합니다 (예: v0.1.6는 Safari를 고정 UTM 워크플로우의 창 초점 버그). Hermes는 2에서 이진을 재생합니다 장소 그래서 당신은 stale 릴리스에 갇혀하지 않습니다:

  • hermes update — 업데이트시 그 자체, if cua-driver 이다 PATH에서 업스트림 설치자는 업데이트의 끝에서 다시 실행합니다. no-op for non-macOS users and for users without cua-driver 설치.
  • hermes computer-use install --upgrade - 수동 파워 리프레시. cua-driver가 있는지 여부에 관계없이 업스트림 설치 프로그램을 실행합니다 이미 설치되었습니다. 당신이 없는 최신 고침을 원할 때 이것을 사용하세요 다음 에이전트 업데이트를 기다리고 있습니다.

hermes computer-use status는 옆에 설치된 버전을 보여줍니다 이진 경로.

빠른 예

사용자 프롬프트: *"스트라이프에서 최신 이메일과 그들이 할 일을 원하는 요약." * 이름

에이전트의 계획:

  1. computer_use(action="capture", mode="som", app="Mail") - 가져오기 각 사이드 바 항목, 도구 모음 버튼, 메시지와 메일의 스크린 샷 행 번호.
  2. computer_use(action="click", element=14) - 검색 필드를 클릭 (캡쳐에서 #14 등급).
  3. computer_use(action="type", text="from:stripe")
  4. computer_use(action="key", keys="return", capture_after=True) - 제출 새로운 스크린 샷을 얻을.
  5. 상단 결과를 클릭, 몸, 요약을 읽으십시오.

이 모든 동안, 당신의 커서는 당신이 그것을 왼쪽과 메일을 결코 유지 오시는 길.

제공자 겸용성

회사 소개비전?작품?지원하다
Anthropic (클래드 Sonnet/Opus 3+)제일 전반적인; SOM + 익지않는 협조.
OpenRouter (모든 비전 모델)Multi-part 도구 메시지 지원.
OpenAI (GPT-4+, GPT-5)를위와 같.
로컬 vLLM / LM 스튜디오 (비전 모델)모델이 멀티 파트 도구 콘텐츠를 지원합니다.
텍스트 전용 모델✅ (급료)mode="ax"를 사용하여 접근성 전용 작동.

스크린 샷은 OpenAI-style image_url로 도구 결과와 인라인 전송 부품. Anthropic의 경우 어댑터는 기본 tool_result로 변환합니다 이미지 블록.

설명

Hermes는 다 층 난간을 적용합니다:

  • 파괴적인 행동 (클릭, 유형, 드래그, 스크롤, 키, focus_app)이 필요 승인 - CLI 대화 상자를 통해 대화식으로 또는 messaging-platform 승인 단추.
  • 도구 수준에서 하드 블록 키 콤보: 빈 쓰레기, 힘 삭제, 잠금 화면, 로그 아웃, 힘 로그 아웃.
  • Hard-blocked 유형 본: curl | bash, sudo rm -rf /, 포크 폭탄, 기타.
  • 에이전트의 시스템 프롬프트는 명시적으로 알려줍니다. 권한이 없는 경우 대화 상자, 암호를 입력하지 않고, 다음 지침이 내장되지 않음 스크린 샷.

approvals.mode: manual 와 쌍 ~/.hermes/config.yaml 는 모든 작업을 확인한 경우입니다.

토큰 효율

스크린 샷 비싼. Hermes는 낙관의 4개의 층을 적용합니다:

  • **Screenshot eviction ** - Anthropic 어댑터는 3 가지 만 유지 컨텍스트의 최근 스크린 샷; 이전 것들은 '[screenshot 제거 컨텍스트를 저장하려면]` placeholders.
  • Client-side Compression pruning - 컨텍스트 컴프레서 감지 multimodal 공구 결과 및 스트립 이미지는 오래된 것에서 분해합니다.
  • **Image-aware 토큰 추정 ** - 각 이미지는 ~1500 토큰으로 계산됩니다 base64 char 길이 대신 (Anthropic's flat rate).
  • **서버 사이드 컨텍스트 편집 (Anthropic only) ** — 활성화 될 때 어댑터는 HERMES TOKEN 00000 을 통해 HERMES TOKEN 00001 를 활성화합니다 Anthropic의 API는 오래된 도구 결과 서버 측을 삭제합니다.

1568 × 900 디스플레이의 20 회 세션은 일반적으로 ~ 토큰을 비용 스크린 샷 컨텍스트의 ~.

계정 관리

  • **macOS 만. ** cua-driver는 개인 Apple SPI를 사용하여 존재하지 않습니다 리눅스 또는 Windows. 크로스 플랫폼 GUI 자동화를 위해 browser를 사용하세요 도구.
  • 개인 SPI 위험. Apple은 SkyLight의 상징 표면을 어느 곳에서나 바꿀 수 있습니다 OS 업데이트. HERMES_CUA_DRIVER_VERSION로 드라이버 버전을 핀 env var macOS 범프를 통해 재현성을 원하는 경우.
  • 정보. 배경 모드는 전경보다 느립니다. — SkyLight-routed 이벤트는 ~5-20ms 대 직접 숨겨지은 게시물을 찍습니다. 설명 에이전트 속도 클릭에 대 한 눈에 띄는; 보고할 수 있는 경우 기록 속도 실행.
  • 키보드 암호 항목 없음. type에는 하드 블록 패턴이 있습니다 command-shell payloads; 암호를 위해, 시스템의 자동 채우기를 사용합니다.

제품 설명

드라이버 바이너리 경로 (tests / CI)를 무시:

HERMES_CUA_DRIVER_CMD=/opt/homebrew/bin/cua-driver
HERMES_CUA_DRIVER_VERSION=0.5.0 # optional pin

backend를 완전히 교환하세요 (시험을 위해):

HERMES_COMPUTER_USE_BACKEND=noop   # records calls, no side effects

문제 해결

computer_use backend unavailable: cua-driver is not installed — 실행 hermes computer-use install는 cua-driver 바이너리를 태우거나 실행합니다 hermes tools는 컴퓨터 사용 툴킷을 가능하게 합니다.

**클립 및 확인이 없습니다. 당신을 modal 입력을 차단할 수 없습니다. escape 또는 닫히기 버튼.

Element indices는 stale입니다. — SOM 인덱스는 유효하지 않습니다 다음 capture. 어떤 국가 변화 활동 후에 Re-capture.

"타입 텍스트에서 차단된 패턴"type에 시도한 텍스트 위험-shell-pattern 목록과 일치합니다. 명령을 실행하거나 관련 기사.

더 보기