AI 제공자

anchor alias

AI 제공자

이 페이지는 Hermes Agent에서 추론 제공자를 설정하는 방법을 다룹니다. OpenRouter와 Anthropic 같은 클라우드 API, Ollama와 vLLM 같은 자체 호스팅 엔드포인트, 고급 라우팅과 fallback 구성까지 포함합니다. Hermes를 사용하려면 최소 하나의 제공자가 구성되어 있어야 합니다.

추론 제공자

LLM에 연결하려면 최소 하나의 제공자가 필요합니다. 제공자와 모델을 대화식으로 전환하거나 직접 구성하려면 hermes model을 사용하세요.

제공자	설정
Nous Portal	`hermes model`(OAuth, 구독 기반)
OpenAI Codex	`hermes model`(ChatGPT OAuth, Codex 모델 사용)
GitHub Copilot	`hermes model`(OAuth 디바이스 코드 흐름, `COPILOT_GITHUB_TOKEN`, `GH_TOKEN` 또는 `gh auth token`)
GitHub Copilot ACP	`hermes model`(로컬 `copilot --acp --stdio` 실행)
Anthropic	`hermes model`(Claude Max + OAuth 추가 사용 크레딧, Anthropic API 키 또는 수동 설정 토큰도 지원. 아래 참고 참조)
OpenRouter	`OPENROUTER_API_KEY`(`~/.hermes/.env`)
NovitaAI	`NOVITA_API_KEY`(제공자: `novita`, 200개 이상 모델, Model API, Agent Sandbox, GPU Cloud)
AI 게이트웨이	`AI_GATEWAY_API_KEY`(제공자: `ai-gateway`)
z.ai / GLM	`GLM_API_KEY`(제공자: `zai`)
Kimi / Moonshot	`KIMI_API_KEY`(제공자: `kimi-coding`)
Kimi / Moonshot China	`KIMI_CN_API_KEY`(제공자: `kimi-coding-cn`, 별칭: `kimi-cn`, `moonshot-cn`)
Arcee AI	`ARCEEAI_API_KEY`(제공자: `arcee`, 별칭: `arcee-ai`, `arceeai`)
GMI Cloud	`GMI_API_KEY`(제공자: `gmi`, 별칭: `gmi-cloud`, `gmicloud`)
미니맥스	`MINIMAX_API_KEY`(제공자: `minimax`)
미니맥스 차이나	`MINIMAX_CN_API_KEY`(제공자: `minimax-cn`)
알리바바 클라우드	`DASHSCOPE_API_KEY`(제공자: `alibaba`)
알리바바 코딩 계획	`DASHSCOPE_API_KEY`(제공자: `alibaba-coding-plan`, 별칭: `alibaba_coding`) — 별도의 청구 SKU, 다른 엔드포인트
킬로 코드	`KILOCODE_API_KEY`(제공자: `kilocode`)
샤오미 미모	`XIAOMI_API_KEY`(제공자: `xiaomi`, 별칭: `mimo`, `xiaomi-mimo`)
텐센트 토큰허브	`TOKENHUB_API_KEY`(제공자: `tencent-tokenhub`, 별칭: `tencent`, `tokenhub`, `tencentmaas`)
오픈코드 젠	`OPENCODE_ZEN_API_KEY`(제공자: `opencode-zen`)
오픈코드 고	`OPENCODE_GO_API_KEY`(제공자: `opencode-go`)
딥시크	`DEEPSEEK_API_KEY`(제공자: `deepseek`)
껴안는 얼굴	`HF_TOKEN`(제공자: `huggingface`, 별칭: `hf`)
구글/제미니	`~/.hermes/.env`(제공자: `gemini`)의 `GOOGLE_API_KEY`(또는 `GEMINI_API_KEY`)
Google Gemini(OAuth)	`hermes model` → "Google Gemini (OAuth)" (제공자: `google-gemini-cli`, 무료 등급 지원, 브라우저 PKCE 로그인)
LM 스튜디오	`hermes model` → "LM Studio"(제공자: `lmstudio`, 선택 사항 `LM_API_KEY`)
커스텀 엔드포인트	`hermes model` → "사용자 정의 엔드포인트" 선택(`config.yaml`에 저장됨)

공식 API 키 경로는 전용 Google Gemini 가이드를 참조하세요.

Model key alias

model: 구성 섹션에서 default: 또는 model:을 모델 ID의 키 이름으로 사용할 수 있습니다. model: { default: my-model } 및 model: { model: my-model }은 모두 동일하게 작동합니다.

OAuth를 통한 Google Gemini(`google-gemini-cli`)

google-gemini-cli 제공자는 Google의 Cloud Code Assist 백엔드를 사용합니다. Google의 자체 gemini-cli 도구가 사용하는 것과 동일한 API입니다. 이는 두 가지 모두를 지원합니다. 무료 등급(개인 계정에 대한 넉넉한 일일 할당량) 및 유료 등급 (GCP 프로젝트를 통한 표준/기업).

빠른 시작:

hermes model
# → pick "Google Gemini (OAuth)"
# → see policy warning, confirm
# → browser opens to accounts.google.com, sign in
# → done — Hermes auto-provisions your free tier on first request

Hermes는 기본적으로 Google의 공개 gemini-cli 데스크톱 OAuth 클라이언트를 제공합니다. Google이 오픈 소스 gemini-cli에 포함하는 것과 동일한 자격 증명입니다. 데스크탑 OAuth 클라이언트는 기밀이 아닙니다(PKCE가 보안을 제공함). 당신은하지 않습니다 gemini-cli을 설치하거나 자체 GCP OAuth 클라이언트를 등록해야 합니다.

인증 작동 방식:

accounts.google.com에 대한 PKCE 인증 코드 흐름
http://127.0.0.1:8085/oauth2callback의 브라우저 콜백(사용 중인 경우 임시 포트 대체 사용)
~/.hermes/auth/google_oauth.json에 저장된 토큰(chmod 0600, 원자 쓰기, 크로스 프로세스 fcntl 잠금)
만료 60초 전에 자동 새로 고침
헤드리스 환경(SSH, HERMES_HEADLESS=1) → 붙여넣기 모드 대체
진행 중인 새로 고침 중복 제거 - 두 개의 동시 요청이 두 번 새로 고쳐지지 않습니다.
invalid_grant(새로 고침 취소) → 자격 증명 파일이 지워지고 사용자에게 다시 로그인하라는 메시지가 표시됨

추론 작동 방식:

트래픽은 https://cloudcode-pa.googleapis.com/v1internal:generateContent으로 이동합니다. (또는 스트리밍의 경우 :streamGenerateContent?alt=sse), 유료 v1beta/openai 엔드포인트가 아님
요청 본문이 {project, model, user_prompt_id, request} 래핑되었습니다.
OpenAI 모양의 messages, tools, tool_choice이 Gemini의 네이티브로 번역되었습니다. contents, tools.functionDeclarations, toolConfig 모양
응답은 OpenAI 형태로 다시 변환되므로 Hermes의 나머지 부분은 변경되지 않고 작동합니다.

계층 및 프로젝트 ID:

당신의 상황	해야 할 일
개인 Google 계정, 무료 등급을 원함	아무것도 — 로그인하고 채팅을 시작하세요
Workspace / Standard / Enterprise 계정	`HERMES_GEMINI_PROJECT_ID` 또는 `GOOGLE_CLOUD_PROJECT`을 GCP 프로젝트 ID로 설정합니다.
VPC-SC로 보호되는 조직	Hermes는 `SECURITY_POLICY_VIOLATED`을 감지하고 자동으로 `standard-tier`을 강제합니다.

무료 등급은 처음 사용할 때 Google 관리 프로젝트를 자동으로 프로비저닝합니다. GCP 설정이 필요하지 않습니다.

할당량 모니터링:

/gquota

진행률 표시줄과 함께 모델당 남은 Code Assist 할당량을 표시합니다.

Gemini Code Assist quota  (project: 123-abc)

  gemini-2.5-pro                      ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓░░░░   85%
  gemini-2.5-flash [input]            ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓░░   92%

Policy risk

Google은 타사 소프트웨어와 함께 Gemini CLI OAuth 클라이언트를 사용하는 것을 고려합니다. 정책 위반. 일부 사용자가 계정 제한을 보고했습니다. 위험이 가장 낮은 경우 경험이 있는 경우 대신 gemini 제공자를 통해 자체 API 키를 사용하세요. 헤르메스 쇼 사전 경고가 발생하며 OAuth가 시작되기 전에 명시적인 확인이 필요합니다.

맞춤 OAuth 클라이언트(선택사항):

자체 Google OAuth 클라이언트를 등록하려는 경우(예: 할당량 유지) 자신의 GCP 프로젝트로 범위가 지정된 동의 — 설정:

HERMES_GEMINI_CLIENT_ID=your-client.apps.googleusercontent.com
HERMES_GEMINI_CLIENT_SECRET=...   # optional for Desktop clients

데스크톱 앱 OAuth 클라이언트 등록: console.cloud.google.com/apis/credentials 생성 언어 API가 활성화되었습니다.

Codex Note

OpenAI Codex 제공자는 장치 코드를 통해 인증합니다(URL 열기, 코드 입력). Hermes는 결과 자격 증명을 ~/.hermes/auth.json 아래의 자체 인증 저장소에 저장하고 존재하는 경우 ~/.codex/auth.json에서 기존 Codex CLI 자격 증명을 가져올 수 있습니다. Codex CLI 설치가 필요하지 않습니다.

경고

Nous Portal, Codex 또는 사용자 정의 엔드포인트를 사용하는 경우에도 일부 도구(비전, 웹 요약, MoA)는 별도의 "보조" 모델을 사용합니다. 기본적으로(auxiliary.*.provider: "auto") Hermes는 이러한 작업을 기본 채팅 모델(hermes model에서 선택한 것과 동일한 모델)로 라우팅합니다. 각 작업을 개별적으로 재정의하여 더 저렴하고 빠른 모델(예: OpenRouter의 Gemini Flash)로 라우팅할 수 있습니다. 보조 모델을 참조하세요.

Nous Tool Gateway

유료 Nous Portal 가입자는 구독을 통해 라우팅되는 웹 검색, 이미지 생성, TTS 및 브라우저 자동화인 **도구 게이트웨이**에도 액세스할 수 있습니다. 추가 API 키가 필요하지 않습니다. hermes model 설정 중에 자동으로 제공되거나 나중에 hermes tools을 사용하여 활성화할 수 있습니다.

모델 관리를 위한 두 가지 명령

Hermes에는 다양한 목적으로 사용되는 두 가지 모델 명령이 있습니다.

명령	실행할 곳	기능
`hermes model`	사용자의 터미널(세션 외부)	전체 설정 마법사 - 제공자 추가, OAuth 실행, API 키 입력, 엔드포인트 구성
`/model`	Hermes 채팅 세션 내부	이미 구성된 제공업체와 모델 간 빠른 전환

아직 설정하지 않은 제공자로 전환하려는 경우(예: OpenRouter만 구성되어 있고 Anthropic을 사용하려는 경우) /model이 아닌 hermes model이 필요합니다. 먼저 세션을 종료하고(Ctrl+C 또는 /quit) hermes model을 실행하고 제공자 설정을 완료한 다음 새 세션을 시작합니다.

인류학(원주민)

Anthropic API를 통해 직접 Claude 모델을 사용하세요. OpenRouter 프록시가 필요하지 않습니다. 세 가지 인증 방법을 지원합니다.

Requires Claude Max "extra usage" credits

hermes model → Anthropic OAuth(또는 hermes auth add anthropic --type oauth)를 통해 인증하면 Hermes는 Anthropic 계정에 대해 Claude Code로 라우팅합니다. Claude Max 플랜을 사용 중이고 추가 사용량 크레딧을 구매한 경우에만 작동합니다. 기본 Max 플랜 허용량(기본적으로 Claude Code에 포함된 사용량)은 Hermes에서 소비되지 않으며 위에 추가한 추가/초과 크레딧만 소비됩니다. Claude Pro 가입자는 이 경로를 사용할 수 없습니다.

Max + 추가 크레딧이 없는 경우 대신 ANTHROPIC_API_KEY을 사용하세요. 요청은 해당 키 조직에 대해 토큰당 지불로 청구됩니다(Claude 구독과 관계없이 표준 API 가격).

# With an API key (pay-per-token)
export ANTHROPIC_API_KEY=***
hermes chat --provider anthropic --model claude-sonnet-4-6

# Preferred: authenticate through `hermes model`
# Hermes will use Claude Code's credential store directly when available
hermes model

# Manual override with a setup-token (fallback / legacy)
export ANTHROPIC_TOKEN=***  # setup-token or manual OAuth token
hermes chat --provider anthropic

# Auto-detect Claude Code credentials (if you already use Claude Code)
hermes chat --provider anthropic  # reads Claude Code credential files automatically
``hermes model`을 통해 Anthropic OAuth를 선택하면 Hermes는 토큰을 `~/.hermes/.env`에 복사하는 것보다 Claude Code의 자체 자격 증명 저장소를 선호합니다. 그러면 새로 고침 가능한 Claude 자격 증명을 새로 고칠 수 있게 유지됩니다.

또는 영구적으로 설정하십시오.
```yaml
model:
  provider: "anthropic"
  default: "claude-sonnet-4-6"

Aliases

--provider claude 및 --provider claude-code은 --provider anthropic의 약어로도 작동합니다.

GitHub 코파일럿

Hermes는 다음 두 가지 모드를 갖춘 일류 공급자로서 GitHub Copilot을 지원합니다.

copilot — Direct Copilot API(권장) GitHub Copilot 구독을 사용하여 Copilot API를 통해 GPT-5.x, Claude, Gemini 및 기타 모델에 액세스합니다.

hermes chat --provider copilot --model gpt-5.4

인증 옵션(이 순서대로 선택):

COPILOT_GITHUB_TOKEN 환경 변수
GH_TOKEN 환경 변수
GITHUB_TOKEN 환경 변수
gh auth token CLI 대체

토큰이 발견되지 않으면 hermes model은 Copilot CLI 및 오픈코드에서 사용하는 것과 동일한 흐름인 OAuth 장치 코드 로그인을 제공합니다.

Token types

Copilot API는 기본 개인 액세스 토큰(ghp_*)을 지원하지 않습니다. 지원되는 토큰 유형:

유형	접두사	얻는 방법
OAuth 토큰	`gho_`	`hermes model` → GitHub Copilot → GitHub로 로그인
세밀한 PAT	`github_pat_`	GitHub 설정 → 개발자 설정 → 세분화된 토큰(Copilot Requests 권한 필요)
GitHub 앱 토큰	`ghu_`	GitHub 앱 설치를 통해

gh auth token이 ghp_* 토큰을 반환하는 경우 대신 hermes model을 사용하여 OAuth를 통해 인증하세요.

Copilot auth behavior in Hermes

Hermes는 지원되는 GitHub 토큰(gho_*, github_pat_* 또는 ghu_*)을 api.githubcopilot.com에 직접 보내고 Copilot 관련 헤더(Editor-Version, Copilot-Integration-Id, Openai-Intent, x-initiator).

HTTP 401에서 Hermes는 이제 폴백 전에 일회성 자격 증명 복구를 수행합니다.

일반 우선순위 체인(COPILOT_GITHUB_TOKEN → GH_TOKEN → GITHUB_TOKEN → gh auth token)을 통해 토큰을 다시 확인합니다.
새로 고친 헤더로 공유 OpenAI 클라이언트를 다시 빌드하세요.
요청을 한 번 다시 시도하세요.

일부 오래된 커뮤니티 프록시는 api.github.com/copilot_internal/v2/token 교환 흐름을 사용합니다. 일부 계정 유형에서는 해당 엔드포인트를 사용할 수 없습니다(404 반환). 따라서 Hermes는 직접 토큰 인증을 기본 경로로 유지하고 견고성을 위해 런타임 자격 증명 새로 고침 + 재시도를 사용합니다.

API 라우팅: GPT-5+ 모델(gpt-5-mini 제외)은 자동으로 Responses API를 사용합니다. 다른 모든 모델(GPT-4o, Claude, Gemini 등)은 채팅 완료 기능을 사용합니다. 모델은 라이브 Copilot 카탈로그에서 자동으로 감지됩니다.

copilot-acp — Copilot ACP 에이전트 백엔드. 로컬 Copilot CLI를 하위 프로세스로 생성합니다.

hermes chat --provider copilot-acp --model copilot-acp
# Requires the GitHub Copilot CLI in PATH and an existing `copilot login` session

영구 구성:

model:
  provider: "copilot"
  default: "gpt-5.4"

환경변수	설명
`COPILOT_GITHUB_TOKEN`	Copilot API용 GitHub 토큰(첫 번째 우선순위)
`HERMES_COPILOT_ACP_COMMAND`	Copilot CLI 바이너리 경로 override(기본값: `copilot`)
`HERMES_COPILOT_ACP_ARGS`	ACP 인수 override(기본값: `--acp --stdio`)

일류 API 키 제공자

이러한 공급자에는 전용 공급자 ID가 기본적으로 지원됩니다. API 키를 설정하고 --provider을 사용하여 다음을 선택합니다.

# NovitaAI Model API
hermes chat --provider novita --model moonshotai/kimi-k2.5
# Requires: NOVITA_API_KEY in ~/.hermes/.env

# z.ai / ZhipuAI GLM
hermes chat --provider zai --model glm-5
# Requires: GLM_API_KEY in ~/.hermes/.env

# Kimi / Moonshot AI (international: api.moonshot.ai)
hermes chat --provider kimi-coding --model kimi-for-coding
# Requires: KIMI_API_KEY in ~/.hermes/.env

# Kimi / Moonshot AI (China: api.moonshot.cn)
hermes chat --provider kimi-coding-cn --model kimi-k2.5
# Requires: KIMI_CN_API_KEY in ~/.hermes/.env

# MiniMax (global endpoint)
hermes chat --provider minimax --model MiniMax-M2.7
# Requires: MINIMAX_API_KEY in ~/.hermes/.env

# MiniMax (China endpoint)
hermes chat --provider minimax-cn --model MiniMax-M2.7
# Requires: MINIMAX_CN_API_KEY in ~/.hermes/.env

# Alibaba Cloud / DashScope (Qwen models)
hermes chat --provider alibaba --model qwen3.5-plus
# Requires: DASHSCOPE_API_KEY in ~/.hermes/.env

# Xiaomi MiMo
hermes chat --provider xiaomi --model mimo-v2-pro
# Requires: XIAOMI_API_KEY in ~/.hermes/.env

# Tencent TokenHub (Hy3 Preview)
hermes chat --provider tencent-tokenhub --model hy3-preview
# Requires: TOKENHUB_API_KEY in ~/.hermes/.env

# Arcee AI (Trinity models)
hermes chat --provider arcee --model trinity-large-thinking
# Requires: ARCEEAI_API_KEY in ~/.hermes/.env

# GMI Cloud
# Use the exact model ID returned by GMI's /v1/models endpoint.
hermes chat --provider gmi --model zai-org/GLM-5.1-FP8
# Requires: GMI_API_KEY in ~/.hermes/.env

또는 config.yaml에서 공급자를 영구적으로 설정합니다.

model:
  provider: "gmi"
  default: "zai-org/GLM-5.1-FP8"

기본 URL은 NOVITA_BASE_URL, GLM_BASE_URL, KIMI_BASE_URL, MINIMAX_BASE_URL, MINIMAX_CN_BASE_URL, DASHSCOPE_BASE_URL로 override될 수 있습니다. XIAOMI_BASE_URL, GMI_BASE_URL 또는 TOKENHUB_BASE_URL 환경 변수.

Z.AI Endpoint Auto-Detection

Z.AI/GLM 공급자를 사용할 때 Hermes는 여러 엔드포인트(글로벌, 중국, 코딩 변형)를 자동으로 조사하여 API 키를 허용하는 엔드포인트를 찾습니다. GLM_BASE_URL을 수동으로 설정할 필요가 없습니다. 작동 중인 엔드포인트가 자동으로 감지되고 캐시됩니다.

xAI(Grok) — 응답 API + 프롬프트 캐싱

xAI는 Grok 4 모델의 자동 추론 지원을 위해 Responses API(codex_responses 전송)를 통해 연결됩니다. reasoning_effort 매개변수가 필요하지 않으며 서버는 기본적으로 추론합니다. ~/.hermes/.env에 XAI_API_KEY을 설정하고 hermes model에서 xAI를 선택하거나 grok을 /model grok-4-1-fast-reasoning에 대한 바로가기로 삭제하세요.

SuperGrok 가입자는 API 키를 사용하는 대신 브라우저 OAuth로 로그인할 수 있습니다. hermes model에서 **xAI Grok OAuth(SuperGrok 구독)**를 선택하거나 hermes auth add xai-oauth을 실행하세요. 동일한 OAuth 전달자 토큰은 direct-to-xAI 도구(TTS, 이미지 생성, 비디오 생성, 전사)에서 자동으로 재사용됩니다. 전체 흐름은 xAI Grok OAuth 가이드를 참조하세요. Hermes가 원격 호스트에서 실행되는 경우 필수 ssh -L 터널에 대해서는 SSH/원격 호스트를 통한 OAuth도 참조하세요.

xAI를 공급자(x.ai을 포함하는 기본 URL)로 사용하는 경우 Hermes는 모든 API 요청과 함께 x-grok-conv-id 헤더를 전송하여 자동으로 프롬프트 캐싱을 활성화합니다. 이는 요청을 대화 세션 내의 동일한 서버로 라우팅하여 xAI의 인프라가 캐시된 시스템 프롬프트와 대화 기록을 재사용할 수 있도록 합니다.

구성이 필요하지 않습니다. xAI 엔드포인트가 감지되고 세션 ID를 사용할 수 있으면 캐싱이 자동으로 활성화됩니다. 이렇게 하면 다중 대화 대화의 대기 시간과 비용이 줄어듭니다.

xAI는 또한 전용 TTS 엔드포인트(/v1/tts)를 제공합니다. hermes tools → 음성 및 TTS에서 xAI TTS를 선택하거나 음성 및 TTS 페이지에서 구성을 확인하세요.

노비타AI

NovitaAI는 빌더와 에이전트를 위한 AI 기반 클라우드입니다. 세 가지 제품 라인은 200개 이상의 모델을 위한 Model API, AI 에이전트 구축 및 실행을 위한 Agent Sandbox, 확장 가능한 컴퓨팅을 위한 GPU Cloud이며 모두 하나의 플랫폼에서 사용할 수 있습니다.

# Use any available model
hermes chat --provider novita --model moonshotai/kimi-k2.5
# Requires: NOVITA_API_KEY in ~/.hermes/.env

# Short alias
hermes chat --provider novita-ai --model deepseek/deepseek-v3-0324

또는 config.yaml에 영구적으로 설정합니다.

model:
  provider: "novita"
  default: "moonshotai/kimi-k2.5"
  base_url: "https://api.novita.ai/openai/v1"

novita.ai/settings/key-management에서 API 키를 받으세요. 기본 URL은 NOVITA_BASE_URL으로 재정의될 수 있습니다.

Ollama Cloud — 관리형 Ollama 모델, OAuth + API 키

Ollama Cloud는 로컬 Ollama와 동일한 개방형 카탈로그를 호스팅하지만 GPU 요구 사항은 없습니다. hermes model에서 Ollama Cloud로 선택하고 ollama.com/settings/keys에서 API 키를 붙여넣으면 Hermes가 사용 가능한 모델을 자동으로 검색합니다.

hermes model
# → pick "Ollama Cloud"
# → paste your OLLAMA_API_KEY
# → select from discovered models (gpt-oss:120b, glm-4.6:cloud, qwen3-coder:480b-cloud, etc.)

또는 config.yaml 직접:

model:
  provider: "ollama-cloud"
  default: "gpt-oss:120b"

모델 카탈로그는 ollama.com/v1/models에서 동적으로 가져오고 1시간 동안 캐시됩니다. model:tag 표기법(예: qwen3-coder:480b-cloud)은 정규화를 통해 보존됩니다. 대시를 사용하지 마세요.

Ollama Cloud vs local Ollama

둘 다 동일한 OpenAI 호환 API를 사용합니다. 클라우드는 최고의 제공업체입니다(--provider ollama-cloud, OLLAMA_API_KEY). 로컬 Ollama는 사용자 정의 엔드포인트 흐름(기본 URL http://localhost:11434/v1, 키 없음)을 통해 도달합니다. 로컬에서 실행할 수 없는 대규모 모델에는 클라우드를 사용하세요. 개인정보 보호 또는 오프라인 작업을 위해 로컬을 사용하세요.

AWS 기반암

Anthropic Claude, Amazon Nova, DeepSeek v3.2, Meta Llama 4 및 AWS Bedrock을 통한 기타 모델. AWS SDK(boto3) 자격 증명 체인을 사용합니다. API 키는 없고 표준 AWS 인증만 사용합니다.

# Simplest — named profile in ~/.aws/credentials
hermes chat --provider bedrock --model us.anthropic.claude-sonnet-4-6

# Or with explicit env vars
AWS_PROFILE=myprofile AWS_REGION=us-east-1 hermes chat --provider bedrock --model us.anthropic.claude-sonnet-4-6

또는 config.yaml에 영구적으로:

model:
  provider: "bedrock"
  default: "us.anthropic.claude-sonnet-4-6"
bedrock:
  region: "us-east-1"          # or set AWS_REGION
  # profile: "myprofile"       # or set AWS_PROFILE
  # discovery: true            # auto-discover region from IAM
  # guardrail:                 # optional Bedrock Guardrails
  #   guardrail_identifier: "your-guardrail-id"
  #   guardrail_version: "DRAFT"

인증은 표준 boto3 체인을 사용합니다. 명시적 AWS_ACCESS_KEY_ID/AWS_SECRET_ACCESS_KEY, ~/.aws/credentials의 AWS_PROFILE, EC2/ECS/Lambda, IMDS 또는 SSO의 IAM 역할. AWS CLI로 이미 인증된 경우 env var가 필요하지 않습니다.

Bedrock은 내부적으로 Converse API를 사용합니다. 요청은 Bedrock의 모델에 구애받지 않는 형태로 변환되므로 Claude, Nova, DeepSeek 및 Llama 모델에도 동일한 구성이 작동합니다. 기본이 아닌 지역 엔드포인트를 호출하는 경우에만 BEDROCK_BASE_URL을 설정하세요.

IAM 설정, 지역 선택 및 지역 간 추론에 대한 연습은 AWS Bedrock 가이드를 참조하세요.

Qwen 포털(OAuth)

브라우저 기반 OAuth 로그인 기능을 갖춘 Alibaba의 Qwen Portal. hermes model에서 **Qwen OAuth(포털)**을 선택하고 브라우저를 통해 로그인하면 Hermes가 새로 고침 토큰을 유지합니다.

hermes model
# → pick "Qwen OAuth (Portal)"
# → browser opens; sign in with your Alibaba account
# → confirm — credentials are saved to ~/.hermes/auth.json

hermes chat   # uses portal.qwen.ai/v1 endpoint

또는 config.yaml을 구성합니다.

model:
  provider: "qwen-oauth"
  default: "qwen3-coder-plus"

포털 엔드포인트가 재배치되는 경우에만 HERMES_QWEN_BASE_URL을 설정합니다(기본값: https://portal.qwen.ai/v1).

Qwen OAuth vs DashScope (Alibaba)

qwen-oauth은 OAuth 로그인과 함께 소비자 대상 Qwen 포털을 사용하므로 개인 사용자에게 이상적입니다. alibaba 공급자는 DASHSCOPE_API_KEY과 함께 DashScope의 엔터프라이즈 API를 사용합니다. 이는 프로그래밍/프로덕션 워크로드에 이상적입니다. 둘 다 Qwen 제품군 모델로 라우팅되지만 서로 다른 끝점에 있습니다.

알리바바 코딩 계획

Alibaba의 Coding Plan(표준 DashScope API 액세스와 별도의 가격 SKU)을 구독하는 경우 Hermes는 이를 자체 최고 수준 공급자인 alibaba-coding-plan로 표시합니다. 엔드포인트: https://coding-intl.dashscope.aliyuncs.com/v1. 일반 alibaba 공급자와 마찬가지로 OpenAI와 호환되지만 기본 URL과 청구 표면이 다릅니다.

model:
  provider: alibaba_coding     # alias for alibaba-coding-plan
  model: qwen3-coder-plus

또는 CLI에서:

hermes chat --provider alibaba_coding --model qwen3-coder-plus
``alibaba_coding`은 `alibaba` 항목이 이미 사용하고 있는 것과 동일한 `DASHSCOPE_API_KEY`을 사용합니다. 별도의 키가 필요하지 않고 다른 라우팅 대상만 있으면 됩니다. 이 제공자가 등록되기 전에 `config.yaml`에 `provider: alibaba_coding`을 설정한 사용자는 자동으로 OpenRouter 라우팅을 통과했습니다.

### 미니맥스(OAuth) \{#github-copilot}

브라우저 OAuth 로그인을 통한 MiniMax-M2.7 — API 키가 필요하지 않습니다. `hermes model`에서 **MiniMax(OAuth)**를 선택하고 브라우저를 통해 로그인하면 Hermes가 액세스 + 새로 고침 토큰을 유지합니다. 내부적으로 Anthropic Messages 호환 엔드포인트(`/anthropic`)를 사용합니다.

```bash
hermes model
# → pick "MiniMax (OAuth)"
# → browser opens; sign in with your MiniMax account (global or CN region)
# → confirm — credentials are saved to ~/.hermes/auth.json

hermes chat   # uses api.minimax.io/anthropic endpoint

또는 config.yaml을 구성합니다.

model:
  provider: "minimax-oauth"
  default: "MiniMax-M2.7"

지원되는 모델: MiniMax-M2.7(기본) 및 MiniMax-M2.7-highspeed(기본 보조 모델로 연결됨). OAuth 경로는 MINIMAX_API_KEY / MINIMAX_BASE_URL을 무시합니다.

MiniMax OAuth vs API key

minimax-oauth은 OAuth 로그인 기능이 있는 MiniMax의 소비자 대상 포털을 사용합니다. 결제 설정이 필요하지 않습니다. minimax 및 minimax-cn 제공자는 프로그래밍 방식 액세스를 위해 MINIMAX_API_KEY / MINIMAX_CN_API_KEY을 사용합니다. 전체 연습은 MiniMax OAuth 가이드를 참조하세요.

엔비디아 NIM

build.nvidia.com(무료 API 키) 또는 로컬 NIM 엔드포인트를 통한 Nemotron 및 기타 오픈 소스 모델.

# Cloud (build.nvidia.com)
hermes chat --provider nvidia --model nvidia/nemotron-3-super-120b-a12b
# Requires: NVIDIA_API_KEY in ~/.hermes/.env

# Local NIM endpoint — override base URL
NVIDIA_BASE_URL=http://localhost:8000/v1 hermes chat --provider nvidia --model nvidia/nemotron-3-super-120b-a12b

또는 config.yaml에 영구적으로 설정합니다.

model:
  provider: "nvidia"
  default: "nvidia/nemotron-3-super-120b-a12b"

Local NIM

온프레미스 배포(DGX Spark, 로컬 GPU)의 경우 NVIDIA_BASE_URL=http://localhost:8000/v1을 설정합니다. NIM은 build.nvidia.com과 동일한 OpenAI 호환 Chat Completions API를 공개하므로 클라우드와 로컬 간 전환은 한 줄의 env-var 변경입니다.

GMI 클라우드

GMI Cloud를 통한 개방형 및 추론 모델 — OpenAI 호환 API, API 키 인증.

# GMI Cloud
hermes chat --provider gmi --model deepseek-ai/DeepSeek-R1
# Requires: GMI_API_KEY in ~/.hermes/.env

또는 config.yaml에 영구적으로 설정합니다.

model:
  provider: "gmi"
  default: "deepseek-ai/DeepSeek-R1"

기본 URL은 GMI_BASE_URL(기본값: https://api.gmi-serving.com/v1)으로 재정의될 수 있습니다.

스텝펀

StepFun을 통한 단계 계열 모델 — OpenAI 호환 API, API 키 인증.

# StepFun
hermes chat --provider stepfun --model step-3-mini
# Requires: STEPFUN_API_KEY in ~/.hermes/.env

또는 config.yaml에 영구적으로 설정합니다.

model:
  provider: "stepfun"
  default: "step-3-mini"

기본 URL은 STEPFUN_BASE_URL(기본값: https://api.stepfun.com/v1)으로 재정의될 수 있습니다.

포옹 얼굴 추론 제공자

Hugging Face Inference Providers는 통합 OpenAI 호환 엔드포인트(router.huggingface.co/v1)를 통해 20개 이상의 개방형 모델로 라우팅합니다. 요청은 자동 장애 조치를 통해 사용 가능한 가장 빠른 백엔드(Groq, Together, SambaNova 등)로 자동 라우팅됩니다.

# Use any available model
hermes chat --provider huggingface --model Qwen/Qwen3---Thinking-2507
# Requires: HF_TOKEN in ~/.hermes/.env

# Short alias
hermes chat --provider hf --model deepseek-ai/DeepSeek-V3.2

또는 config.yaml에 영구적으로 설정합니다.

model:
  provider: "huggingface"
  default: "Qwen/Qwen3---Thinking-2507"

huggingface.co/settings/tokens에서 토큰을 받으세요. "추론 제공자 호출" 권한을 활성화하세요. 무료 등급이 포함됩니다(크레딧 $0.10/월, 제공자 요금 인상 없음).

모델 이름에 라우팅 접미사(:fastest(기본값), :cheapest 또는 :provider_name)를 추가하여 특정 백엔드를 강제할 수 있습니다.

기본 URL은 HF_BASE_URL으로 재정의될 수 있습니다.

맞춤형 및 자체 호스팅 LLM 제공업체

Hermes 에이전트는 모든 OpenAI 호환 API 엔드포인트와 작동합니다. 서버가 /v1/chat/completions을 구현하는 경우 Hermes를 가리킬 수 있습니다. 즉, 로컬 모델, GPU 추론 서버, 다중 제공자 라우터 또는 타사 API를 사용할 수 있습니다.

일반 설정

사용자 정의 엔드포인트를 구성하는 세 가지 방법:

대화형 설정(권장):

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter: API base URL, API key, Model name

수동 구성(config.yaml):

# In ~/.hermes/config.yaml
model:
  default: your-model-name
  provider: custom
  base_url: http://localhost:8000/v1
  api_key: your-key-or-leave-empty-for-local

Legacy env vars

.env의 OPENAI_BASE_URL 및 LLM_MODEL이 제거됩니다. Hermes의 어느 부분에서도 읽히지 않습니다. config.yaml은 모델 및 엔드포인트 구성에 대한 단일 정보 소스입니다. .env에 오래된 항목이 있는 경우 다음 hermes setup 또는 구성 마이그레이션 시 자동으로 지워집니다. hermes model을 사용하거나 config.yaml을 직접 편집하세요.

두 접근 방식 모두 모델, 제공자 및 기본 URL의 정보 소스인 config.yaml을 유지합니다.

`/model`을(를) 사용하여 모델 전환

hermes model vs /model {#alibaba-coding-plan}

hermes model(채팅 세션 외부의 터미널에서 실행)은 전체 제공자 설정 마법사입니다. 이를 사용하여 새 제공자를 추가하고, OAuth 흐름을 실행하고, API 키를 입력하고, 사용자 지정 엔드포인트를 구성합니다.

/model(활성 Hermes 채팅 세션 내에 입력)은 이미 설정한 제공업체와 모델 간 전환만 가능합니다. 새 제공자를 추가하거나 OAuth를 실행하거나 API 키를 묻는 메시지를 표시할 수 없습니다. 제공자(예: OpenRouter)를 하나만 구성한 경우 /model은 해당 제공자에 대한 모델만 표시합니다.

새 제공자를 추가하려면: 세션(Ctrl+C 또는 /quit)을 종료하고 hermes model을 실행하고 새 제공자를 설정한 다음 새 세션을 시작합니다.

하나 이상의 사용자 정의 엔드포인트를 구성한 후에는 세션 중에 모델을 전환할 수 있습니다.

/model custom:qwen-2.5          # Switch to a model on your custom endpoint
/model custom                    # Auto-detect the model from the endpoint
/model openrouter:claude-sonnet-4 # Switch back to a cloud provider

이름이 지정된 사용자 지정 제공자를 구성한 경우(아래 참조), 삼중 구문을 사용하세요.

/model custom:local:qwen-2.5    # Use the "local" custom provider with model qwen-2.5
/model custom:work:llama3       # Use the "work" custom provider with llama3

제공자를 전환할 때 Hermes는 기본 URL과 제공자를 구성에 유지하므로 다시 시작해도 변경 사항이 유지됩니다. 사용자 지정 엔드포인트에서 기본 제공 제공자로 전환하면 오래된 기본 URL이 자동으로 지워집니다.

팁

/model custom(기본, 모델 이름 없음)은 엔드포인트의 /models API를 쿼리하고 정확히 모델이 로드된 경우 모델을 자동 선택합니다. 단일 모델을 실행하는 로컬 서버에 유용합니다.

아래의 모든 항목은 동일한 패턴을 따릅니다. URL, 키, 모델 이름만 변경하면 됩니다.

Ollama — 로컬 모델, 제로 구성

Ollama는 하나의 명령으로 개방형 모델을 로컬에서 실행합니다. 최적의 용도: 빠른 로컬 실험, 개인 정보 보호에 민감한 작업, 오프라인 사용. OpenAI 호환 API를 통한 도구 호출을 지원합니다.

# Install and run a model
ollama pull qwen2.5-coder:32b
ollama serve   # Starts on port 11434

그런 다음 Hermes를 구성합니다.

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:11434/v1
# Skip API key (Ollama doesn't need one)
# Enter model name (e.g. qwen2.5-coder:32b)

또는 config.yaml을 직접 구성합니다.

model:
  default: qwen2.5-coder:32b
  provider: custom
  base_url: http://localhost:11434/v1
  context_length: 32768   # See warning below

Ollama defaults to very low 컨텍스트 lengths

Ollama는 기본적으로 모델의 전체 컨텍스트 창을 사용하지 않습니다. VRAM에 따라 기본값은 다음과 같습니다.

사용 가능한 VRAM	기본 컨텍스트
미만	4,096개 토큰
24–48 GB	토큰 32,768개
48+ GB	토큰 256,000개

도구와 함께 에이전트를 사용하려면 최소 16k~32k 컨텍스트가 필요합니다. 4k에서는 시스템 프롬프트 + 도구 스키마만으로 창을 채울 수 있어 대화할 여지가 없습니다.

증가하는 방법(하나 선택):

# Option 1: Set server-wide via environment variable (recommended)
OLLAMA_CONTEXT_LENGTH=32768 ollama serve

# Option 2: For systemd-managed Ollama
sudo systemctl edit ollama.service
# Add: Environment="OLLAMA_CONTEXT_LENGTH=32768"
# Then: sudo systemctl daemon-reload && sudo systemctl restart ollama

# Option 3: Bake it into a custom model (persistent per-model)
echo -e "FROM qwen2.5-coder:32b\nPARAMETER num_ctx 32768" > Modelfile
ollama create qwen2.5-coder-32k -f Modelfile

OpenAI 호환 API를 통해 컨텍스트 길이를 설정할 수 없습니다(/v1/chat/completions). 서버측에서 구성하거나 Modelfile을 통해 구성해야 합니다. 이것이 Ollama를 Hermes와 같은 도구와 통합할 때 혼란을 일으키는 가장 큰 원인입니다.

컨텍스트가 올바르게 설정되었는지 확인하세요.

ollama ps
# Look at the CONTEXT column — it should show your configured value

팁

ollama list으로 사용 가능한 모델을 나열합니다. ollama pull <model>을 사용하여 Ollama 라이브러리에서 모델을 가져옵니다. Ollama는 GPU 오프로딩을 자동으로 처리하므로 대부분의 설정에는 구성이 필요하지 않습니다.

vLLM — 고성능 GPU 추론

vLLM은 프로덕션 LLM 제공을 위한 표준입니다. 최적의 용도: GPU 하드웨어의 최대 처리량, 대규모 모델 제공, 지속적인 일괄 처리.

pip install vllm
vllm serve meta-llama/Llama-3.1--Instruct \
  --port 8000 \
  --max-model-len 65536 \
  --tensor-parallel-size 2 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes

그런 다음 Hermes를 구성합니다.

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:8000/v1
# Skip API key (or enter one if you configured vLLM with --api-key)
# Enter model name: meta-llama/Llama-3.1--Instruct

컨텍스트 길이: vLLM은 기본적으로 모델의 max_position_embeddings을 읽습니다. GPU 메모리를 초과하면 오류가 발생하고 --max-model-len을 더 낮게 설정하라는 메시지가 표시됩니다. --max-model-len auto을 사용하여 맞는 최대값을 자동으로 찾을 수도 있습니다. VRAM에 더 많은 context를 압축하려면 --gpu-memory-utilization 0.95(기본값 0.9)을 설정하세요.

도구 호출에는 명시적인 플래그가 필요합니다.

깃발	목적
`--enable-auto-tool-choice`	`tool_choice: "auto"`에 필수(Hermes의 기본값)
`--tool-call-parser <name>`	모델의 도구 호출 형식에 대한 파서

지원되는 파서: hermes(Qwen 2.5, Hermes 2/3), llama3_json(Llama 3.x), mistral, deepseek_v3, deepseek_v31, xlam, pythonic. 이러한 플래그가 없으면 도구 호출이 작동하지 않습니다. 모델은 도구 호출을 텍스트로 출력합니다.

팁

vLLM은 사람이 읽을 수 있는 크기인 --max-model-len 64k(소문자 k = 1000, 대문자 K = 1024)을 지원합니다.

SGLang — RadixAttention을 통한 빠른 서비스 제공

SGLang은 KV 캐시 재사용을 위해 RadixAttention을 사용하는 vLLM의 대안입니다. 최적의 용도: 다중 회전 대화(접두사 캐싱), 제한된 디코딩, 구조화된 출력.

pip install "sglang[all]"
python -m sglang.launch_server \
  --model meta-llama/Llama-3.1--Instruct \
  --port 30000 \
  --context-length 65536 \
  --tp 2 \
  --tool-call-parser qwen

그런 다음 Hermes를 구성합니다.

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:30000/v1
# Enter model name: meta-llama/Llama-3.1--Instruct

컨텍스트 길이: SGLang은 기본적으로 모델의 구성에서 읽습니다. 재정의하려면 --context-length을 사용하세요. 모델이 선언한 최대값을 초과해야 하는 경우 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1을 설정하세요.

도구 호출: 모델 계열에 적합한 파서와 함께 --tool-call-parser을 사용하세요: qwen (Qwen 2.5), llama3, llama4, deepseekv3, mistral, glm. 이 플래그가 없으면 도구 호출이 일반 텍스트로 돌아옵니다.

SGLang defaults to 128 max output tokens

응답이 잘린 것 같으면 요청에 max_tokens을 추가하거나 서버에서 --default-max-tokens을 설정하세요. 요청에 지정되지 않은 경우 SGLang의 기본값은 응답당 토큰 128개입니다.

llama.cpp / llama-server — CPU 및 금속 추론

llama.cpp는 CPU, Apple Silicon(Metal) 및 소비자 GPU에서 양자화된 모델을 실행합니다. 최적의 대상: 데이터 센터 GPU 없이 모델 실행, Mac 사용자, 엣지 배포.

# Build and start llama-server
cmake -B build && cmake --build build --config Release./build/bin/llama-server \
  --jinja -fa \
  -c 32768 \
  -ngl 99 \
  -m models/qwen2.5-coder-32b-instruct-Q4_K_M.gguf \
  --port 8080 --host 0.0.0.0

컨텍스트 길이(-c): 최근 빌드의 기본값은 GGUF 메타데이터에서 모델의 학습 context를 읽는 0입니다. 128k+ 교육 context가 있는 모델의 경우 OOM이 전체 KV 캐시를 할당하려고 시도할 수 있습니다. -c을 필요한 값으로 명시적으로 설정합니다(에이전트 사용에 적합한 범위는 32k~64k입니다). 병렬 슬롯(-np)을 사용하는 경우 전체 context는 슬롯 간에 나누어집니다. -c 32768 -np 4을 사용하면 각 슬롯은 8k만 가져옵니다.

그런 다음 Hermes가 이를 가리키도록 구성합니다.

hermes model
# Select "Custom endpoint (self-hosted / VLLM / etc.)"
# Enter URL: http://localhost:8080/v1
# Skip API key (local servers don't need one)
# Enter model name — or leave blank to auto-detect if only one model is loaded

이렇게 하면 엔드포인트가 config.yaml에 저장되어 세션 전반에 걸쳐 지속됩니다.

--jinja is required for tool calling

--jinja이 없으면 llama-server는 tools 매개변수를 완전히 무시합니다. 모델은 응답 텍스트에 JSON을 작성하여 도구를 호출하려고 시도하지만 Hermes는 이를 도구 호출로 인식하지 않습니다. {"name": "web_search",...}과 같은 원시 JSON이 실제 검색 대신 메시지로 인쇄되는 것을 볼 수 있습니다.

기본 도구 호출 지원(최고 성능): Llama 3.x, Qwen 2.5(Coder 포함), Hermes 2/3, Mistral, DeepSeek, Functionary. 다른 모든 모델은 작동하지만 효율성이 떨어질 수 있는 일반 처리기를 사용합니다. 전체 목록은 llama.cpp 함수 호출 문서를 참조하세요.

http://localhost:8080/props을 확인하여 도구 지원이 활성화되어 있는지 확인할 수 있습니다. chat_template 필드가 있어야 합니다.

팁

Hugging Face에서 GGUF 모델을 다운로드하세요. Q4_K_M 양자화는 품질과 메모리 사용량 간의 최상의 균형을 제공합니다.

LM Studio — 로컬 모델이 포함된 데스크탑 앱

LM Studio는 GUI로 로컬 모델을 실행하기 위한 데스크톱 앱입니다. 적합한 대상: 시각적 인터페이스, 빠른 모델 테스트를 선호하는 사용자, macOS/Windows/Linux 개발자.

LM Studio 앱(개발자 탭 → 서버 시작)에서 서버를 시작하거나 CLI를 사용합니다.

lms server start                        # Starts on port 1234
lms load qwen2.5-coder --context-length 32768

그런 다음 Hermes를 구성합니다.

hermes model
# Select "LM Studio"
# Press Enter to use http://localhost:1234/v1
# Pick one of the discovered models
# If LM Studio server auth is enabled, enter LM_API_KEY when prompted

Hermes는 컨텍스트 길이의 LM Studio 모델을 자동으로 로드합니다.

LM Studio에서 컨텍스트 길이를 변경하려면:

모델 선택기 옆에 있는 기어 아이콘을 클릭하세요.
원활한 경험을 위해 "컨텍스트 길이"를 최소 64000으로 설정하세요.
변경 사항을 적용하려면 모델을 다시 로드하세요.
사용자의 기계가 64000을 수용할 수 없는 경우 컨텍스트 길이가 더 큰 더 작은 모델을 사용하는 것을 고려하세요.

또는 CLI: lms load model-name --context-length 64000를 사용하세요.

CLI를 사용하여 모델이 적합한지 추정할 수 있습니다: lms load model-name --context-length 64000 --estimate-only

지속적인 모델별 기본값을 설정하려면: 내 모델 탭 → 모델의 기어 아이콘 → 컨텍스트 크기 설정.

::: 도구 호출: LM Studio 0.3.6부터 지원됩니다. 기본 도구 호출 교육(Qwen 2.5, Llama 3.x, Mistral, Hermes)이 포함된 모델은 자동으로 감지되어 도구 배지와 함께 표시됩니다. 다른 모델은 신뢰성이 떨어질 수 있는 일반 폴백을 사용합니다.

WSL2 네트워킹(Windows 사용자)

Hermes Agent에는 Unix 환경이 필요하므로 Windows 사용자는 WSL2 내에서 실행합니다. 모델 서버(Ollama, LM Studio 등)가 Windows 호스트에서 실행되는 경우 네트워크 격차를 해소해야 합니다. WSL2는 자체 서브넷이 있는 가상 네트워크 어댑터를 사용하므로 WSL2 내부의 localhost은 Windows 호스트 가 아니라 Linux VM을 참조합니다.

Both in WSL2? No problem.

모델 서버가 WSL2(vLLM, SGLang 및 llama-server에 공통) 내에서도 실행되는 경우 localhost은 예상대로 작동하며 동일한 네트워크 네임스페이스를 공유합니다. 이 섹션을 건너뛰세요.

옵션 1: 미러링 네트워킹 모드(권장)

**Windows 11 22H2+**에서 사용할 수 있는 미러링 모드를 사용하면 localhost이 Windows와 WSL2 간에 양방향으로 작동합니다. 이는 가장 간단한 수정 사항입니다.

%USERPROFILE%\.wslconfig(예: C:\Users\YourName\.wslconfig) 생성 또는 편집:
```
[wsl2]
networkingMode=mirrored
```
PowerShell에서 WSL을 다시 시작합니다.
```
wsl --shutdown
```
WSL2 터미널을 다시 엽니다. localhost은 이제 Windows 서비스에 도달합니다.
```
curl http://localhost:11434/v1/models   # Ollama on Windows — works
```

Hyper-V Firewall

일부 Windows 11 빌드에서는 Hyper-V 방화벽이 기본적으로 미러링된 연결을 차단합니다. 미러링 모드를 활성화한 후에도 localhost이 여전히 작동하지 않으면 관리 PowerShell에서 다음을 실행하세요.

Set-NetFirewallHyperVVMSetting -Name '{40E0AC32-46A5--A0B2-2B479E8F2E90}' -DefaultInboundAction Allow

옵션 2: Windows 호스트 IP 사용(Windows 10/이전 빌드)

미러링 모드를 사용할 수 없는 경우 WSL2 내부에서 Windows 호스트 IP를 찾아 localhost 대신 사용하세요.

# Get the Windows host IP (the default gateway of WSL2's virtual network)
ip route show | grep -i default | awk '{ print $3 }'
# Example output: 172.29.192.1

Hermes 구성에서 해당 IP를 사용하세요.

model:
  default: qwen2.5-coder:32b
  provider: custom
  base_url: http://172.29.192.1:11434/v1   # Windows host IP, not localhost

Dynamic helper

호스트 IP는 WSL2 다시 시작 시 변경될 수 있습니다. 셸에서 동적으로 가져올 수 있습니다.

export WSL_HOST=$(ip route show | grep -i default | awk '{ print $3 }')
echo "Windows host at: $WSL_HOST"
curl http://$WSL_HOST:11434/v1/models   # Test Ollama

또는 컴퓨터의 mDNS 이름을 사용하세요(WSL2에서는 libnss-mdns 필요).

sudo apt install libnss-mdns
curl http://$(hostname).local:11434/v1/models

서버 바인딩 주소(NAT 모드에 필요)

옵션 2(호스트 IP를 사용하는 NAT 모드)를 사용하는 경우 Windows의 모델 서버는 127.0.0.1 외부로부터의 연결을 수락해야 합니다. 기본적으로 대부분의 서버는 localhost에서만 수신 대기합니다. NAT 모드의 WSL2 연결은 다른 가상 서브넷에서 나오며 거부됩니다. 미러링 모드에서는 localhost이 직접 매핑되므로 기본 127.0.0.1 바인딩이 제대로 작동합니다.

서버	기본 바인드	수정 방법
올라마	`127.0.0.1`	Ollama를 시작하기 전에 `OLLAMA_HOST=0.0.0.0` 환경 변수를 설정하세요(Windows의 경우 시스템 설정 → 환경 변수 또는 Ollama 서비스 편집).
LM 스튜디오	`127.0.0.1`	개발자 탭 → 서버 설정에서"네트워크에 서비스 제공"을 활성화하세요.
라마 서버	`127.0.0.1`	시작 명령에 `--host 0.0.0.0`을 추가합니다.
vLLM	`0.0.0.0`	기본적으로 이미 모든 인터페이스에 바인딩되어 있습니다.
SGLang	`127.0.0.1`	시작 명령에 `--host 0.0.0.0`을 추가합니다.

Windows의 Ollama(세부 사항): Ollama는 Windows 서비스로 실행됩니다. OLLAMA_HOST을 설정하려면:

시스템 속성→환경 변수 열기
새 시스템 변수 추가: OLLAMA_HOST = 0.0.0.0
Ollama 서비스 다시 시작(또는 재부팅)

Windows 방화벽

Windows 방화벽은 WSL2를 별도의 네트워크(NAT 및 미러링 모드 모두)로 처리합니다. 위 단계를 수행한 후에도 연결이 계속 실패하면 모델 서버 포트에 대한 방화벽 규칙을 추가하세요.

# Run in Admin PowerShell — replace PORT with your server's port
New-NetFirewallRule -DisplayName "Allow WSL2 to Model Server" -Direction Inbound -Action Allow -Protocol TCP -LocalPort 11434

공통 포트: Ollama 11434, vLLM 8000, SGLang 30000, llama-server 8080, LM Studio 1234.

빠른 검증

WSL2 내부에서 모델 서버에 연결할 수 있는지 테스트합니다.

# Replace URL with your server's address and port
curl http://localhost:11434/v1/models          # Mirrored mode
curl http://172.29.192.1:11434/v1/models       # NAT mode (use your actual host IP)

모델 목록이 나열된 JSON 응답을 받으면 괜찮습니다. Hermes 구성에서 base_url과 동일한 URL을 사용하세요.

로컬 모델 문제 해결

이러한 문제는 Hermes와 함께 사용할 때 모든 로컬 추론 서버에 영향을 미칩니다.

WSL2에서 Windows 호스팅 모델 서버로의 "연결이 거부되었습니다"

WSL2 내에서 Hermes를 실행하고 Windows 호스트의 모델 서버를 실행하는 경우 http://localhost:<port>은 WSL2의 기본 NAT 네트워킹 모드에서 작동하지 않습니다. 수정 사항은 위의 WSL2 네트워킹을 참조하세요.

도구 호출이 실행되는 대신 텍스트로 표시됩니다.

모델은 실제로 도구를 호출하는 대신 {"name": "web_search", "arguments": {...}}과 같은 것을 메시지로 출력합니다.

원인: 서버에 도구 호출이 활성화되어 있지 않거나 모델이 서버의 도구 호출 구현을 통해 이를 지원하지 않습니다.

서버	수정
라마.cpp	시작 명령에 `--jinja`을 추가합니다.
vLLM	`--enable-auto-tool-choice --tool-call-parser hermes` 추가
SGLang	`--tool-call-parser qwen`(또는 적절한 파서) 추가
올라마	도구 호출은 기본적으로 활성화되어 있습니다. 모델이 이를 지원하는지 확인하세요(`ollama show model-name`에서 확인).
LM 스튜디오	0.3.6 이상으로 업데이트하고 기본 도구 지원이 포함된 모델을 사용하세요.

모델이 맥락을 잊어버리거나 일관되지 않은 반응을 보이는 것 같습니다.

원인: 컨텍스트 창이 너무 작습니다. 대화가 컨텍스트 제한을 초과하면 대부분의 서버는 오래된 메시지를 자동으로 삭제합니다. Hermes의 시스템 프롬프트 + 도구 스키마만으로도 4k–8k 토큰을 사용할 수 있습니다.

진단:

# Check what Hermes thinks the context is
# Look at startup line: "Context limit: X tokens"

# Check your server's actual context
# Ollama: ollama ps (CONTEXT column)
# llama.cpp: curl http://localhost:8080/props | jq '.default_generation_settings.n_ctx'
# vLLM: check --max-model-len in startup args

수정:에이전트 사용을 위해 컨텍스트를 최소32,768개 토큰으로 설정하세요. 특정 플래그에 대해서는 위의 각 서버 섹션을 참조하세요.

시작 시 "컨텍스트 제한: 2048개 토큰"

Hermes는 서버의 /v1/models 엔드포인트에서 컨텍스트 길이를 자동 감지합니다. 서버가 낮은 값을 보고하는 경우(또는 전혀 보고하지 않는 경우) Hermes는 모델이 선언한 한계를 사용하는데 이는 잘못되었을 수 있습니다.

수정: config.yaml에 명시적으로 설정하세요.

model:
  default: your-model
  provider: custom
  base_url: http://localhost:11434/v1
  context_length: 32768

응답이 문장 중간에 잘립니다.

가능한 원인:

서버의 낮은 출력 한도(max_tokens) — SGLang의 기본값은 응답당 128개 토큰입니다. 서버에서 --default-max-tokens을 설정하거나 config.yaml에서 model.max_tokens을 사용하여 Hermes를 구성합니다. 참고: max_tokens은 응답 길이만 제어합니다. 이는 대화 기록의 길이(즉, 컨텍스트_length)와는 관련이 없습니다.
컨텍스트 소모 — 모델이 컨텍스트 창을 채웠습니다. model.context_length을 늘리거나 Hermes에서 컨텍스트 압축을 활성화하세요.

LiteLLM 프록시 — 다중 제공자 게이트웨이

LiteLLM은 단일 API 뒤에 100개 이상의 LLM 제공업체를 통합하는 OpenAI 호환 프록시입니다. 최적의 용도: 구성 변경, 로드 밸런싱, 폴백 체인, 예산 제어 없이 제공자 간 전환.

# Install and start
pip install "litellm[proxy]"
litellm --model anthropic/claude-sonnet-4 --port 4000

# Or with a config file for multiple models:
litellm --config litellm_config.yaml --port 4000

그런 다음 hermes model → 사용자 정의 엔드포인트 → http://localhost:4000/v1을 사용하여 Hermes를 구성합니다.

대체가 포함된 litellm_config.yaml 예:

model_list:
  - model_name: "best"
    litellm_params:
      model: anthropic/claude-sonnet-4
      api_key: sk-ant-...
  - model_name: "best"
    litellm_params:
      model: openai/gpt-4o
      api_key: sk-...
router_settings:
  routing_strategy: "latency-based-routing"

ClawRouter — 비용 최적화 라우팅

BlockRunAI의 ClawRouter는 쿼리 복잡성을 기반으로 모델을 자동 선택하는 로컬 라우팅 프록시입니다. 14개 차원에 걸쳐 요청을 분류하고 작업을 처리할 수 있는 가장 저렴한 모델로 라우팅합니다. 결제는 USDC 암호화폐를 통해 이루어집니다(API 키 없음).

# Install and start
npx @blockrun/clawrouter    # Starts on port 8402

그런 다음 hermes model → 사용자 정의 엔드포인트 → http://localhost:8402/v1 → 모델 이름 blockrun/auto로 Hermes를 구성합니다.

라우팅 프로필:

프로필	전략	절약
`blockrun/auto`	균형잡힌 품질/비용	74-100%
`blockrun/eco`	가능한 가장 저렴함	95-100%
`blockrun/premium`	최고의 품질 모델	0%
`blockrun/free`	무료 모델만 해당	100%
`blockrun/agentic`	도구 사용에 최적화됨	다양하다

노트

ClawRouter를 사용하려면 Base 또는 Solana에서 USDC 자금 지원 지갑이 필요합니다. 모든 요청은 BlockRun의 백엔드 API를 통해 라우팅됩니다. npx @blockrun/clawrouter doctor을 실행하여 지갑 상태를 확인하세요.

기타 호환 제공업체

OpenAI 호환 API를 사용하는 모든 서비스가 작동합니다. 몇 가지 인기 있는 옵션:

제공자	기본 URL	메모
함께하는AI	`https://api.together.xyz/v1`	클라우드 호스팅 개방형 모델
그로크	`https://api.groq.com/openai/v1`	초고속 추론
DeepSeek	`https://api.deepseek.com/v1`	DeepSeek 모델
불꽃AI	`https://api.fireworks.ai/inference/v1`	빠른 개방형 모델 호스팅
GMI 클라우드	`https://api.gmi-serving.com/v1`	관리형 OpenAI 호환 추론
대뇌	`https://api.cerebras.ai/v1`	웨이퍼 규모 칩 추론
미스트랄 AI	`https://api.mistral.ai/v1`	미스트랄 모델
오픈AI	`https://api.openai.com/v1`	OpenAI 직접 액세스
Azure OpenAI	`https://YOUR.openai.azure.com/`	엔터프라이즈 오픈AI
로컬AI	`http://localhost:8080/v1`	자체 호스팅, 다중 모델
1월	`http://localhost:1337/v1`	로컬 모델이 포함된 데스크톱 앱

hermes model → 사용자 정의 엔드포인트 또는 config.yaml을 사용하여 다음 중 하나를 구성합니다.

model:
  default: meta-llama/Llama-3.1--Instruct-Turbo
  provider: custom
  base_url: https://api.together.xyz/v1
  api_key: your-together-key

컨텍스트 길이 감지

Two settings, easy to confuse {#connection-refused-from-wsl2-to-a-windows-hosted-model-server}

**context_length**은 총 컨텍스트 창입니다. 입력 및 출력 토큰에 대한 결합된 예산입니다(예: Claude Opus 4.6의 경우 200,000). Hermes는 이를 사용하여 기록을 압축하고 API 요청을 검증할 시기를 결정합니다.

**model.max_tokens**은 출력 한도입니다. 모델이 단일 응답에서 생성할 수 있는 최대 토큰 수입니다. 대화 기록의 길이와는 아무런 관련이 없습니다. 업계 표준 이름 max_tokens은 일반적인 혼란의 원인입니다. Anthropic의 기본 API는 이후 명확성을 위해 이름을 max_output_tokens로 변경했습니다.

자동 감지로 인해 창 크기가 잘못되면 context_length을 설정하세요. 개별 응답의 길이를 제한해야 하는 경우에만 model.max_tokens을 설정하세요.

Hermes는 다중 소스 해상도 체인을 사용하여 모델 및 제공자에 대한 올바른 컨텍스트 창을 감지합니다.

구성 재정의 — config.yaml의 model.context_length(가장 높은 우선순위)
모델별 맞춤 제공자 — custom_providers.models.<id>.context_length
영구 캐시 — 이전에 검색된 값(다시 시작해도 유지됨)
엔드포인트 /models — 서버의 API(로컬/커스텀 엔드포인트)를 쿼리합니다.
Anthropic /v1/models — max_input_tokens에 대한 Anthropic의 API를 쿼리합니다(API 키 사용자만 해당).
OpenRouter API — OpenRouter의 라이브 모델 메타데이터
Nous Portal — OpenRouter 메타데이터와 Nous 모델 ID의 접미사 일치
models.dev — 100개 이상의 제공자에 걸쳐 3800개 이상의 모델에 대한 제공자별 컨텍스트 길이를 포함하는 커뮤니티에서 유지 관리되는 레지스트리
대체 기본값 — 광범위한 모델 계열 패턴(기본값 )

대부분의 설정에서 이는 기본적으로 작동합니다. 시스템은 제공자를 인식합니다. 동일한 모델은 서비스를 제공하는 사람에 따라 다른 컨텍스트 제한을 가질 수 있습니다(예: claude-opus-4.6은 Anthropic direct에서는 이지만 GitHub Copilot에서는 입니다).

컨텍스트 길이를 명시적으로 설정하려면 모델 구성에 context_length을 추가하세요.

model:
  default: "qwen3.5:9b"
  base_url: "http://localhost:8080/v1"
  context_length: 131072  # tokens

사용자 정의 엔드포인트의 경우 모델당 컨텍스트 길이를 설정할 수도 있습니다.

custom_providers:
  - name: "My Local LLM"
    base_url: "http://localhost:11434/v1"
    models:
      qwen3.5:27b:
        context_length: 32768
      deepseek-r1:70b:
        context_length: 65536
``hermes model`은 사용자 정의 엔드포인트를 구성할 때 컨텍스트 길이를 묻는 메시지를 표시합니다. 자동 감지를 위해 비워두세요.

:::tip[When to set this manually]
- 모델의 최대값보다 낮은 사용자 정의 `num_ctx`과 함께 Ollama를 사용하고 있습니다.
- 모델의 최대값 이하로 컨텍스트를 제한하려는 경우(예: VRAM을 절약하기 위해 128k 모델에서 8k)
- `/v1/models`을 노출하지 않는 프록시 뒤에서 실행 중입니다.

:::
---

### 명명된 맞춤 제공업체 \{#named-custom-providers}

여러 사용자 정의 엔드포인트(예: 로컬 개발 서버 및 원격 GPU 서버)로 작업하는 경우 `config.yaml`에서 명명된 사용자 정의 공급자로 정의할 수 있습니다.

```yaml
custom_providers:
  - name: local
    base_url: http://localhost:8080/v1
    # api_key omitted — Hermes uses "no-key-required" for keyless local servers
  - name: work
    base_url: https://gpu-server.internal.corp/v1
    key_env: CORP_API_KEY
    api_mode: chat_completions   # optional, auto-detected from URL
  - name: anthropic-proxy
    base_url: https://proxy.example.com/anthropic
    key_env: ANTHROPIC_PROXY_KEY
    api_mode: anthropic_messages  # for Anthropic-compatible proxies

세 가지 구문을 사용하여 세션 중간에 전환합니다.

/model custom:local:qwen-2.5       # Use the "local" endpoint with qwen-2.5
/model custom:work:llama3-70b      # Use the "work" endpoint with llama3-70b
/model custom:anthropic-proxy:claude-sonnet-4  # Use the proxy

대화형 hermes model 메뉴에서 명명된 사용자 지정 공급자를 선택할 수도 있습니다.

요리책: Together AI, Groq, Perplexity

기타 호환 제공업체에 나열된 클라우드 제공업체는 모두 OpenAI의 REST 언어를 사용하므로 custom_providers:에서 동일한 방식으로 연결됩니다. 세 가지 작업 레시피가 이어집니다. 각각은 ~/.hermes/config.yaml에 들어가고 일치하는 API 키는 ~/.hermes/.env에 들어갑니다.

함께하는 AI

자사 API보다 훨씬 저렴한 가격으로 개방형 모델(Llama, MiniMax, Gemma, DeepSeek, Qwen)을 호스팅합니다. 다중 모델 차량에 적합한 기본값입니다.

# ~/.hermes/config.yaml
custom_providers:
  - name: together
    base_url: https://api.together.xyz/v1
    key_env: TOGETHER_API_KEY
    # api_mode: chat_completions  # default — no need to set

model:
  default: MiniMaxAI/MiniMax-M2.7   # or any model from together.ai/models
  provider: custom:together
````bash
# ~/.hermes/.env
TOGETHER_API_KEY=your-together-key

세션 중간에 모델 전환:

/model custom:together:meta-llama/Llama-3.3--Instruct-Turbo
/model custom:together:google/gemma-4-31b-it
/model custom:together:deepseek-ai/DeepSeek-V3

Together의 /v1/models 엔드포인트가 작동하므로 hermes model이 사용 가능한 모델을 자동으로 검색할 수 있습니다.

그로크

초고속 추론(Llama-3.3-에서 최대 500tok/s). 작은 카탈로그이지만 대기 시간에 민감한 대화형 사용에 강력합니다.

# ~/.hermes/config.yaml
custom_providers:
  - name: groq
    base_url: https://api.groq.com/openai/v1
    key_env: GROQ_API_KEY

model:
  default: llama-3.3-70b-versatile
  provider: custom:groq
````bash
# ~/.hermes/.env
GROQ_API_KEY=your-groq-key

당혹감

실시간 웹 검색 및 인용을 자동으로 수행하는 모델을 원할 때 유용합니다. 어떤 모델을 사용할 수 있는지 엄격하게 확인하세요. 현재 목록은 perplexity.ai/settings/api에서 확인하세요.

# ~/.hermes/config.yaml
custom_providers:
  - name: perplexity
    base_url: https://api.perplexity.ai
    key_env: PERPLEXITY_API_KEY

model:
  default: sonar
  provider: custom:perplexity
````bash
# ~/.hermes/.env
PERPLEXITY_API_KEY=your-perplexity-key

하나의 구성에 여러 제공자

세 가지 레시피가 구성됩니다. 모두 함께 사용하고 /model custom:<name>:<model>을 사용하여 차례대로 전환합니다.

custom_providers:
  - name: together
    base_url: https://api.together.xyz/v1
    key_env: TOGETHER_API_KEY
  - name: groq
    base_url: https://api.groq.com/openai/v1
    key_env: GROQ_API_KEY
  - name: perplexity
    base_url: https://api.perplexity.ai
    key_env: PERPLEXITY_API_KEY

model:
  default: MiniMaxAI/MiniMax-M2.7
  provider: custom:together      # boot to Together; switch freely after

Troubleshooting

hermes doctor은 #15083에서 CLI 유효성 검사기가 수정된 후 이러한 이름에 대해 Unknown provider 경고를 인쇄하지 않아야 합니다.
제공자의 /v1/models 엔드포인트에 연결할 수 없는 경우(복잡성이 일반적인 경우), hermes model은 강제 거부 대신 경고와 함께 모델을 유지합니다. #15136을 참조하세요.
custom_providers:을 완전히 건너뛰고 CUSTOM_BASE_URL env var와 함께 베어 provider: custom을 사용하려면 #15103을 참조하세요.

올바른 설정 선택

사용 사례	추천
그냥 작동하길 바랄 뿐이야	OpenRouter(기본값) 또는 Nous Portal
로컬 모델, 간편한 설정	올라마
프로덕션 GPU 제공	vLLM 또는 SGLang
Mac / GPU 없음	Ollama 또는 llama.cpp
다중 제공업체 라우팅	LiteLLM 프록시 또는 OpenRouter
비용 최적화	`sort: "price"`을 사용하는 ClawRouter 또는 OpenRouter
최대한의 개인정보 보호	Ollama, vLLM 또는 llama.cpp(완전 로컬)
엔터프라이즈/Azure	사용자 지정 엔드포인트가 있는 Azure OpenAI
중국 AI 모델	z.ai(GLM), Kimi/Moonshot(`kimi-coding` 또는 `kimi-coding-cn`), MiniMax, Xiaomi MiMo 또는 Tencent TokenHub(일류 제공자)

팁

hermes model을 사용하면 언제든지 제공자 간에 전환할 수 있습니다. 다시 시작할 필요가 없습니다. 어떤 제공업체를 이용하든 대화 기록, 기억력, 스킬은 그대로 유지됩니다.

선택적 API 키

특징	제공자	환경 변수
웹스크래핑	파이어 크롤링	`FIRECRAWL_API_KEY`, `FIRECRAWL_API_URL`
브라우저 자동화	브라우저베이스	`BROWSERBASE_API_KEY`, `BROWSERBASE_PROJECT_ID`
이미지 생성	FAL	`FAL_KEY`
프리미엄 TTS 음성	일레븐랩스	`ELEVENLABS_API_KEY`
OpenAI TTS + 음성 전사	오픈AI	`VOICE_TOOLS_OPENAI_KEY`
미스트랄 TTS + 음성 전사	미스트랄	`MISTRAL_API_KEY`
교차 세션 사용자 모델링	혼초	`HONCHO_API_KEY`
의미론적 장기 기억	슈퍼메모리	`SUPERMEMORY_API_KEY`

셀프 호스팅 Firecrawl

기본적으로 Hermes는 웹 검색 및 스크래핑을 위해 Firecrawl 클라우드 API를 사용합니다. Firecrawl을 로컬로 실행하려는 경우 Hermes를 자체 호스팅 인스턴스로 지정할 수 있습니다. 전체 설정 지침은 Firecrawl의 SELF_HOST.md를 참조하세요.

제공되는 혜택: API 키가 필요하지 않으며, 속도 제한도 없고, 페이지당 비용도 없으며, 완전한 데이터 주권이 있습니다.

잃어버린 것: 클라우드 버전은 고급 안티 봇 우회(Cloudflare, CAPTCHA, IP 순환)를 위해 Firecrawl의 독점 "Fire-engine"을 사용합니다. 자체 호스팅은 기본 가져오기 + 극작가를 사용하므로 일부 보호된 사이트가 실패할 수 있습니다. 검색에서는 Google 대신 DuckDuckGo를 사용합니다.

설정:

Firecrawl Docker 스택을 복제하고 시작합니다(5개 컨테이너: API, Playwright, Redis, RabbitMQ, PostgreSQL — ~4- RAM 필요).

git clone https://github.com/firecrawl/firecrawl
cd firecrawl
# In.env, set: USE_DB_AUTHENTICATION=false, HOST=0.0.0.0, PORT=3002
docker compose up -d

인스턴스에 Hermes를 지정합니다(API 키가 필요하지 않음).
```
hermes config set FIRECRAWL_API_URL http://localhost:3002
```

자체 호스팅 인스턴스에 인증이 활성화된 경우 FIRECRAWL_API_KEY 및 FIRECRAWL_API_URL을 모두 설정할 수도 있습니다.

OpenRouter 제공자 라우팅

OpenRouter를 사용하면 제공자 간에 요청이 라우팅되는 방식을 제어할 수 있습니다. provider_routing 섹션을 ~/.hermes/config.yaml에 추가합니다.

provider_routing:
  sort: "throughput"          # "price" (default), "throughput", or "latency"
  # only: ["anthropic"]      # Only use these providers
  # ignore: ["deepinfra"]    # Skip these providers
  # order: ["anthropic", "google"]  # Try providers in this order
  # require_parameters: true  # Only use providers that support all request params
  # data_collection: "deny"   # Exclude providers that may store/train on data

단축키: 처리량 정렬을 위해 모델 이름에 :nitro을 추가(예: anthropic/claude-sonnet-4:nitro)하거나 가격 정렬을 위해 :floor를 추가합니다.

OpenRouter 파레토 코드 라우터

OpenRouter는 코딩 품질 기준(인공 분석으로 순위 지정)을 충족하는 가장 저렴한 모델로 요청을 자동 라우팅하는 실험적 코딩 모델 라우터를 openrouter/pareto-code에 제공합니다. 이 모델을 선택하고 ~/.hermes/config.yaml의 min_coding_score 손잡이를 조정하세요.

model:
  provider: openrouter
  model: openrouter/pareto-code

openrouter:
  min_coding_score: 0.65   # 0.0–1.0; higher = stronger (more expensive) coders. Default 0.65.

참고:

min_coding_score은 model.model이 openrouter/pareto-code인 경우 만 전송됩니다. 다른 모델에서는 이 값이 작동하지 않습니다.
OpenRouter가 사용 가능한 가장 강력한 코더를 선택할 수 있도록 빈 문자열로 설정(또는 줄 제거)합니다. 즉, 플러그인 블록이 생략될 때의 동작이 문서화되어 있습니다.
선택은 특정 날짜의 점수별로 결정적이지만 선택한 실제 모델은 파레토 경계가 이동함에 따라 바뀔 수 있습니다(새 모델, 벤치마크 업데이트).
전체 라우터 동작은 OpenRouter의 Pareto Router 문서를 참조하세요.
주 에이전트 대신 특정 보조 작업(압축, 비전 등)에 Pareto Code 라우터를 사용하려면 해당 작업 아래에 extra_body.plugins을 설정하세요. 보조 모델 → 보조 작업을 위한 OpenRouter 라우팅 및 Pareto 코드를 참조하세요.

대체 제공자

기본 모델이 실패할 때(비율 제한, 서버 오류, 인증 실패) Hermes가 순서대로 시도하는 백업 제공자 체인을 구성합니다. 표준 형식은 최상위 fallback_providers: 목록입니다.

fallback_providers:
  - provider: openrouter
    model: anthropic/claude-sonnet-4
  - provider: anthropic
    model: claude-sonnet-4
    # base_url: http://localhost:8000/v1    # optional, for custom endpoints
    # api_mode: chat_completions           # optional override

레거시 단일 쌍 fallback_model: dict는 여전히 하위 호환용으로 허용됩니다.

fallback_model:
  provider: openrouter
  model: anthropic/claude-sonnet-4

활성화되면 폴백이 대화를 잃지 않고 세션 중간에 모델과 제공자를 교체합니다. 체인은 항목별로 시도됩니다. 활성화는 세션당 한 번만 수행됩니다.

지원되는 제공자: openrouter, nous, openai-codex, copilot, copilot-acp, anthropic, gemini, google-gemini-cli, qwen-oauth, huggingface, zai, kimi-coding, kimi-coding-cn, minimax, minimax-cn, minimax-oauth, deepseek, nvidia, xai, xai-oauth, ollama-cloud, bedrock, ai-gateway, azure-foundry, opencode-zen, opencode-go, kilocode, xiaomi, arcee, gmi, stepfun, lmstudio, alibaba, alibaba-coding-plan, tencent-tokenhub, custom.

팁

폴백은 config.yaml을 통해 독점적으로 구성되거나 hermes fallback을 통해 대화형으로 구성됩니다. 트리거되는 시기, 체인이 발전하는 방법, 보조 작업 및 위임과 상호 작용하는 방법에 대한 자세한 내용은 대체 제공자를 참조하세요.

참조

구성 — 일반 구성(디렉터리 구조, 구성 우선순위, 터미널 백엔드, 메모리, 압축 등)
환경 변수 — 모든 환경 변수에 대한 전체 참조

anchor alias​

anchor alias​

anchor alias​

anchor alias​

anchor alias​

AI 제공자

추론 제공자​

OAuth를 통한 Google Gemini(google-gemini-cli)​

모델 관리를 위한 두 가지 명령​

인류학(원주민)​

GitHub 코파일럿​

일류 API 키 제공자​

xAI(Grok) — 응답 API + 프롬프트 캐싱​

노비타AI​

Ollama Cloud — 관리형 Ollama 모델, OAuth + API 키​

AWS 기반암​

Qwen 포털(OAuth)​

알리바바 코딩 계획​

엔비디아 NIM​

GMI 클라우드​

스텝펀​

포옹 얼굴 추론 제공자​

맞춤형 및 자체 호스팅 LLM 제공업체​

일반 설정​

/model을(를) 사용하여 모델 전환​

Ollama — 로컬 모델, 제로 구성​

vLLM — 고성능 GPU 추론​

SGLang — RadixAttention을 통한 빠른 서비스 제공​

llama.cpp / llama-server — CPU 및 금속 추론​

LM Studio — 로컬 모델이 포함된 데스크탑 앱​

WSL2 네트워킹(Windows 사용자)​

옵션 1: 미러링 네트워킹 모드(권장)​

옵션 2: Windows 호스트 IP 사용(Windows 10/이전 빌드)​

서버 바인딩 주소(NAT 모드에 필요)​

Windows 방화벽​

빠른 검증​

로컬 모델 문제 해결​

WSL2에서 Windows 호스팅 모델 서버로의 "연결이 거부되었습니다"​

도구 호출이 실행되는 대신 텍스트로 표시됩니다.​

모델이 맥락을 잊어버리거나 일관되지 않은 반응을 보이는 것 같습니다.​

시작 시 "컨텍스트 제한: 2048개 토큰"​

응답이 문장 중간에 잘립니다.​

LiteLLM 프록시 — 다중 제공자 게이트웨이​

ClawRouter — 비용 최적화 라우팅​

기타 호환 제공업체​

컨텍스트 길이 감지​

요리책: Together AI, Groq, Perplexity​

함께하는 AI​

그로크​

당혹감​

하나의 구성에 여러 제공자​

올바른 설정 선택​

선택적 API 키​

셀프 호스팅 Firecrawl​

OpenRouter 제공자 라우팅​

OpenRouter 파레토 코드 라우터​

대체 제공자​

참조​

anchor alias

anchor alias

anchor alias

anchor alias

anchor alias

추론 제공자

OAuth를 통한 Google Gemini(`google-gemini-cli`)

모델 관리를 위한 두 가지 명령

인류학(원주민)

GitHub 코파일럿

일류 API 키 제공자

xAI(Grok) — 응답 API + 프롬프트 캐싱

노비타AI

Ollama Cloud — 관리형 Ollama 모델, OAuth + API 키

AWS 기반암

Qwen 포털(OAuth)

알리바바 코딩 계획

엔비디아 NIM

GMI 클라우드

스텝펀

포옹 얼굴 추론 제공자

맞춤형 및 자체 호스팅 LLM 제공업체

일반 설정

`/model`을(를) 사용하여 모델 전환

Ollama — 로컬 모델, 제로 구성

vLLM — 고성능 GPU 추론

SGLang — RadixAttention을 통한 빠른 서비스 제공

llama.cpp / llama-server — CPU 및 금속 추론

LM Studio — 로컬 모델이 포함된 데스크탑 앱

WSL2 네트워킹(Windows 사용자)

옵션 1: 미러링 네트워킹 모드(권장)

옵션 2: Windows 호스트 IP 사용(Windows 10/이전 빌드)

서버 바인딩 주소(NAT 모드에 필요)

Windows 방화벽

빠른 검증

로컬 모델 문제 해결

WSL2에서 Windows 호스팅 모델 서버로의 "연결이 거부되었습니다"

도구 호출이 실행되는 대신 텍스트로 표시됩니다.

모델이 맥락을 잊어버리거나 일관되지 않은 반응을 보이는 것 같습니다.

시작 시 "컨텍스트 제한: 2048개 토큰"

응답이 문장 중간에 잘립니다.

LiteLLM 프록시 — 다중 제공자 게이트웨이

ClawRouter — 비용 최적화 라우팅

기타 호환 제공업체

컨텍스트 길이 감지

요리책: Together AI, Groq, Perplexity

함께하는 AI

그로크

당혹감

하나의 구성에 여러 제공자

올바른 설정 선택

선택적 API 키

셀프 호스팅 Firecrawl

OpenRouter 제공자 라우팅

OpenRouter 파레토 코드 라우터

대체 제공자

참조