본문으로 건너뛰기

이미지 생성

Hermes Agent는 FAL.ai를 통해 텍스트 프롬프트에서 이미지를 생성합니다. Nine 모델은 다른 속도, 품질 및 비용 거래와 함께 상자에서 지원됩니다. 활성 모델은 hermes toolsconfig.yaml의 persists를 통해 사용자 구성이 가능합니다.

지원된 모델

주요 특징제품 정보설명가격대비
fal-ai/flux-2/klein/9b (기본값)<1s빠른, crisp 텍스트$0.006/MP
fal-ai/flux-2-pro~6s스튜디오 photorealism$0.03/MP
fal-ai/z-image/turbo~2s이중 언어 EN/CN, params$0.005/MP
fal-ai/nano-banana-pro~8sGemini 3 Pro, 심도, 텍스트 렌더링$0.15/이미지 ()
fal-ai/gpt-image-1.5~15s연락처$0.034/이미지
fal-ai/gpt-image-2~20sSOTA 텍스트 렌더링 + CJK, 세계 인식 photorealism$0.04–0.06/이미지
fal-ai/ideogram/v3~5s회사 소개$0.03–0.09/이미지
fal-ai/recraft/v4/pro/text-to-image~8s디자인, 상표 체계, 생산 ready$0.25/이미지
fal-ai/qwen-image~12sLLM 기반, 복잡한 텍스트$0.02/MP

가격은 현재 번호에 대한 FAL의 가격입니다. fal.ai를 확인하세요.

설치하기

Nous Subscribers {#setup}

유료 Nous Portal 구독이 있는 경우, FAL API 키 없이 **Tool Gateway**를 통해 이미지 생성을 사용할 수 있습니다. 모든 경로에 걸쳐 모델 선택 persists.

관리 게이트웨이가 특정 모델의 HTTP 4xx를 반환하면, 그 모델은 아직 포털 측에 확증되지 않습니다. 에이전트는 구제 단계 (가입 FAL_KEY를 설정하거나 다른 모델을 선택하세요).

FAL API 키 받기

  1. fal.ai에 가입하세요
  2. 대시보드에서 API 키 생성

모델 구성 및 선택

도구 명령을 실행:

hermes tools

Navigate to ** 무료 이미지 생성**, 당신의 백엔드 (Nous Subscription 또는 FAL.ai)를 선택, 다음 피커는 열 정렬 테이블에 모든 지원 모델을 보여줍니다 - 화살표 키를 탐색, 선택 입력:

  Model                          Speed    Strengths                    Price
fal-ai/flux-2/klein/9b <1s Fast, crisp text $0.006/MP ← currently in use
fal-ai/flux-2-pro ~6s Studio photorealism $0.03/MP
fal-ai/z-image/turbo ~2s Bilingual EN/CN, $0.005/MP...

선택은 config.yaml에 저장됩니다

image_gen:
model: fal-ai/flux-2/klein/9b
use_gateway: false # true if using Nous Subscription

GPT-Image 품질

fal-ai/gpt-image-1.5fal-ai/gpt-image-2 요청 품질은 medium (~$0.034–$0.06/image 에 1024×1024)로 핀으로 꼿습니다. 우리는 low / high tiers를 user-facing 옵션으로 노출하지 않으므로 Nous Portal 청구는 모든 사용자를 통해 예측할 수 있습니다. tiers 사이 비용 스프레드는 3–22×입니다. 저렴한 옵션을 원한다면 Klein 또는 Z-Image Turbo를 선택하세요. 고품질을 원한다면 Nano Banana Pro 또는 Recraft V4 Pro를 사용하세요.

제품 정보

Agent-facing schema는 의도적으로 최소한입니다 — 당신이 형성한 어떤 모델 선택:

Generate an image of a serene mountain landscape with cherry blossoms

Create a square portrait of a wise old owl — use the typography model

Make me a futuristic cityscape, landscape orientation
```

## 종횡비 \{#aspect-ratios}

모든 모델은 에이전트의 관점에서 동일한 세 가지 측면 비율을 허용합니다. 내부적으로 각 모델의 기본 크기 사양은 자동으로 채워집니다

| 에이전트 입력 | image_size (플럭스/z-image/qwen/recraft/ideogram) | background_ratio (나노바나 프로) | image_size (gpt-image-1.5) 이미지 | image_size (gpt-image-2) 이미지 |
|---|---|---|---|---|
| `landscape` | `landscape_16_9` | `16:9` | `1536x1024` | `landscape_4_3` (1024×768) |
| `square` | `square_hd` | `1:1` | `1024x1024` | `square_hd` (1024×1024) |
| `portrait` | `portrait_16_9` | `9:16` | `1024x1536` | `portrait_4_3` (768×1024) |

사이트맵 이미지 2 지도에서 4:3 전 세트 오히려 16:9 그것의 최소한도 화소 조사가 655,360이기 때문에 — `landscape_16_9` 미리 설치 (1024×576 = 589,824) 거절될 것입니다.

이 번역은 `_build_fal_payload()` — 에이전트 코드는 per-model 스키마 차이에 대해 알 필요가 없습니다.

## 자동적인 Upscaling \{#automatic-upscaling}

FAL's **Clarity Upscaler**를 통해 확장은 per-model에 의해 전달됩니다

| 주요 특징 | 업 스케일? | 설명 |
|---|---|---|
| `fal-ai/flux-2-pro` | ✓ | Backward-compat (프리 포커 기본) |
| 다른 사람 | ✗ | 빠른 모델은 그들의 이하 두번째 가치 버팀대를 잃을 것입니다; hi-res 모델은 그것을 필요로 하지 않습니다 |

Upscaling이 실행될 때, 이 설정을 사용합니다:

| 설정하기 | 주요 특징 |
|---|---|
| Upscale 요인 | 2× |
| 창의력 | 0.35 |
| 회사연혁 | 0.6 |
| Guidance 가늠자 | 4 |
| Inference 단계 | 18 |

Upscaling이 실패하면 (network issue, rate limit), 원본 이미지가 자동으로 반환됩니다.

## 내부에서 작동하는 방법 \{#how-it-works-internally}

1. **모델 해상도** — `_resolve_fal_model()` reads `image_gen.model` from `config.yaml`, `FAL_IMAGE_MODEL` env var로 돌아갑니다.
2. **Payload Building** — `_build_fal_payload()`는 `aspect_ratio`를 모델의 네이티브 포맷으로 번역합니다 (이전 enum, 측면-ratio enum, 또는 GPT 리터럴), 모델의 기본 퍼레이드를 병합하고, 모델의 `supports` 화이트리스트에 필터를 적용하여 지원되지 않은 키가 전송되지 않습니다.
3. **Submission** — `_submit_fal_request()` 경로는 직접 FAL 자격 증명 또는 관리 노우스 게이트웨이를 통해.
4. **Upscaling** - 모델의 메타데이터가 `upscale: True`이 있다면만 실행합니다.
5. **Delivery** — 최종 이미지 URL은 에이전트로 반환되며, 이는 플랫폼 어댑터가 네이티브 미디어로 변환하는 `MEDIA:&lt;url&gt;` 태그를 방출합니다.

## 관련 링크 \{#debugging}

디버그 로깅 활성화:

```bash
export IMAGE_TOOLS_DEBUG=true
```

디버그 로그는 `./logs/image_tools_debug_&lt;session_id&gt;.json`로 이동하여 통화 세부 정보 (모델, 매개 변수, 타이밍, 오류).

## 플랫폼 납품 \{#platform-delivery}

| 회사연혁 | 제품 정보 |
|---|---|
| **CLI ** | Markdown으로 인쇄 된 이미지 URL `!(tool-gateway.md)` - 클릭 |
| ** 전보** | caption로 신속한 사진 메시지 |
| **녹음** | 메시지에 내장 |
| **슬랙** | Slack에 의해 unfurled URL |
| WhatsApp에 | 미디어 메시지 |
| **기타 ** | 일반 텍스트의 URL |

## 계정 관리 \{#limitations}

- ** FAL 자격 증명** (direct `FAL_KEY` 또는 Nous 구독)
- **Text-to-image 만 ** — inpainting, img2img, 또는 이 도구를 통해 편집
- ** 임시 URL** — FAL는 시간/일 후에 만료된 URL을 호스팅합니다; 필요한 경우 로컬로 저장하세요
- **PER 모델 제약** - 일부 모델은 `seed`, `num_inference_steps` 등을 지원하지 않습니다. `supports` 필터는 자동으로 지원되지 않은 패기; 이것은 예상된 행동입니다