ローカルLLM AdapterをBFCLとTerminal-Benchで評価する計画
Posted: | Tags: ai, benchmark, bfcl, local-llm, terminal-bench, tool-calling
先に私の評価結果
- 2026年時点でNvidia 3060 10GBメモリモデルで検証
- 現状のローカルLLMは日本語はかなりのものを返すようになった( 1bit LLMでも割と正しいものを返す )
- ただし tool search , tool use の機能の正確さはまだ良くない( 結構な頻度で失敗する )
- ローカルLLMへの期待としては 1bit LLM かつ tool search 機能を最初から学習したモデルが待たれる
ローカルLLM AdapterをBFCLとTerminal-Benchで評価する計画
ローカル LLM の評価では、model 単体の一般能力と、adapter を含む tool calling 経路の品質を混ぜない方がよい。
今回測りたいのは、Hermes 3 Llama 3.1 8B の総合知能ではなく、Hermes adapter が Codex CLI 互換の tool call をどれだけ安定して成立させるかである。
そのため、評価対象を次の 3 層に分ける。
| 層 | 評価したいもの |
|---|---|
| adapter-native | parser、tool routing、warning filter、output relay、suppression |
| proxy / CLI | OpenAI-compatible proxy、Responses 変換、Codex CLI JSONL |
| terminal task | terminal agent としての最終タスク達成 |
BFCLとTerminal-Benchの位置づけ
BFCL は function calling の評価に近い。adapter の tool schema 変換、arguments、tool name、malformed recovery を見るには相性がよい。
Read more...