LoRAだけが正解ではない——Hugging FaceがPEFT手法の比較ベンチマークを公開

30秒サマリー

Hugging FaceがLoRAを含む複数のPEFT手法を同一条件で比較したベンチマークを公開した
画像生成タスクではOFTがLoRAより精度・メモリ効率の両面で優れる結果が出た
自社データでモデルをチューニングする際、LoRA一択でなく複数手法の検討が推奨される

何が起きたか

Hugging Faceは2026年6月18日、パラメータ効率的ファインチューニング（PEFT）手法の比較ベンチマーク結果をブログで公開した。同社のPEFTライブラリには現時点で40以上のPEFT手法が実装されており、LoRAが圧倒的なシェアを占める一方、他手法の実力を客観的に検証した公開ベンチマークはこれまで乏しかった。

同ベンチマークは「数学的推論（LLM）」と「概念学習（画像生成）」の2タスクで構成され、全手法を同一のベースモデル・データセット・コード・ハードウェアで評価した。LLMタスク（Llama-3.2-3B／GSM8K）では、標準LoRAの正解率48.1%に対し、ランク安定化初期化を使ったLoRA変種が53.2%を達成。さらにLilyは54.9%と最高精度を記録したが、必要VRAMは25.6GBとLoRA（22.6GB）より多い。一方BEFTは20.2GBとLoRAより省メモリで32.9%を達成しており、パレートフロンティア上に複数の手法が存在することが示された。

画像生成タスク（FLUX.2-klein-base-4B）では、LoRAのDINO類似度スコア0.697・VRAM9.97GBに対し、OFTは0.708・9.01GBを記録し、精度・メモリ効率の両指標でLoRAを上回った。同社はこの結果を根拠に、LoRAは優れた手法ではあるものの、タスクや制約条件によっては他の手法が最適選択となり得ると結論付けている。

原典ハイライト

Hugging Face公式ブログによると、HubのPEFT関連モデルカード約2万件のうち98.4%がLoRAを採用しており、LoRAの普及はその可視性の高さと自己強化的な普及サイクルによる面も大きいと分析している。同社は「LoRAが必ずしも最良の選択ではない」と明言し、OFTが画像生成タスクでLoRAを精度・省メモリの両面で上回ることをベンチマーク数値で示した。

出典: Hugging Face Blog（公式ブログ）

So What?（なぜ重要か）

これまでLoRAは事実上の業界標準として採用されてきたが、今回のベンチマークは「手法の人気」と「タスク適合性」が必ずしも一致しないことを定量的に示した。特に画像生成や省メモリ要件が厳しいケースでは、OFTなど他手法がより優れたトレードオフを提供する可能性がある。同一条件での比較ベンチマークが公開されたことで、企業がLoRA以外の手法を評価する際のコストが大きく下がった。

日本企業への示唆

自社データでLLMや画像生成モデルをチューニングしている日本企業は、まずHugging FaceのPEFT比較Spaceで自社のタスク（LLMか画像生成か）に近い指標を確認することが現実的な第一歩となる。VRAMが限られたオンプレ環境ではBEFTやLoRA-FAが、精度優先ならLilyやOFTが選択肢に入り得る。また、LoRAの「チュートリアルが多い＝最適」という思い込みを排し、本番適用前に複数手法をPEFTライブラリで統一APIのもと比較検証するプロセスを開発フローに組み込むことを検討したい。

背景・経緯

PEFTはモデル全体を再学習せず少数のパラメータのみを更新することでメモリ消費を大幅に削減するファインチューニング技術群の総称。Hugging FaceはPEFTライブラリとして40以上の手法を統一APIで実装・提供している。LoRAは2021年ごろから普及した比較的初期の手法で、その高い可視性とエコシステム対応の広さが採用率を押し上げてきたと原文は分析している。