CNN・Transformer・RNNを統合する新アーキテクチャ「ITNet」が登場

30秒サマリー

積分変換を基盤に、畳み込み・注意機構・再帰を単一の数学的枠組みで統合したAIアーキテクチャが発表された。
画像・テキスト・3D点群・視覚的質問応答など複数タスクで既存の専門モデルに匹敵または超える性能を示した。
モダリティをまたぐ共通演算子の実現は、マルチモーダルAI開発の設計思想を根本から変える可能性がある。

何が起きたか

2026年6月17日、Ashim Dhorら3名の研究者がarXivに論文「ITNet」を投稿した。同論文は、これまで数学的に別物として扱われてきた畳み込みネットワーク（CNN）、再帰型ネットワーク（RNN/LSTM/GRU）、トランスフォーマーの3系統が、「学習可能な積分変換」という単一の数学的対象の特殊ケースとして導出できることを示している。

ITNetの核心は、位置と特徴量の両方に依存する学習可能なカーネルをMLP（多層パーセプトロン）で実装し、ペアワイズ相互作用をモデル化する点にある。論文では、畳み込み、マルチヘッド自己注意、LSTM・GRU・S4・Mambaを含む自己回帰再帰が、それぞれ適切なパラメータ設定のもとでITNetの特殊ケースとして再現できると主張している。また、連続演算子の普遍近似器であることも示されたとしている。

計算効率化のために「タイル化カーネルフュージョン」「重要度重み付きモンテカルロ積分」「学習済み低ランク因子分解」の3技術を開発した。単一のITNetアーキテクチャに軽量なモダリティ固有エンコーダを組み合わせる構成で、ImageNet-1K（画像分類）、GLUE（自然言語理解）、ModelNet40（3D点群）、VQA v2およびNLVR2（視覚的質問応答）の各ベンチマークで、専門モデルに匹敵または上回る性能を報告している。

原典ハイライト

論文は「3系統のアーキテクチャが根本的に異なるのではなく、単一の数学的対象への不完全な視点にすぎない」と主張。共有された単一の学習演算子がデータから3つのアーキテクチャファミリーすべての挙動を回復できることを実験的に示した点が核心。

出典: arXiv cs.AI（論文）

So What?（なぜ重要か）

現在のAI開発では用途ごとにCNN・Transformer・RNNを使い分けるのが常識だが、ITNetが実用化されれば「一つのアーキテクチャで全モダリティ対応」という設計が現実的になる。マルチモーダルAIの開発・運用コストを大幅に圧縮できる可能性があり、基盤モデルの次世代設計思想に影響を与えるとみられる。ただし本論文はプレプリント段階であり、査読・再現性検証はこれからである。

日本企業への示唆

日本企業がAIシステムを内製・調達する際、従来は「画像処理ならCNN」「言語処理ならTransformer」と用途別にアーキテクチャを選定していた。ITNetが普及すれば、単一モデルで複数モダリティを扱えるため、モデル管理・インフラコストの削減、マルチモーダルAI製品の開発工数短縮が期待できる。自社AIの技術スタック見直しを検討する際には、こうした統合アーキテクチャ研究の動向を継続的にモニタリングし、概念実証（PoC）の選択肢に加える価値がある。一方で現時点はプレプリントであり、実運用への採用判断は査読通過・実装公開後が妥当である。

背景・経緯

深層学習では長年、画像にはCNN、系列データにはRNN、自然言語処理にはTransformerという使い分けが定着してきた。近年はMambaなど新型シーケンスモデルも登場し、アーキテクチャの多様化が続いている。ITNetはこれらの分断を数学的に統一しようとする試みで、積分変換という古典的な数学概念をニューラルネットワーク設計に応用している。

AI News JAPAN