AI学習データに音楽1200万曲超――GoogleやStabilityの利用も確認

30秒サマリー

The Atlanticが音楽AIトレーニングデータセット4種を公開検索可能なデータベースで可視化
最大のデータセットは1200万曲規模、GoogleとStabilityが研究論文で利用を認めている
データ取得にはYouTube・Spotifyの利用規約違反ツールが使われていた可能性が指摘される

何が起きたか

The Atlanticの記者アレックス・ライスナー氏は、AIモデルの学習に使われている音楽データセット4種を特定し、誰でも検索できるデータベースとして公開した。4種のうち2種は規模が特に大きく、それぞれ約1200万曲・約900万曲を含む。残り2種は各10万曲超とやや小規模だが、依然として相当量のトレーニングデータとされる。

これらのデータセットはすでに数千回ダウンロードされており、実際の利用者を特定することは困難だが、GoogleとStabilityの2社は自社の研究論文の中でこれらデータセットを使用したことを認めている。データセットに含まれる楽曲はLady GagaやBruce Springsteen、Radiohead、Wu-Tang Clanら著名アーティストから実験音楽作曲家まで多岐にわたる。

ライスナー氏によれば、4種のうち3種はYouTubeやSpotifyへのリンクリストとして配布されており、AI開発者はログインや広告、収益化の仕組みを自動的に回避するツールを使って実際の音声データをダウンロードしていると説明されている。こうしたツールの利用は各プラットフォームの利用規約に違反するとされる。また、Free Music Archiveのような一部ソースは個人利用の試聴は無料だが、商業利用にはライセンスが必要とのことだ。

原典ハイライト

「3つのデータセットはYouTubeやSpotifyへのリンクリストとして配布されており、AI開発者はログイン・広告・収益化の仕組みを回避するツールで音声をダウンロードしている。こうしたツールはプラットフォームの利用規約に違反する」──ライスナー氏の取材報告より

出典: The Verge（報道）

So What?（なぜ重要か）

AI開発に大規模な著作権音楽データが無断利用されている実態が、検索可能な形で初めて広く可視化された。GoogleとStabilityという大手が利用を認めた事実は、業界全体の慣行に対する法的・倫理的な問い直しを加速させる。規約違反ツールを介したデータ収集という手法は、著作権訴訟リスクだけでなくプラットフォームとの関係にも影響を及ぼしうる。

日本企業への示唆

日本企業がAIモデルを開発・調達する際、学習データの出所と取得手法の精査が不可欠になる。今回のように学習データが事後的に可視化・特定される時代になったことを念頭に置き、①データセットのライセンス条件の確認、②プラットフォーム利用規約への適合、③商業利用に対応したライセンス取得のプロセスを社内ガバナンスとして整備しておくことが求められる。音楽・出版・映像など著作権保護コンテンツを扱うAIプロダクトへの投資判断においても、データ由来のリスクを法務・知財部門と連携して評価すべき局面だ。

背景・経緯

原文によれば、The Atlanticは「AI Watchdog」サイトを運営しており、音楽だけでなく書籍や他メディアも含むAI学習データの検索機能を提供している。今回の音楽データに関する調査はその一環として公開された。AI学習データの著作権問題は世界各地で訴訟が相次いでいるが、原文では個別の訴訟には言及されていない。