著作権は二の次生成AI開発レースが招いたデータ争奪戦

How Tech Giants Cut Corners to Harvest Data for A.I.

　2021年の後半、対話型AI（人工知能）の「チャットGPT」を手がける米オープンAI社は、ある供給問題に直面していた。

　最新のAIシステムの開発を進める中で、インターネット上にある信頼できそうな英語のテキストデータは、すべて取り込んでしまっていた。しかし、チャットGPTの次世代モデルのために、さらなる学習用データ［data to train］が必要だった。それも膨大な量が。

　そこで同社の研究者たちは、YouTube動画の音声の文字起こし［transcribe the audio］をする音声認識ツール「ウィスパー」を開発した。精度向上に向けてAIに学ばせるための、新しい会話データを手に入れられるようになったのだ。

サンフランシスコにあるオープンAI社の研究者たちは、AI開発のために、YouTube動画の音声を文字起こしして、会話体のテキストデータを蓄積するツールを作りあげた＝ニューヨーク・タイムズ

　社員の間ではその当時、こうしたやり方はYouTubeの利用規定違反の恐れがある、という議論があったことを、事情を知る関係者3人が明らかにした。グーグルが所有するYouTubeは、投稿された動画をYouTubeとは無関係の用途で利用することを禁じているからだ。

　オープンAIの社内チームは最終的に、100万時間超のYouTube動画の音声を文字起こしした、と関係者は証言する。オープンAIのグレッグ・ブロックマン社長もそのチームに加わっており、自ら動画の収集を手伝った、と関係者2人は明かす。文字起こしされたデータは、世界最強のAIモデルのひとつと広く認められており、チャットGPTの最新モデルの基盤システムであるGPT-4に入力されたという。

手順を省略・方針を無視・脱法行為も検討

　AI分野での首位争いは、技術の進化に必要とされるデジタルデータの、なりふり構わぬ争奪戦と化している。ニューヨーク・タイムズの取材により、オープンAIやグーグル、メタなどの巨大IT企業は、そうしたデータを得るために、正規の手順や手続き省略したり、会社の方針を無視したり、脱法行為を検討したりしていたことが明らかになった。

【注目記事を翻訳】連載「NYTから読み解く世界」

YouTubeの動画音声を文字起こししてAI開発に使ったのは、オープンAI社だけではない、とNYTは報じています。グーグル自身もAIの学習データに使っていた、オープンAIのやっていることも知っていたのにとめなかった、と関係者は証言しています。

　フェイスブックとインスタグ…

What's Hot

覇権国家・アメリカ退場後の世界システム　「存続」「喪失」二つの道

韓国野党、首相の弾劾案提出　「大統領代行」も　27日に採決方針

元県民局長の私的ファイル？続く拡散　なぜ兵庫県はすぐ調べないのか

著作権は二の次生成AI開発レースが招いたデータ争奪戦

How Tech Giants Cut Corners to Harvest Data for A.I.

手順を省略・方針を無視・脱法行為も検討

韓国野党、首相の弾劾案提出　「大統領代行」も　27日に採決方針

ハリス氏の地元で見た、トランプ氏の支持者へのエール　特派員メモ

日本めざす難民学生、外国人が必要な日本　つなぐNPO支える米国人(12/26)

憧れのスイスの国連本部……なのに薄暗かった理由　特派員メモ

ブラジル庶民のおやつ、日系人の苦難に寄せる思い　特派員メモ

22万人犠牲、スマトラ沖地震から20年　次世代への記憶継承が課題

Subscribe to Updates

What's Hot

著作権は二の次 生成AI開発レースが招いたデータ争奪戦

How Tech Giants Cut Corners to Harvest Data for A.I.

手順を省略・方針を無視・脱法行為も検討

関連ニュース

著作権は二の次生成AI開発レースが招いたデータ争奪戦