How Tech Giants Cut Corners to Harvest Data for A.I.

 2021年の後半、対話型AI(人工知能)の「チャットGPT」を手がける米オープンAI社は、ある供給問題に直面していた。

 最新のAIシステムの開発を進める中で、インターネット上にある信頼できそうな英語のテキストデータは、すべて取り込んでしまっていた。しかし、チャットGPTの次世代モデルのために、さらなる学習用データ[data to train]が必要だった。それも膨大な量が。

 そこで同社の研究者たちは、YouTube動画の音声の文字起こし[transcribe the audio]をする音声認識ツール「ウィスパー」を開発した。精度向上に向けてAIに学ばせるための、新しい会話データを手に入れられるようになったのだ。

サンフランシスコにあるオープンAI社の研究者たちは、AI開発のために、YouTube動画の音声を文字起こしして、会話体のテキストデータを蓄積するツールを作りあげた=ニューヨーク・タイムズ

 社員の間ではその当時、こうしたやり方はYouTubeの利用規定違反の恐れがある、という議論があったことを、事情を知る関係者3人が明らかにした。グーグルが所有するYouTubeは、投稿された動画をYouTubeとは無関係の用途で利用することを禁じているからだ。

 オープンAIの社内チームは最終的に、100万時間超のYouTube動画の音声を文字起こしした、と関係者は証言する。オープンAIのグレッグ・ブロックマン社長もそのチームに加わっており、自ら動画の収集を手伝った、と関係者2人は明かす。文字起こしされたデータは、世界最強のAIモデルのひとつと広く認められており、チャットGPTの最新モデルの基盤システムであるGPT-4に入力されたという。

手順を省略・方針を無視・脱法行為も検討

 AI分野での首位争いは、技術の進化に必要とされるデジタルデータの、なりふり構わぬ争奪戦と化している。ニューヨーク・タイムズの取材により、オープンAIやグーグル、メタなどの巨大IT企業は、そうしたデータを得るために、正規の手順や手続き省略したり、会社の方針を無視したり、脱法行為を検討したりしていたことが明らかになった。

  • 【注目記事を翻訳】連載「NYTから読み解く世界」

YouTubeの動画音声を文字起こししてAI開発に使ったのは、オープンAI社だけではない、とNYTは報じています。グーグル自身もAIの学習データに使っていた、オープンAIのやっていることも知っていたのにとめなかった、と関係者は証言しています。

 フェイスブックとインスタグ…

共有