著作権は二の次生成AI開発レースが招いたデータ争奪戦

How Tech Giants Cut Corners to Harvest Data for A.I.

　2021年の後半、対話型AI（人工知能）の「チャットGPT」を手がける米オープンAI社は、ある供給問題に直面していた。

　最新のAIシステムの開発を進める中で、インターネット上にある信頼できそうな英語のテキストデータは、すべて取り込んでしまっていた。しかし、チャットGPTの次世代モデルのために、さらなる学習用データ［data to train］が必要だった。それも膨大な量が。

　そこで同社の研究者たちは、YouTube動画の音声の文字起こし［transcribe the audio］をする音声認識ツール「ウィスパー」を開発した。精度向上に向けてAIに学ばせるための、新しい会話データを手に入れられるようになったのだ。

サンフランシスコにあるオープンAI社の研究者たちは、AI開発のために、YouTube動画の音声を文字起こしして、会話体のテキストデータを蓄積するツールを作りあげた＝ニューヨーク・タイムズ

　社員の間ではその当時、こうしたやり方はYouTubeの利用規定違反の恐れがある、という議論があったことを、事情を知る関係者3人が明らかにした。グーグルが所有するYouTubeは、投稿された動画をYouTubeとは無関係の用途で利用することを禁じているからだ。

　オープンAIの社内チームは最終的に、100万時間超のYouTube動画の音声を文字起こしした、と関係者は証言する。オープンAIのグレッグ・ブロックマン社長もそのチームに加わっており、自ら動画の収集を手伝った、と関係者2人は明かす。文字起こしされたデータは、世界最強のAIモデルのひとつと広く認められており、チャットGPTの最新モデルの基盤システムであるGPT-4に入力されたという。

手順を省略・方針を無視・脱法行為も検討

　AI分野での首位争いは、技術の進化に必要とされるデジタルデータの、なりふり構わぬ争奪戦と化している。ニューヨーク・タイムズの取材により、オープンAIやグーグル、メタなどの巨大IT企業は、そうしたデータを得るために、正規の手順や手続き省略したり、会社の方針を無視したり、脱法行為を検討したりしていたことが明らかになった。

【注目記事を翻訳】連載「NYTから読み解く世界」

YouTubeの動画音声を文字起こししてAI開発に使ったのは、オープンAI社だけではない、とNYTは報じています。グーグル自身もAIの学習データに使っていた、オープンAIのやっていることも知っていたのにとめなかった、と関係者は証言しています。

　フェイスブックとインスタグ…

What's Hot

年に一度も運動遊びをしない子が増加　将来見据えて学習や自己啓発?

「学問は盗まれないよ」　新人芸人おばあちゃんを支えた一言

前日は好機で凡退　悔しくて眠れなかった広島・松山竜平が決勝アーチ

著作権は二の次生成AI開発レースが招いたデータ争奪戦

How Tech Giants Cut Corners to Harvest Data for A.I.

手順を省略・方針を無視・脱法行為も検討

「砲弾不足の状況悪化」　欧米頼みのウクライナ、自国生産がカギに

ゼレンスキー氏とウクライナ前大統領を指名手配　ロシア、容疑は不明

ハマス代表団、休戦交渉へカイロ入り　「組織内で温度差」の報道も

ミャンマー国内避難民、300万人に　クーデター後に急増、支援急務

焼かれた家、略奪、死傷者を見た…紛争続くミャンマー、避難民の窮地

中国政府奨学生が北朝鮮に到着　コロナ禍後、留学生の入国再開

Subscribe to Updates

What's Hot

著作権は二の次 生成AI開発レースが招いたデータ争奪戦

How Tech Giants Cut Corners to Harvest Data for A.I.

手順を省略・方針を無視・脱法行為も検討

関連ニュース

著作権は二の次生成AI開発レースが招いたデータ争奪戦