AI ニュース: OpenAI の AGI への進歩と最新の動向を探る

OpenAIのAGI開発ロードマップを探索してください。チャットボットからAI組織まで。新しいStrawberry推論技術や、OpenAIまわりの最新ニュースと論争について学びましょう。教育、ビデオ制作など、AIがどのように変革しているかを発見してください。AI関連のニュースと進展について最新情報を得てください。

2025年1月13日

人工知能の最新の進歩を発見してください。OpenAIのAGIに向けた進捗から、仕事を革新できる新しいAIモデルやツールのリリースまで。このブログ記事では、知っておくべき最も重要なAIニュースと開発の包括的な概要を提供しています。

Open AIの5つのレベルでのAGIへの取り組み
ストロベリー: Open AIの新しい推論技術
Open AIの実践に対する懸念
Dollyイメージモデルの潜在的な更新
ソラからの新しいデモ
仕事でChatGPTを使うためのHubSpotのリソース
Andre Karpathyの新しい教育会社Eureka Labs
Anthropic、Android向けCLAをリリース
Google の新しいAI機能: Gemini Answers、Google Vids、YouTube Music Sound Search
AI訓練データとYouTube動画の盗用をめぐる論争
Microsoft Designerのアプリへの統合
Mistol、Cod Stroll Mambaという言語モデルをリリース
Amazon、Rufus AIショッピングアシスタントを発売
Meta、EUでマルチモーダルモデルを制限
MIDI デバイスを使ってStable Diffusionをコントロール
AIアプリが自撮り写真を3Dプリント可能なキャラクターに変換
AIが歯科X線から性別を正確に判断
Open AI、GPT-4 Miniをリリース
Nvidia とMistol、Mistol Nemoモデルで協力
Google AIが2024年オリンピックに登場

Open AIの5つのレベルでのAGIへの取り組み

Open AIは、人工汎用知能(AGI)に向けた進歩の5つのレベルを概説しています:

チャットボットとコンバーセーショナル言語のAI: このレベルは、ChatGPT、Claude、LLaMaなどのチャットボットや言語モデルの現在の状態を表しています。
人間レベルの問題解決ができる推論システム: Open AIは、この水準に非常に近づいていると主張しています。これは、人間レベルで推論し問題を解決できるシステムを意味しています。
代理人やシステムが代わりに行動できるレベル: このレベルには、フライトの予約、メールの返信、その他の行動を代わりに行うAIエージェントが含まれます。
発明を支援するイノベーションAI: このレベルのAIシステムは、新しいアイデアを生み出し、発明プロセスを支援することができます。
組織の仕事を行うAIと組織: 最終レベルでは、組織全体の仕事を行うことができるAIシステムが含まれます。

Open AIは現在2レベル目の最先端にいると考えており、真のAGIに向けてこれらのレベルを順次進んでいくと期待しています。

ストロベリー: Open AIの新しい推論技術

Open AIは、「Strawberry」というコードネームの新しい推論技術に取り組んでいます。社内文書の情報によると、Open AIのチームはこのプロジェクトを開発し、クエリに対する回答の生成だけでなく、事前の計画立てや自律的なインターネット探索による「深い研究」を行うモデルの創造を目指しています。

Open AIがStrawberryで目指している主な機能は以下の通りです:

長期的な課題や、計画と一連の行動を必要とする複雑な問題の遂行
これらの機能を活用して、コンピューターエージェントの支援を受けながら自律的にウェブを探索し、研究を行うこと

Strawberryの正確な状況については詳細が限られていますが、Open AIが描く5つのAI能力レベルを進んでいく上での重要なステップであり、真のAGIに近づくものと考えられます。以前はこのプロジェクトが「QAR」と呼ばれていたことが報告されていますが、これは公式には確認されていません。

Open AIは今後のモデルについて極端に秘密主義であるため、Strawberryに関する詳細情報は公開間際になるまで明らかにされない可能性が高いです。

Open AIの実践に対する懸念

Open AIは、従業員が職場の問題について政府の規制当局と話すことを違法に禁止し、内部告発者の権利を奪っているという告発を受けて、その業務慣行に scrutiny(注目)が集まっています。

SECの議長宛ての書簡によると、Open AIには従業員による保護対象の開示を禁止する方針があるとされています。これは、同社が以前から従業員に非難発言を禁止する契約を課し、それに違反すると既得の持分を失わされる可能性があると指摘されていた問題の延長線上にあります。

Open AIは従業員の内部告発者保護権を守る方針があると反論していますが、同社の規模と影響力が高まるにつれ、従業員への対応と組織内の潜在的な問題に関する透明性について、懸念が生じています。

Dollyイメージモデルの潜在的な更新

OpenAIのDollyイメージモデルが最近アップデートを受けた可能性があると見られています。これは、モデルのテキスト生成能力が向上し、生成されたテキストが以前よりも判読しやすくなったことから推測されています。

具体的には、Xユーザー「angry penguin」の投稿では、Dollyが生成した画像に明確に「evolve」と表示されているのが確認できます。これは、モデルが以前苦手だったテキストの生成が改善されたことを示しています。

さらに、「ロボットが「Please Subscribe」と書かれた看板を持っている」というプロンプトを与えると、生成された画像のテキストが以前よりも明瞭に表示されるようになったことも指摘されています。

これらの観察結果から、OpenAIがDollyモデルのアップデートを行い、テキスト生成機能を強化した可能性が示唆されています。ただし、具体的な更新内容は公式には確認されていません。

なお、ChatGPT Plusアカウントを持っていない場合は、Bing Image CreatorでフリーのDolly 3モデルを使うことができます。

ソラからの新しいデモ

Soraに関するデモ動画が続々と公開されており、実際に手に入れたいという期待感が高まっています。一方で、Runway Gen 3やLuma's Dream Machineなどの製品も、かなり良質なAI生成動画を作れるようになっているため、Soraへの期待が少し冷めている面もあります。

それでも、Soraが長時間の動画を生成できる点や、Open AIが提供するものはほとんど常に業界標準を設定するという実績を考えると、私はまだ期待を持っています。Matthew Bermanのアカウントで共有された新しいデモ動画は、白黒のクリップや波打つ海の様子など、印象的な内容となっています。当面の間は他のツールで需要を満たせるかもしれませんが、Soraの可能性はまだ大いに期待できるでしょう。

仕事でChatGPTを使うためのHubSpotのリソース

職場でAIを使っている人、または使おうと考えている人は、HubSpotの完全無料のバンドル「Five Essential Resources for Using ChatGPT at Work」をチェックする必要があります。

このリソースには以下のものが含まれています:

ChatGPTの使用可否を判断するためのフローチャート
ChatGPT生成コンテンツがブランドの声に沿っていることを確認するためのテンプレート
AIジェネレーテッドコンテンツの洗練チェックリスト
職場でのAI導入のための包括的なチェックリスト
ChatGPTを使って1日を充実させる方法を紹介した100のアイデア

この完全無料のHubSpotリソースへのリンクは、下記の説明欄にあります。AIをまだ活用していない場合は、NVIDIAのCEO、ジェンセン・ファンが述べたように、AIは21世紀で最も変革的な技術となり、あらゆる業界や生活の側面に影響を与えることを忘れないでください。競合他社がAIを使って仕事の速度と質を向上させている中で、あなたも活用するべきです。

Andre Karpathyの新しい教育会社Eureka Labs

以前OpenAIで働いていたAndre Karpathyが、新しい取り組みを発表しました。彼は「Eureka Labsという名のAIと教育の会社を立ち上げることを嬉しく思う」と述べています。

Eureka Labsでは、「AIネイティブ」の新しい学校を構築しています。彼らによると、深い専門知識と優れた教育能力、無限の忍耐力、世界中の言語に精通した教師は非常に希少であり、80億人全員にチューターを提供することはできません。

この発表によると、Eureka Labsは教師が講義資料を設計し、AIアシスタントがそれをサポート、活用、スケーリングするオンライン教育プラットフォームを構築しています。このAIアシスタントは、学生を講義内容に沿って導くよう最適化されています。

詳細は限られていますが、教師の専門知識と教材をAIモデルに組み込み、AIが学生に個別のチューティングとサポートを提供することで、個々の専門家の影響力と範囲を大幅に拡大できる可能性があります。

Anthropic、Android向けCLAをリリース

AnthropicのCLAが好きな人で、iPhoneを持っていない人には朗報です - Androidでも利用できるようになりました。CLAはしばらくiOSで利用可能でしたが、ついにAndroidバージョンもリリースされました。

私自身は、会話形式の音声部分が非常に優れているため、まだChatGPTアプリの方が好きです。デスクトップでは、CLAやPerplexityを使うことが多いですが、スマートフォンではChatGPTアプリを使うことが多いです。

ただし、ほとんどの人は別々のチャットサブスクリプションを持ちたくないでしょう。なので、AIとの音声対話を望むなら、ChatGPTアプリがよい選択肢です。一方、そこまで気にしない場合は、CLAの方が優れたモデルを手に入れられるでしょう。そして今やAndroidアプリも利用可能になりました。

Google の新しいAI機能: Gemini Answers、Google Vids、YouTube Music Sound Search

Gemini、Googleのアシスタントは、Androidスマートフォンがロック画面のときにも一般的な質問に答えられるようになりました。この機能により、デバイスのロックを解除することなく、すぐに情報を得ることができます。

Googleはまた、Google Vidsという新しいAI搭載の動画作成アプリを発表しました。これはビジネス向けに設計されており、Google Workspaceとの深い統合を特徴としています。Google Vidsでは、プロンプトを入力し、スタイルを選択し、ボイスオーバーと株式フッテージを追加することで、スライド形式の動画を作成できます。

さらに、YouTubeは新機能「YouTube Music Sound Search」を導入しています。これにより、ユーザーがハミングや歌うことで楽曲を特定できるようになり、ShazamのようなサービスがYouTubeに統合されます。

これらのAI搭載の新機能は、生産性、創造性、Googleサービスやプラットフォームのユーザー体験の向上を目指しています。

AI訓練データとYouTube動画の盗用をめぐる論争

今週、さまざまなAIモデルの学習データソースをめぐる論争がありました。Proof Newsの記事によると、Apple、Nvidia、Anthropicが、YouTubeの動画数千本を不正に収集してAIモデルの学習に使っていたと報じられています。

この問題の発端は、オープンソースプロジェクトのUther AIが、「The Pile」と呼ばれる大規模なデータセットを収集したことにあります。このデータセットの相当部分が、YouTubeの動画から直接転写されたトランスクリプトであることが判明しました。

MKBHD、Mr. Beast、PewDiePieなど、多くの人気クリエイターの動画がこのデータセットに含まれていることが確認されました。Proof Newsは、自身のビデオが使用されているかどうかを確認できるサーチエンジンも作成しました。

この問題が表面化すると、Appleは一部の研究目的でこのデータを使用したことを認めましたが、Apple Intelligenceで使用されているモデルはこのデータで訓練されていないと述べています。Microsoft のDesignerプラットフォームでも、YouTubeの動画が無断で使用されていたことが指摘されています。

著作権のある素材を許可なく AIモデルの学習に使うことは、倫理的および法的な問題を提起しています。AI技術の進歩に伴い、データの出所とクリエイターの権利の問題は、業界全体の課題として続いていくことでしょう。

Microsoft Designerのアプリへの統合

Microsoftは、Canvaに似たプラットフォームである「Designer」を展開しました。これは、YouTubeサムネイル、バナー広告、Instagramの画像など、さまざまなコンテンツを作成するためのツールです。このDesignerプラットフォームは、Microsoft社のさまざまなアプリに統合されつつあります。

この統合の主な機能は以下の通りです:

Co-Pilot サイドバー: ユーザーはMicrosoftアプリ内のCo-Pilotサイドバーにアクセスし、目的の画像スタイルを作成できます。
画像生成: Designerプラットフォームはユーザーのプロンプトに基づいて画像を生成し、ユーザーのドキュメント、PowerPoint、その他のMicrosoftツールに直接取り込めます。
モバイルアプリ: MicrosoftはiOSとAndroid向けの無料Designerモバイルアプリも提供しており、ユーザーは外出先でも簡単に画像の作成と編集ができます。

Designerプラットフォームの他の注目機能には以下のようなものがあります:

リスタイル機能: ユーザーが画像をアップロードすると、プ

よくある質問

OpenAIによると、AGIに向けた進歩の5つのレベルは何ですか?

OpenAIが開発中の新しい推論技術「Strawberry」とは何ですか?

OpenAIの方針や従業員との契約に関して指摘されている懸念点は何ですか?

「YouTube Music Sound Search」の新機能とは何ですか?

一部のAIモデルが使用しているトレーニングデータをめぐる問題点は何ですか?