大きな言葉と画像 生成 AI モデル (基礎モデルとも呼ばれる) は、コンテンツ生成に携わる企業や個人に新たな扉を開きました。このブログでは、生成 AI がクリエイティブな仕事にどのような変化をもたらすか、そして私たちがそれをどのように作成し、認識するかについて説明します。
参照: 匿名の入札者がジェフ・ベゾスとの宇宙飛行に2800万ドルを支払う
生成AIとは何ですか?
生成 AI は、現状でも非常に多くのことが可能になります。ブログ記事、コード、詩、さらにはアート作品 (物議を醸しながらも、コンテストで優勝する作品) などの文章や視覚的なコンテンツを生成することができます。一連の次の単語や、前の画像を説明する単語から次の画像を予測することは、ソフトウェアが高度な機械学習モデルを使用することで可能になります。2017 年、Google Brain は、コンテキスト認識テキスト翻訳に LLM を採用した最初の企業となりました。それ以来、Google (BERT および LaMDA モデル)、Facebook (OPT-175B および BlenderBot モデル) などの大手テクノロジー企業や、Microsoft が過半数の株式を保有する慈善団体 OpenAI など、いくつかの大手テクノロジー企業が、重要な生成 AI 自然言語およびテキストから画像へのモデル (テキストには GPT-3、画像には DALL-E2、音声には Whisper) を開発してきました。HuggingFace などのオープンソース サプライヤーや、Mid Journey (コンテストでの勝利に貢献) などのオンライン コミュニティも、生成モデルを開発しています。
これらのモデルのトレーニングには膨大な量のデータと計算リソースが必要であるため、その適用は主に大手テクノロジー企業に限定されています。たとえば、GPT-3 は最初のトレーニングで 45 テラバイトのデータを使用し、予測を生成するために 1,750 億のパラメーターまたは係数を使用しました。GPT-3 の 1 回のトレーニング セッションには 1,200 万ドルの費用がかかりました。中国のモデルである Wu Dao 2.0 には、1 兆 7,500 億の変数が含まれています。企業はモデルを開発するために、より多くのリソース (データ センターの容量とクラウド コンピューティングの資金) を必要とすることがよくあります。
BioNeMo は、生成化学、プロテオミクス、DNA/RNA モデリング用に NVIDIA が開発したスーパーコンピューティング規模のフレームワークです。ただし、生成モデルをトレーニングすると、かなり少ない入力で特定のコンテンツ ドメインに合わせて「微調整」できます。これにより、生物医学分野 (BioBERT)、法律分野 (Legal-BERT)、フランス語 (CamemBERT) など、BERT と GPT-3 のドメイン固有のバリアントがいくつか生まれました。OpenAI は、わずか 100 のドメイン固有のサンプルで GPT-3 の精度と関連性が大幅に向上することを発見しました。
生成 AI アプリケーションを最大限に活用するには、プロセスの開始時と終了後に人間による入力が必要です。
ほとんどの場合、人は創造性を表現する機会を与えられると、それを実行します。しかし、生成モデルが素材を生成するには、人が何らかのトリガーを与える必要があります。さらにインテリジェントな次世代の AI が登場するまでは、「プロンプト エンジニア」は確立された職業になるでしょう。この研究ラインから、DALL-E 2 画像プロンプトを含む 82 ページの本と、ユーザーがわずかな料金でプロンプトを購入および販売できるマーケットプレイスがすでに生まれています。ほとんどのユーザーは、これらのシステムから必要な結果を得るまでに、多くのオプションを試行錯誤する必要があるでしょう。
モデルが生成した素材を注意深く確認し、修正するのは人間の役割です。1 つのドキュメントに、多数のプロンプトの結果が含まれる場合があります。画像の作成には集中的な処理が必要になる可能性があります。ミッド ジャーニーの支援を受けたコロラドの「デジタル修正写真」コンテストで優勝したジェイソン アレンは、80 時間以上かけて 900 回以上のアートワークを作成し、プロンプトを何度も改良したことを記者に明らかにしました。その後、Adobe Photoshop で編集し、別の AI プログラムを使用してシャープにした後、キャンバスに 3 つの作品を印刷しました。
生成 AI モデルの多様性は驚異的です。画像、拡張テキスト形式、電子メール、ソーシャル メディアの投稿、音声録音、コード、構造化データなど、あらゆるものにアクセスできます。オリジナルの文章、翻訳、FAQ、感情分析、要約、さらにはビデオ素材も生成できます。
クリエイティブな世界における生成AIの活用
生成AI アプリケーションは、さまざまな創造的な可能性を実現できます。これらの可能性には以下が含まれます。
自動コンテンツ作成:大規模な言語および視覚コンテンツ制作の自動化 記事、ブログエントリ、ソーシャルメディアの更新は、AI モデルを使用して自動的に生成される可能性のある素材のほんの一例です。素材を頻繁に作成する企業や専門家にとって、これは時間の節約に役立つ方法となるでしょう。
コンテンツの質の向上: AI モデルは大量のデータから学習し、人間が気付かないパターンを検出できるため、AI によって生成されるコンテンツの質は人間が生成したものよりも高くなることがよくあります。これにより、より信頼性が高く有用な情報を提供できる可能性があります。
多様なコンテンツの種類:テキスト、写真、ビデオだけでなく、より多くの素材形式を AI システムで生成できます。これにより、より多様で魅力的な情報をより多くの視聴者に届けることができます。
カスタマイズされた資料: AI モデルは、ユーザーの好みに応じて各ユーザー向けのユニークな資料を作成することができます。この情報を使用して、企業や専門家は、対象とするオーディエンスの共感を得やすい資料を作成し、それが読まれ、共有される可能性を高めることができます。
この技術は創造的な取り組みにおける人間の努力にどの程度似ているのでしょうか?
次のイタリック体のフレーズは、OpenAI の「大規模言語モデル」(LLM) である GPT-3 で作成した文章に対するサンプル応答です。ほとんどの AI 生成資料の長所と短所は、GPT-3 で作成されたテキストで確認できます。まず、提供された文章プロンプトの変更によく対応します。この 1 つの文章にたどり着く前に、いくつかの文章を検討しました。次に、システムによって生成された文章の品質は平均以上です。スペルや文法の誤りはなく、使用されている単語は適切です。3 つ目の問題は、編集が必要であることです。この種の記事の上部にある番号付きリストは標準ではありません。ついに、見落としていた提案が生成されました。例を挙げると、カスタマイズされた資料に関する最後の部分についてはまだ考えていません。
これは、これらの AI モデルが企業にとってどれほど役立つかを示す確かな例です。広告、コンピューター サイエンス、デザイン、芸術、メディア、対人コミュニケーションなど、コンテンツ制作業界に直接関係するさまざまな分野に広範囲にわたる影響を及ぼす可能性があります。素人目には、これは人類が待ち望んでおり、恐れている「人工汎用知能」として受け止められるかもしれません。
参照: 米議会、ハイテク大手を抑制するための5つの法案を提出
結論
ビジネスにおける生成 AI のこれらのいくつかの使用例から、ビジネスとその従業員にもたらされる可能性の探究は始まったばかりであることが明らかです。これらの AI モデルが、その短い存在期間で進化し続けた場合、生み出される可能性のあるすべての可能性と影響を私たちが推測することはほとんど不可能です。たとえば、近い将来、これらのシステムは、電子メール、手紙、記事、ソフトウェア プログラム、レポート、ブログ エントリ、プレゼンテーション、ビデオなど、ほとんどの文章または画像ベースのコンテンツの初稿を生成するための標準となる可能性があります。この領域での改善は、コンテンツの所有権や IP 保護などの問題に広範囲かつ予期しない影響を及ぼすでしょう。それでも、芸術と科学における発見と革新の新しい時代の到来を告げるでしょう。
注目の画像: Freepik による画像
Whitepapers.online を購読して、健康、マーケティング、ビジネス、その他の分野に影響を与えるテクノロジー大手による新しいアップデートや変更について学んでください。また、当社のコンテンツが気に入った場合は、Facebook、WhatsApp、Twitter などのソーシャル メディア プラットフォームで共有してください。