OpenAIの動画生成AI「Sora」は、テキスト入力から最長1分間の高解像度動画を生成する革新的な技術です。
従来のAIモデルよりも長尺で高品質な動画を生成でき、写真やイラストから動画を生成したり、既存の動画スタイルを変えたりするなど、多様な機能を備えています。
しかし、その進化した機能性ゆえに、ユーザーが直面する課題も少なくありません。そこでこの記事では、Soraの機能や活用シーン、現時点での課題について解説します。
- 動画制作の効率化・コスト削減を図りたい方
- 新しい動画表現に挑戦したい方
- Soraの機能や活用例を知りたい方
米OpenAIが発表した動画生成AI「Sora」とは?
AI研究開発企業OpenAIは2024年2月15日、テキストを入力するだけで最長1分の高精細な動画を生成することが可能な新AIモデル「Sora」を発表しました。従来の動画生成AIは、1回の生成で4秒、連続生成でも8〜16秒程度しか生成できませんでした。しかし、Soraは最長1分の高精細な動画を生成できます。
これは、ChatGPTなどの言語生成AIに用いられるトランスフォーマー技術(自然言語処理分野で革命を起こした深層学習モデル)と、画像生成AIでよく使われる拡散モデルを組み合わせたAIモデルを採用しているためです。トランスフォーマーはデータ学習が効率的であったため、高度な生成性能につながったとみられています。
動画サイズは、16:9、9:16、1:1に対応予定で、スマホ視聴にも最適化されたサイズで生成できます。また、写真から動画を生成したり、既存動画のスタイルを変更したりするなど、多彩な機能を備えています。
現時点で動画生成AI「Sora」は安全性の確保のために限定公開となっていますが、ビジュアルアーティスト、デザイナー、映画製作者などへのベータ版提供を通じて、実用化に向けた改善が進められています。
Soraの仕組みについて詳しく知りたい方は、以下の記事を参照ください。
リリースは2024年後半を予定
OpenAIのミラ・ムラティCTOは、ウォール・ストリート・ジャーナルのインタビューで、動画生成AI「Sora」を2024年後半にリリースすることを発表しました。
現時点では、Soraの生成コストが画像生成AI「Dall-E」と比較して高いことが課題ですが、リリースまでにコスト削減に取り組んでおり、幅広いビジネスシーンでの活用を目指しています。
DALL-EはOpenAIによって開発されたAIモデルで、テキストの説明から独創的な画像を生成する能力を持ちます。この名前は、画家サルバドール・ダリと有名なピクサーの映画「ウォーリー」を合わせた造語から来ています。DALL-Eは、非常に具体的で複雑なテキストのプロンプトに基づいて、実在しないがリアルに見える画像を生成することができます。
将来的には、Soraの動画に音声合成技術を組み合わせて、音声付き動画の生成も可能にする予定です。
参考:The Wall Street Journal「OpenAI Made AI Videos for Us. These Clips Are Good Enough to Freak Us Out.」
動画生成AI「Sora」の機能
OpenAIが発表した技術レポートから、Soraの4つの主要機能を紹介します。
- テキストから動画を生成
- 画像から動画を生成
- 既存動画の編集
- 新たなシミュレーション機能
それぞれの概要は次の通りです。
テキストから動画を生成
人間のような自然な文章生成能力を持つ言語モデル「GPT(Generative Pre-trained Transformer)」を活用し、ユーザーが入力した短いテキストプロンプトを詳細なキャプション(説明文)に変換します。このキャプションを基に、AIが自動的に動画を制作します。
プロンプト:
暖かく光るネオンとアニメーションの街の看板で埋め尽くされた東京の通りを歩くスタイリッシュな女性。黒いレザージャケットに赤いロングドレス、黒いブーツを履き、黒い財布を持っている。サングラスに赤い口紅。彼女は自信に満ち、さりげなく歩いている。通りは湿っていて反射し、色とりどりのライトの鏡のような効果を生み出している。多くの歩行者が歩いている。
出典:OpenAI「Video generation models as world simulators」
画像から動画を生成
テキストだけでなく画像やイラストもテキストに変換し、動画生成モデルに入力することで、画像から動画を生成できます。
DALL-Eで生成された画像をアニメーション化
DALL-Eで生成された画像をアニメーション化することで、より魅力的な動画表現を実現します。
プロンプト:
豪華絢爛な歴史的ホールで、巨大な高波がピークに達し、砕け始める。その瞬間をとらえた2人のサーファーが、波打ち際を巧みに乗り越えていく。
出典:OpenAI「Video generation models as world simulators」
画像生成機能
最大2048×2048ピクセルの画像生成機能も搭載しています。
プロンプト:
秋の女性のクローズアップ・ポートレート、極端なディテール、浅い被写界深度。
出典:OpenAI「Video generation models as world simulators」
既存動画の編集
生成した動画、または既存の動画をさまざまな方法で編集できます。
生成された動画の拡張
動画の長さを伸ばしたり、ループさせたり、時代を変えたり、アングルを複数パターン用意したりできます。
プロンプト:
無限ループする。
出典:OpenAI「Video generation models as world simulators」
動画のスタイルを変換
入力動画のスタイル(世界観)を、Soraに事前に学習させることなく変換できます。
プロンプト:
舞台をサイバーパンクに変える。
出典:OpenAI「Video generation models as world simulators」
異なる動画を滑らかに繋ぐ
2つの異なる動画の間を滑らかにつなぎます。異なるテーマやシーンを持つ動画間でも、シームレスなトランジションを生成できます。
プロンプト:
2つの動画を滑らかにつなぐ。
出典:OpenAI「Video generation models as world simulators」
新たなシミュレーション機能
動画を大量に学習することで、明示的な指示なしに物理世界の人、動物、世界観の一部をシミュレートし、創造的な動画を生成できます。
たとえば以下の動画は、カメラが移動しても、人物やシーンの要素が3次元空間内で一貫して適切に動くように見えます。
プロンプト:
雪の降る美しい東京の街が賑わっている。美しい雪景色を楽しみ、近くの屋台で買い物をする何人かの人々を追いながら、カメラは賑やかな街の通りを移動する。華やかな桜の花びらが雪の結晶と一緒に風に舞っている。
出典:OpenAI「Video generation models as world simulators」
動画生成AI「Sora」の活用イメージ
近年、動画コンテンツの重要性が高まっており、特に広告やマーケティングの分野ではその効果が非常に大きいことが知られています。しかし、高品質な動画を制作するには、相応の時間とコストが必要になります。こうした中で注目されているのが、動画生成AI「Sora」の活用です。
撮影が困難な映像を生成
Soraを利用することで、従来の撮影方法では困難だった以下のようなシーンをリアルに生成できます。
- ドローンによる空撮
- 近未来の街並み
- 複雑な機器の動き
- 人体の動き
これらの特殊な設備や技術を要するシーンも、Soraを使えば追加コストなしで実現可能です。
ユーザーと自社製品を組み合わせたシミュレーション
商品を購入する際、ユーザーはその商品が自分の生活にどのように溶け込むかをイメージしたいものです。Soraを活用することで、以下のようなシミュレーションが可能になります。
- 家具を実際の部屋に配置して生活している様子を再現
- 場所、天気、会場の雰囲気に合わせて服の着こなしを確認
- 化粧品やメイク道具使用による肌変化のシミュレーション
シミュレーションによって実際に購入してから「イメージと違った」と感じるリスクを減らせます。また、ユーザーの行動データを分析することで、商品開発やマーケティング戦略にも役立てられます。
これらはSoraが持つ可能性の一例に過ぎません。Soraを用いることで、時間とコストを大幅に削減しつつ、想像力を超えたクリエイティブな動画コンテンツを作ることができます。
動画生成AI「Sora」で動画を制作する課題
動画生成AI「Sora」は、映像制作の分野で大きな可能性を秘めている一方で、技術的なリスクを抱えています。
複雑なシーンの正確なシミュレーションが難しい
Soraは高度な動画生成能力を持っていますが、複雑なシーンや因果関係が絡む動きを正確にシミュレートするには限界があります。
出典:OpenAI「Creating video from text」
おばあさんの誕生日パーティの動画です。、おばあさんはケーキに向かって立って、ケーキに息を吹きかけていますがロウソクの火は消えません。
因果関係の理解が不十分
物理世界の存在や動きは理解できますが、特定の行動に対する結果やその影響を完全に再現できないことがあります。
出典:OpenAI「Creating video from text」
コップがひっくり返って中の飲み物がこぼれ出ますが、コップ自体は割れていないにもかかわらず、割れたときのようなこぼれ方をしています。
左と右などの空間的な方向性を混同する可能性
Soraは左と右などの空間的な方向性を混同することがあり、動画の精度に影響を与える可能性があります。
出典:OpenAI「Creating video from text」
男性はランニングマシンを逆走しており、さらにランニングマシンも動いているように見えます。
安全性とディープフェイクへの対策
Soraを始めとした高度な動画生成AIは、実在しない人物や風景をリアルに見える映像として生成できます。そのため、不正確な情報の拡散やディープフェイクによる悪用のリスクが懸念されます。
著作権侵害のリスク
動画生成AIを使用して生成された動画が、既存の映像作品や著作権で保護された素材と類似している場合、著作権侵害の問題が発生する可能性があります。これは、著作権侵害となる要素(入力動画など)を生成に必要なデータとして取り込んでしまうリスクがあるためです。生成動画を公開する際には、著作権法や肖像権法などの法令を遵守し、倫理的な観点からの配慮が必要です。
動画生成AI「Sora」を使ってビジネスレベルで利用可能な動画は制作できるのか?
動画生成AIは大きな可能性を秘めていますが、同時にいくつかの課題も抱えています。ビジネス用途で動画を制作するには、以下の点に注意が必要です。
安全性・正確性
- 動画の安全性・正確性に悪影響を与える要素を排除する
- 動画の内容に合わせた適切なプロンプトを入力する
- 生成された動画の内容を専門家にチェックしてもらう
著作権
- 使用するデータに、著作権で保護された素材が含まれていないことを確認する
- 生成された動画に著作権侵害となる要素が含まれていないか確認する
- 既存の素材を使う場合は使用許諾契約を結び、著作権者の権利を尊重する
企業の広告やプロモーションなど信頼性が求められるコンテンツ制作において、現時点のSoraでは、慎重なチェックと編集作業が必須です。しかし、社内に動画制作の専門知識がない場合、これらの課題への対応が難しい場合があります。
動画生成AIのメリットを最大限に活かし、課題を解決するためには、動画生成AI技術に精通した動画制作会社に依頼するのが最適です。生成AIを導入している動画制作会社なら、低コストで高品質なビジネス向け動画を効率的に制作できます。
Soraを活用したVIDWEBの低コスト・高品質な動画制作サービス
VIDWEBは、OpenAI社のSoraを含む動画生成AIを活用することで、従来の制作方法と比べて低コストで高品質な動画制作サービスを提供しています。
コスト削減
動画生成AIの力により、人件費やスタジオ、機材レンタルなどのコストを削減し、制作プロセスを大幅にスピードアップ。短期間で高品質な動画を制作できます。
プロフェッショナルな編集
AIが生成した映像に人の手をかけることで、独創性と創造性を加えます。プロの編集者が丁寧に編集し、企業のブランドイメージに合った、オリジナリティあふれる動画に仕上げます。
幅広いニーズに対応
商品説明、企業紹介、マニュアル、イベント紹介、採用活動、研修プログラム、営業支援ツール、投資家情報(IR)、広報用動画などさまざまな実績があるため、お客さま様のニーズに合った動画制作サービスを提供できます。
動画生成AI「Sora」の強みと弱点を理解した上で様々な企業活動に利用しましょう
動画生成AI「Sora」は、テキストや画像を入力するだけで、短時間で高品質な動画を自動生成できる革新的なツールです。しかし、生成AIには整合性や独自性の不足、著作権問題といった課題も存在します。
VIDWEBは、これらの課題を克服し、広報、ブランディング、人材採用、マーケティング等、多岐にわたる企業活動をサポートする動画制作サービスを提供しています。 生成AIを活用した動画制作サービスにご興味のある方は、ぜひお気軽にお問い合わせください。