※掲載リンクはアフィリエイト広告を含む場合があります。
今日はちょっとマニアックだけど、動画クリエイターなら絶対知っておくべきByteDanceの最強AI「Vidi」について深掘りしていこうと思います。
以前、ポッドキャストで「TikTokの新機能『Smart Split』がすごい」って話をしたの覚えてる?
CapCutには元々あった、「長尺動画を自動でショート動画に分割してくれる機能」。あれがTikTok本体にも実装されたって話。
で、今回のメインテーマは、その「裏側」にいるバケモノAIの話です。
その名も「Vidi」。
INDEX
1. Vidiって何者? (The Brain Behind the Magic)

一言で言うと、「動画の内容を人間並みに(あるいはそれ以上に)理解して、勝手に編集までしちゃうAI」です。
ここがヤバいよVidiさん
ByteDance(TikTokの親会社)が開発したこのモデル、ただ動画を見てるだけじゃありません。

- 時間と場所の完全特定 (Spatio-Temporal Grounding)
- 普通のAI:「この動画のどこかに犬がいる」
- Vidi:「開始3分20秒〜45秒の、画面右下のこの座標に犬がいる」
- ここまで分かってるから、縦型動画への自動リフレーム(切り抜き)が完璧にできるわけです。
- 文脈を読んだ「ハイライト抽出」
- これが「Smart Split」の正体です。
- 「面白いところ」や「オチ」を理解して、何も支持しなくても勝手に切り抜いてくれます。
- 30分以上の長尺動画も一発で処理できるのが強み。これ、他の技術だと結構難しいんです。
つまり、CapCutやTikTokで我々がお世話になっているあの便利機能、その中身こそがこのVidiだったというわけ。
2. 実録:Vidiをローカルで動かそうとして玉砕した話

さて、ここからは失敗談。
「そんなに凄いAIなら、俺のPCで動かせば最強じゃん?」って思うよね。俺も思った。
で、相棒のAIエージェント「Antigravity」と一緒に、このVidi(正確にはオープンソース版のVidi-7B)をローカル環境で動かそうと試みたわけです。
挑んだ環境
- Windows PC (WSL2環境)
- そこそこ強いGPU
結果:惨敗
いやー、キツかった。
まず、環境構築の難易度がエグい。(よくわかってない。以下は箇条書きはAIと進める中で起きたことなんだと思う)
Flash Attentionが入らない。- WSLの依存関係で無限にエラーが出る。
- やっと動いたと思ったら 「CUDA Out of Memory(メモリ足りねえよ)」 で落ちる。
結局、Google Colab(クラウド上の超強いマシン)を使えば動くことは分かったんだけど、「自宅のPCでサクッと全自動動画生成」という夢は、一旦お預けになりました。
教訓
Vidiは「一般人が手元で飼うペット」じゃなくて、「ByteDanceの巨大サーバーという檻の中でこそ輝く猛獣」でした。
素直にTikTokやCapCutの機能として使うのが、現時点では一番賢いし早いです。
3. まとめ:Vidiはどう使うべき?

今回の調査と実験で分かったことはシンプルです。
- Vidiは「動画理解AI」の最先端であることは間違いない。
- TikTok StudioやCapCutの「Smart Split(自動分割)」の裏側には、このVidi(またはその発展版)がいる可能性が極めて高い。
- ローカルで動かすのは修羅の道。エンジニアレベルの知識と、モンスター級のGPUマシンが必要。
結論
「中身を知って、ツールとして使い倒そう」
裏でこんな凄いAIが動いてるって知ってるだけで、ツールの使い方が変わる気がしない?
「あ、今Vidiが俺の動画解析してるな…」って思いながらSmart Splitボタンを押すと、ちょっと愛着が湧くかもしれません。
もし「どうしてもローカルで動かしたい!」っていう猛者がいたら、Google ColabのProプラン契約してから挑むことを強くおすすめします。俺みたいに時間を溶かさないようにね。

このブログ記事は、AIエージェントと共にリサーチ・執筆・画像生成を行いました。
#TikTok #Vidi #ByteDance #AI動画編集 #動画生成AI #CapCut #SmartSplit #クリエイター #テックトレンド #AI活用

