抽卡时代,要过去了。
过去一年多, 我们对于AI视频的感受, 实际上能用两个字来归纳, 那就是: 抽卡。输入一段提示词, 点击生成操作, 直直盯着进度条, 等待模型给出几秒钟的画面, 若呈现出来的好看, 便予以留存, 要是不好看, 那就更改词汇再次尝试。它的确能够产出令人惊艳的片段, 然而它给予创作者的, 压根不是一段能够继续用于创作的素材, 而是一张, 抽到了便结束、抽不到就重来的卡片。
最让人觉得抽卡难受之处, 并非画面不够逼真, 而是其具有不可控性, 你所期望的是能有一个达到九分的画面呈现, 然而模型给予你的不过是十个画面片段, 每个片段大概都只有七八分, 并且这些片段相互之间还对不上, 你根本没办法和它去商量说「这个镜头就保持不动, 仅仅把人物的动作改换一下」, 你所能做成的事情仅仅是重新摇一次骰子, 寄希望于下一次能抽到更好的。
但这套玩法, 最近开始出现变化了。在这一两个月当中, 几款新视频模型差不多前后脚现身, 它们的产品形态不一样, 技术路线不一样, 面向的市场也不一样, 然而它们释放出来的信号却意想不到地一致, 竞争的重点并非是谁能够一次性生成一段更具观赏性的视频, 而是谁生成出来的事物能够被持续地进行修改、加以控制以及实现复用。也就是说, AI视频正在从一个出片的机器, 逐渐转变成为一套生产工具。

(图源:Google)
问题随之出现了, 对于AI视频发展到这个阶段而言, 创作者的核心竞争力, 是否会从剪辑方面发生转变, 转变为一种更类似于导演所具备的特质呢, 毕竟如今我们已然无需再去“赌”视频生成的内容了, 如此一来, 更好地进行表达以及镜头设计, 难道不才是未来AI视频创作着重关注的要点吗?
不能二次编辑的视频模型不是好AI
最近热度最高的AI视频, 是那种具备能编辑特性的, 而其中可能当属谷歌和Runway这两家。
端出来的 Runway 所呈现的是 Aleph 2.0, 基于原视频语境进行修改是它所主打具备的能力。也就是说, 它并非将每次生成都视作一张白纸, 而是知晓你手上这段素材当中所包含的内容, 可以在理解原片的状况下进行局部之处的改动, 并非一动就完全推翻重新开始。谷歌方面推出的是 Gemini Omni, 走的是另外一条不同的路径, 侧重于对话式的持续编辑, 你能够如同与人聊天那样逐句往下提出相应要求, 使模型在上一版的基础之上接着去修改, 并非每提出一个全新的需求就再次从头开始进行生成。

(图源:Runway )
比如, 我们在Gemini那儿要求它去生成一段视频, 视频内容是一只白色陶瓷杯放置在木桌上, 镜头是缓慢往前推进的, 杯子旁边呢有着一本笔记本以及一支黑色钢笔, 是自然日光的那种光照情况, 要有真实手机拍摄出来的那种感觉, 背景是普通工作室般的广告质感场景, 而在第一轮的时候, Gemini生成出来的效果就已然很是让人觉得满意了。

(图源:雷科技制图 )
Gemini生成了一段视频, 视频内容是空镜, 画面中有白色陶瓷杯、笔记本、黑色钢笔放在木桌上, 其画面主体明确, 主体包括白色陶瓷杯、笔记本、钢笔、木桌, 镜头从中远景缓慢推近到近景, 这很符合我们的需求, 不过它看起来并不像一段广告片。

(图源:雷科技制图 )
于是, 我们直接要求 Gemini, 使其依据这段素材, 把画面塑造得更具咖啡品牌广告片的模样, 比如说, 给杯中咖啡增添些许细微的热气, 在杯壁添加些柔和的高光, 等等。

(图源:雷科技制图 )
不容易看出来 , 杯子 , 钢笔 , 笔记本 , 甚至于背后的场景不存在变化状态 , 发生改变的事物是什么呢? 是咖啡现实呈现的时间 , 是镜头运动的手法。是热气围绕呈现的那种效果。
这恰恰正是AI视频从生成朝着编辑迈进的那个中间情形, 以前是依据创作需求写一句提示词, 然后等待模型生成视频片段, 现在却变成了先创作出一条基础素材内容, 接着向模型指明哪些地方存在不足, 充当创作者角色的人已然开始如同导演一般给出修改的方向指示了, 只是模型目前还没办法像剪辑软件那样精准地服从这些指示。它不再仅仅处于抽卡阶段, 然而也尚未发展成为那种真正意义上的后期工具。
有 Gemini, 对话式的那种改法子, 仅仅是其中的一条路径。国内存在着可灵, 存在着 Seedance 2.0, 它们处于把关于「能改」这件事情, 朝着更为系统的方向去推进的行径当中, 只是各自所挑选的切入角度不太一样。
可灵O1的打法, 是将一整套活儿收纳进一个引擎之中。生成之事, 修改之举, 参考之行, 风格重绘之变, 镜头延展之态, 这些以往要么无法达成, 要么需在众多工具之间反复切换的事项, 它期望能让你在一处便自始至终完成。这个思路的巧妙之处在于, 它并非把自身当作某个单点功能极为强大的生成器, 而是致力于打造成一张创作台。对于创作者而言, 最令人煎熬的从来不是某一个步骤难度如何, 而是一部片子不得不往来于七八个工具之间, 反复进行导入导出的操作, 可灵试图攻克的恰恰是这一衔接环节上的内耗。

(图源:可灵)
Seedance 2.0 所挑的切口为此多模态, 它针对文字、图片、视频、音频, 将其都变为能够喂进去的参考, 以此用于增强参考生成、视频延展以及音画同步。以往我们谈论视频模型时, 总会下意识地仅仅关注画面是否好看, 然而视频绝不仅仅只是会动的画面, 它是由画面、动作、声音、节奏这几样事物相互咬合而形成的结果。Seedance 把声音以及动作也纳入到可控范畴, 这等同于在提醒一件事情, 视频模型不可以仅仅只会画画, 它还必须要听得懂节奏, 要明确这一刀应该剪在具体哪一拍之上。

(图源:Seedance 2.0 )
话说得更直白些, 从整个视频模型的方向去着眼呢, 那抽卡时代已然是彻底终结了, 接下来迎来的是「可编辑时代」, 这意味着, 哪个模型可以将整个流程贯通、给予用户最为直观的优化提示词以及二次编辑修改方案, 那么谁就能够持续占据优势地位。
AI视频不再碰运气开云app官方最新下载地址开云app在线入口开云app官方入口网站,人类要干的活也变了
整个转了一圈之后, 又返回到最开始的那个问题之上。当人工智能生成视频已然并非是抽卡这种形式的时候, 处于整个工作流程里面的人的角色, 究竟会不会出现变化呢? 我的判断结果是, 会的。
曾经身为一个出色的视频创作者, 仰仗的是剪辑、调色、转场、配乐这类手上功夫, 一帧一帧地抠出自身风格。这些能力不会失效, 然而当模型可听懂「暂留这个运镜, 仅将质感往广告片方向靠拢」之际, 真正产生差距的, 方才演进为另一组事物, 即会不会对镜头予以描述、能不能把控节奏、能不能判断出哪一处应当留存、哪一处需要推倒重新制作。简而言之, 是「拥有导演范之模型」的能力。
剪辑不会被AI视频马上取代, 创作者也不会变成只懂得去写prompt的提示词工人, 说了这两种极端的说法都太简便了。更精准的改变是, 视频生产的重点正从「素材加工」转移至「意图调度」。以前你是亲自一片片剪辑素材来得到完整成片, 今后则更多的是告知模型, 我需要什么、不需要什么 这一版本在哪些地方还欠缺火候。

(图源:雷科技制图 )
至于这套调度能力, 实则是存在门槛的。究竟是谁, 能够将脑海里那个模模糊糊的创意, 拆解成模型能够理解的镜头语言? 又是谁, 在模型输出一版结果之际, 能够瞬间判断出其到底是否可用、欠缺在何处? 倘若如此, 那么这个人便更像是未来的那个「模型导演」了。导演自身不一定手握摄影机, 也不一定剪辑每一帧画面, 然而他明晰整部影片的需求所在, 清楚每个关键节点该朝着哪个方向前行。当AI视频发展到成熟阶段, 创作者所要做的同样是这般事情。
工具发生了更换, 门槛自然而然也就变得不一样了, 然而创作最为核心的那些东西实际上并没有改变, 依旧是你脑海里那个清晰的连贯成片景象, 以及你是否愿意一次次地把模型调整到合适状态。抽卡的时代即将过去了, 充当赌徒的人会越来越少, 真正处于稀缺状态的, 是那个清楚自己想要什么、并且具备能力让模型把想要的东西呈现出来的人。
AI不会取代打工人,但会推着他们向前走
每一回, 当有一个全新的工具, 将某一项手艺活予以自动化处理的时候, 总会有人叫嚷说要没饭碗了, 然而, 回过头去看, 工具的升级, 真正所淘汰的, 从来都不是这群人, 而是他们工作之中, 最为机械的那一部分内容。
电子表格, 那可是相当经典的。早在 VisiCalc 以及后来的 Excel 问世之前, 会计和财务工作者, 得在一天当中花费大量时间, 拿着计算器一格一格地去计算, 一笔一笔地记录账目内容。表格软件出现后, 囊括了所有这些重复的计算工作。结果呢, 并非是会计人员面临失业, 而是他们从单纯的“算数的人”转变成为了“构建模型、洞察趋势、为决策提供参谋建议的人”。原本最枯燥的执行任务被接管, 而腾出来的精力, 反倒使得这份工作变得更具价值意义。
在非线性剪辑软件还未得到普遍应用的时候, 剪辑是切实需要用刀片去切割胶片的, 并且要对着磁带一帧一帧地倒带, 唯有如此, 才会出现“剪视频”这样的说法, 然而, 当Premiere、Final Cut这类软件问世之后, 物理层面意义上的「剪」已然不复存在了, 可是剪辑师并未就此消失, 他们从体力性质的工作中脱离出来, 将注意力转移到了节奏、叙事以及情绪这些处于更高层次的判断方面, 工具所替代的是手上从事的苦力劳动, 而留存下来的是脑子里做出的众多取舍。

(图源:seedance 2.0 )
AI编程助手出现后, 程序员中最早慌的是, “以后是不是就不需要我来写代码了”, 然而实际的变化是, 他们用在逐行敲样板代码上的时间被缩短了, 更多的精力转向审查模型写得是否正确, 思考并理清架构和边界, 判定哪部分可信哪部分需要返工。会写代码依旧很关键, 不过变得更稀缺的能力, 成了明白该让模型写什么。现今流行的Vibe Coding, 在某种程度上来说, 确实使得“入门”的门槛有所降低, 然而, 要是真正从0开启开发直至交付, Vibe Coding所产出的作品常常很难达到合格标准。
在回到 AI 视频自身这件事上, 其接下来的阶段, 比拼的已不再是哪一方的画面更为逼真, 而是哪一方能够做到更加稳定、更加可控、更加便于编辑。对于创作者而言, 也并非仅仅剩下编写提示词这一项工作, 相反其愈发像是一位模型导演, 要明白应当保留什么、修改什么、借助何种参考去对模型加以约束、怎样促使它持续修改直至可用状态。剪辑这项技艺不会消逝, 然而创作者最为珍贵的能力, 正从「对软件运用得多么熟练」, 转变成「对模型调度得多么精准」。
工具持续往上升, 打工人需努力令自身一直处在AI工具无法替代的地方 , 抽卡的时期就要过去了, 赌徒会渐渐变少, 并且真正稀少缺少的, 始终是那个晓得自身想要什么, 且具备本领让模型把它交出来的人。
还木有评论哦,快来抢沙发吧~