新杀手锏Sora「文字转影片」　马斯克喊「gg humans」

29-2-2024 06:00 PM| 发布者: Cari_Emily | 评论: 1

摘要: 新杀手锏Sora「文字转影片」　马斯克喊「gg humans」 ▲由OpenAI推出的影像生成模型Sora，一出手就震撼市场，直接打趴了包括RUNWAY、Stable Video Diffusion、Pika等公司。（图／阳明交大提供、翻摄自OPENAI官 ...

新杀手锏Sora「文字转影片」　马斯克喊「gg humans」

▲由OpenAI推出的影像生成模型Sora，一出手就震撼市场，直接打趴了包括RUNWAY、Stable Video Diffusion、Pika等公司。（图／阳明交大提供、翻摄自OPENAI官网）

不出手则已，一出手就是横扫市场！OpenAI继2022年11月底发表文字生成式AI「ChatGPT」，相隔才短短15个月，2月16日又推出影片生成AI模型「Sora」，一举将AI应用从文字升级到影片，立马惊艳全球，市场甚至对一分钟以内短影片的动画及广告产业，涌现唱衰声浪。

对于「Sora」的横空出世，有网友在推特上发文，「gg Pixar（皮克斯动画工作室）」，而特斯拉执行长马斯克更直接回文表示，「gg humans」（意指AI将取代人类）。

而就在OpenAI发布「Sora」的前几个小时，Google也在15日发表了最新的Gemini 1.5模型，可一次处理大量资讯，包括1小时的影片，不过经过网友们的测试，Gemini 1.5最后生成的产品一定都会「种族多元化」，遭到 Google暂时下架。

其实在2023年，也有数个影像生成软体出现，包括RUNWAY Gen-2在6月推出，11月又有Stable Video Diffusion、Pika等模型推出，不过这些模型的影片生成能力，大多仅约3、4秒左右，最长不超过10秒。

而OpenAI的「Sora」一亮相，就立刻震撼全市场。「Sora 是一个AI模型，可根据文字指令创建现实且富有想像的场景，产生长达一分钟的视频，同时保持视觉品质并遵守用户的提示。」也就是说，只要输入「Prompt（提示）」文字叙述下指令，Sora就可以生成最长约1分钟的真实度不低的影片。

OpenAI展示数十个由Sora所生成的影片，内容拟真度极高，像是「一名穿着时尚的女子走在充满温暖霓虹灯及招牌的东京街头。她身着黑色皮夹克、红色长裙及黑色靴子，拎着一个黑色包包，戴着太阳眼镜，擦着红色口红，走起路来自信又随性。潮湿的街道反射出七彩灯光，行人熙来攘往。」但影片也出现谬误，例如「一个人在跑步机上跑步的场景，以35毫米拍摄的电影胶片。跑者却是逆向在跑步机上跑步。」

▲一般认为，包括分镜师在内的影像从业人员将受到最大的冲击。（示意图／CTWANT提供）

对此，OpenAI解释，「我们正在教授人工智慧理解和模拟运动中的物理世界，目标是训练模型帮助人们解决需要现实世界互动的问题。」「现实的物理原理及因果关系，仍是Sora最大的问题所在。」

尽管仍不尽完美，「相较于之前的影片生成AI，几乎是小学生对于比大学生。」有Youtuber如此形容。

M观点主持人Mulia认为，「Sora」的出现，势必严重冲击动画及广告产业，尤其广告，一般顶多就是30秒左右，刚好就是「Sora」可处理的长度，他甚至预期，5年后，也许小说家可透过ChatGPT，将小说内容生成剧本，再透过Sora生成一小时影片。

知识力科技执行长曲建仲指出，目前OpenAI对于原理公开并不多，基本上就是使用了「变换模型（Transformer model）」及「扩散模型（Diffusion model）」来对影片结构做了全面创新。扩散模型（Diffusion model）是将真实图片逐渐加入杂讯（Noise），让图片慢慢变成完全的杂讯图片，再反转这个过程，逐渐去除杂讯（Denoise），让图片回复为原来的样子，叫做反向过程（Reverse process）。

「ChatGPT利用token（类似单词的文字语意）来进行文字接龙，产生连续且具有意义的句子及文章，Sora就是利用图片版的token也就是Patch，来创造出具有连贯性的图片。」Youtube频道泛科学院解释道。「这也是AI变成人的里程碑。」

对于Sora的出现，「Sora对于动画产业的影响，并非是全面冲击，反而应该要这样来看，毕竟AI的内容基础，还是由照片来生成，也就是说，如果是纪实类的影片，例如人物类，由于AI已经很容易收集到相关内容所需资料，影响程度就会比较大，至于是创作型的影片，那Sora反倒是一个不错的工具。」

▲知识力科技执行长曲建仲指出，OpenAI基本上就是使用了「变换模型（Transformer model）」及「扩散模型（Diffusion model）」来对影片结构做了全面创新。（图／翻摄自曲博科技教室脸书、翻摄自魔法学院官网）

Youtube频道中二见习中制作人Raymond表示，很多影片在正式拍摄之前，都会有分镜师先进行分镜，最后再由导演来决定如何拍摄，Sora的出现，对于分镜的作业将会有明显的冲击，但是对于编剧及导演来说，则是一个很好用的工具。「对于很多讲述性质的Youtube频道来说，Sora可以生成很多不同段的影片，让他们的影片更加丰富。」

至于Sora需要多少的算力，来生成一则长度约60秒的影片？目前在论坛Reddit就有网友在讨论，也有引用到外媒《Wired》的报导，推估，Sora生成一个1分钟长度的影片，认为大约需要一个小时。这也说明了目前Sora并没有开放给一般民众使用，而是仅给OpenAI内部及部分的动画家、导演等来测试。

而Sora何时会像ChatGPT一样普及？目前OpenAI并没有时间表。OpenAI正在跟「错误讯息、仇恨内容和偏见等领域的领域专家」对模型进行对抗性测试，另外也在建立工具来帮助侦测误导性内容，例如侦测分类器，以判断Sora何时产生影片。