“卖铲人”也坐不住了!英伟达发布视频AI大模型论文 有望深度赋能自动驾驶
《科创板日报》4月21日讯(编辑 邱思雨)近日,英伟达与慕尼黑大学等院校的研究人员联合发布了一篇有关视频潜在扩散模型(VideoLDM,Latent Diffusion Model)的论文,该模型能够将文本转换成视频,实现高分辨率的长视频合成。相关论文已经发表在预印本网站arXiv上。
研究人员给出“一个泰迪熊正在弹电吉他、高清、4K”等文本提示词后,运用VideoLDM,成功生成了相关视频(已转为GIF格式):
(资料图片)
目前,VideoLDM生成视频的最高分辨率可达2048×1280、24帧。研究团队仅公布了论文和一些成品视频案例,暂未开放试用。
据介绍,相对来说,该模型对于训练和计算的要求较低。在文字大模型、文生图大模型发展迅速的当下,受限于视频训练数据的计算成本高昂以及缺乏大规模公开可用的数据集等原因,视频大模型的发展相对较慢。VideoLDM则成功解决了这个关键问题。
从原理上来分析,VideoLDM基于图像数据集预训练,并在此基础上加入时间维度以形成视频框架,最后在编码的视频序列上进行微调,得到视频生成器。
为进一步提高分辨率,研究人员从时间维度将其与扩散模型upsamplers对齐,并与真实视频对比验证,从而将其转换为时间一致的视频超分辨率模型。
此外,研究人员还微调了Stable Diffusion,将其转换为视频生成器。他们通过对Stable Diffusion的空间层进行简单微调,然后插入时间对齐层,从而实现了视频的生成。
落实到应用层面,研究人员给出了两大具有潜力的应用领域:一是驾驶数据的高分辨率视频合成,能够模拟特定驾驶场景,在自动驾驶领域中具有巨大的应用潜力;二是创意内容的生成。
在论文中,团队给出了几个驾驶场景视频的生成案例:
目前,在自动驾驶领域,AI大模型被认为能够赋能感知标注、决策推理等环节。
华泰证券分析师黄乐平、陈旭东等于4月13日发布研报指出,AI大模型有望解决行业数据标注准确率及成本困境。该机构以DriveGPT为例进行分析,大模型能够将交通场景图像的标注费用从行业平均约5元/张降至约0.5元/张。
与此同时,机构还认为大模型将赋能场景生成、轨迹预测、推理决策等环节,能够根据驾驶场景序列数据,生成未来可能发生的多种驾驶环境并预测每种情况下车辆行驶轨迹。国泰君安亦指出AIGC将有助于自动驾驶的推进落地。
标签:
相关推荐:
最新新闻:
- “卖铲人”也坐不住了!英伟达发布视频AI大模型论文 有望深度赋能自动驾驶
- 2023上海车展:劳斯莱斯新款幻影高定版亮相 最资讯
- 《全境封锁2》新模式IGN 10min实机演示!“深潜”肉鸽新体验-当前速读
- 外媒称《FF16》宣发太多了 应该学学《王国之泪》
- 口腔种植医疗服务收费耗材价格专项治理措施落地 单颗常规种植牙降幅超50% 当前观察
- 每日快播:《小缇娜的奇幻之地》D加密移除 发售至今已一年
- 新消息丨女高中生遭55岁体育老师猥亵:对方欲13万私了,警方称证据不足未予立案
- 4nm Zen4!宏碁全球首发AMD锐龙9 7940H笔记本|看热讯
- 小米13 Ultra今天首销!销售火爆、1TB版本热销缺货|全球资讯
- 添可新品发布会赋予行业顶端标准:打败自己即达巅峰
- AMD Zen4曝光:性能反杀锐龙9:世界独家
- 环球观热点:追觅科技正式入驻山姆会员店 高品质清洁生活更近一步!
- 今日最新!产品msds是什么意思_msds是什么意思
- Meta裁员上万 旗下游戏开发商均受到严重影响|今日热搜
- 世界观速讯丨系列新作!《全境封锁:中心地带》电影式预告释出
- 每日速看!雅达利现已获得100多个复古游戏IP版权
- 《死亡岛2》通关需15到20小时 全任务完成要30小时
- 广州白云城管快速清理三吨建材 消除误解获好评
- Xbox神秘系列游戏可能要花费10年时间来开发
- 电脑还原系统怎么关闭?win10需要关闭系统还原怎么操作?
- 保存的快捷键是什么?电脑怎么保存文件快捷键?
- FAT和FAT32格式是什么?fat和fat32哪个好?
- RAR文件需要密码吗?压缩文件密码怎么解除?
- ipv6无网络访问权限是什么意思?ipv6无网络访问权限怎么办?
- u盘里的文件夹不见了怎么办?U盘内容无故消失了怎么恢复?
- PING命令是什么?Ping命令及其常用参数详解
- 如何手动清除网络DNS缓存?无法清除dns缓存解决方法步骤
- u盘里的文件夹不见了怎么办?U盘内容无故消失了怎么恢复?
- 电脑开机慢反应慢是什么原因?电脑开机后很卡并且反应慢怎么办?
- 肾好不好 拍拍后背就知道
- win10中怎么修改鼠标指针方案?个性化鼠标指针的设置教程
- usb键盘驱动怎么修复?usb键盘无法识别的原因及解决办法
- installer文件夹里的文件可以删除吗?移动installer文件夹的方法
- windows图片浏览器无法打开图片怎么办?浏览器如何识别图片?
- dnf双开同步怎么开启?dnf还能双开同步吗?
- mdb文件是什么?mdb格式怎么改成excel?
- 移动硬盘打不开了怎么办?移动硬盘数据如何恢复?
- windows驱动器未就绪怎么回事?安装中驱动器未就绪该怎么解决?
- word光标不见了怎么显示出来?word如何让光标落在指定位置?
- 内存盘是什么?内存条应用介绍
- 手机开机慢怎么回事?手机开机很慢解决方法
- 卓普手机怎么样?卓普手机靠谱吗?
- 怎么用三星S3930连接电脑?快速连接手机和电脑的方法
- 小米电信版和标准版有什么区别?小米移动电信联通哪个好?
- 小米3是否双卡双待?怎么让小米手机变成双卡双待的?
- 如何查看手机流量?如何查手机流量使用情况?
- 诺基亚5233主题下载在哪个位置?诺基亚5233手机主题安装方法
- 李华月打真军有哪几部_网球王子剧场版有哪几部
- iphone5卡贴是干什么?苹果手机用卡贴是咋回事?
- 原来iphone可以称重吗?iphone称重功能怎么用?
- 全球通讯!五部《蜘蛛侠》电影登陆迪士尼+:托比、加菲版今日上线
- 潜行还是射爆?轻肉鸽潜行动作游戏《伪信号(Fake Signal)》STEAM页面公开
- iphone5卡贴是干什么?苹果手机用卡贴是咋回事?
- 原来iphone可以称重吗?iphone称重功能怎么用?
- 索尼lt26ii能卖多少钱?索尼lt26i怎么样? 索尼lt26i手机参数
- 《超越善恶2》仍处于早期开发 育碧在招聘概念美术师
- 环球微资讯!《DOTA2》地图大变样 7.33大展宏图更新宣传片
- 打破次元壁!麦当劳中国携手《机动战士高达》开启霸气合作
- Arkane开发《死亡循环》的原因是不想再做《耻辱3》
- 联想手机质量怎么样?联想手机性能怎么样?
- 133号段为什么是神级号段?133开头是电信的号码吗?
- voto手机怎么样?voto手机好用吗?
- 手机开机很慢是什么原因?手机开机慢的原因和解决方法
- 苹果iPhone2是什么手机?苹果iphone2好用吗?
- 手机ROM是什么意思?rom有什么功能特点?
- 验证码有什么用?手机短信验证码真的安全吗?
- ios15.4.1什么时候更新?ios15正式版推送日期
- 智能手机流量控制如何操作?如何设置手机限制流量使用?
- 焦点热门:USCPA是什么意思?含金量高吗?
- 如何给手机加密锁?手机软件怎样设置密码?
- 省了冰激凌钱?宝马股价暴跌158亿
- 苹果服软!iOS 17开放第三方商店
- 30亿元放烟花!SpaceX星舰发射失败-速讯
- 罕见!华为Mate50全系促销开启
- 为消费而生 探红外未来 飒特红外发布会官宣定档4月28日-全球今亮点
- 国防部新闻发言人谭克非就李尚福部长访问俄罗斯答记者问
- 林肯航海家 vs. 宝马X3:豪华SUV市场的巨头之争
- 追梦恩师:追梦只是强硬不是脏 他能保护勇士队的每个人|今头条
- 环球微资讯!奔驰EQG概念车亮相上海车展!四电机原地掉头
- Focus娱乐收购《模拟火车世界》开发发行商Dovetail
- 社交冒险游戏《未音子的夜市》10.26日登陆主机平台
- 热门看点:2K移除《小缇娜的奇幻之地》D加密 原因未知
- 2023年新奥《布莱泽奥特曼》发布 先行预告片公布
- 《霓虹序列》发售价仅48元,国内二次元已经开始盯上了动作肉鸽
- 世界关注:世说新语作者是哪个朝代(世说新语作者)