环球热消息:谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了
Jeff Dean 表示:“更多的进展即将到来。”
近几年科技行业疯狂加注超大规模语言模型,一个最主要的成果就是“人工智能创造内容”(AIGC) 技术突飞猛进。两年前 OpenAI 通过 GPT-3 模型展示了大语言模型的多样化实力。而最近各种 AI 基于文字提示生成图片的产品,更是数不胜数。
有趣的是,今年以来 AIGC 的风头基本都被Stable Diffusion、Craiyon、Midjourney等“小玩家”给抢了——像谷歌这样的 AI 巨头,反而没怎么见动静。
(资料图)
但其实谷歌并没有“躺平”。
临近年底,在11月2日早上,谷歌终于放出了大招。这家在 AI 研究上最久负盛名的硅谷巨头,居然一鼓作气发布了四项最新的 AIGC 技术成果,能够根据文本提示生成:
高分辨率长视频
3D模型
音乐
代码
以及可控文本生成技术。
图片来源:Google Research
“用 AI 赋能的生成式模型,具有释放创造力的潜能。通过这些技术,来自不同文化背景的人们都可以更方便地使用图像、视频和设计来表达自己,这在以前是无法做到的,”谷歌 AI 负责人 Jeff Dean 说道。
他表示,经过谷歌研究人员的不懈努力,现在公司不仅拥有在生成质量方面在行业领先的模型,还在这些模型基础上取得了进一步创新。
Jeff Dean图片来源:谷歌
这些创新,包括“超分辨率的视频序列扩散模型”——也即将AI“文生图”扩展到“文生视频”,并且仍然确保超高清晰度。
以及AudioLM,一个无需文字和音乐符号训练,仅通过聆听音频样本,就可以继续生成填补乐曲的音频模型。
从生成文字,到生成代码、音频、图片、视频和3D模型,谷歌似乎正在证明 AIGC 技术的能力还远未达到边界,并且大有用武之地。
接下来,一起好好看看谷歌这次都放了哪些大招。
AI 写作助手,深受刘宇昆喜爱?
说实话,看到谷歌做了一款 AI 写作工具的时候,硅星人是略微有点担心失业的……
但是了解了关于这款工具更多的情况之后,这种心情更多地转化成了欣慰。
我们一直在强调AI背后的“大语言模型”技术背景。而谷歌推出的 LaMDA Wordcraft,就是这样一款将语言模型核心功能发挥到极致的技术
LaMDA Wordcraft是在 LaMDA 大语言模型的基础上开发了一个写作协助工具,是谷歌大脑团队、PAIR(People + AI Research)团队,以及 Magenta 音频生成项目组的合作结晶。
它的作用,是在创作者写作的过程当中,根据现有的文本产生新 的想法,或 者帮助重写已有文句,从而帮助创作者突破“创作瓶颈” (writer"s block)。
Wordcraft 用户界面图片来源: Google Research
LaMDA 本身的设计功能很简单:给定一个单词,预测下一个最有可能的单词是什么,也可以理解成完形填空或者句子补完。
但是有趣的是,因为 LaMDA 的模型规模和训练数据量实在是太大了(来自于整个互联网的文本),以至于它获得了一种“潜意识”的能力,可以从语言中学习很多更高层次的概念——而正是这些高层次概念,对于创作者的工作流程能够带来非常大的帮助。
谷歌在 Wordcraft 用户界面中设计了多种不同的功能,能够让创作者自己调整生成文本的风格。“我们喜欢把 Wordcraft 比喻成‘魔法文字编辑器’,它有着熟悉的网页编辑器的样子,背后却集成了一系列 LaMDA 驱动的强大功能,”谷歌网页如是写道。
你可以用 Wordcraft 重写语句,也可以让他把调节你的原始文本从而“更有趣”(to be funnier) 或者“更忧郁” (to be more melancholy) 一点。
在过去一年时间里,谷歌举行了一个“Wordcraft 作家研讨会”的合作项目,找来了13位专业作家和文字创作者进行了长期深入的合作,让他们在自己的创作过程中借助 Wordcraft 编辑器来创作短篇小说。
值得注意的是,知名科幻作家刘宇昆(热剧《万神殿》背后的小说作者、《三体》英文版译者)也参与了这一项目。
他在写作过程中遇到了一个场景,需要描述在商店里摆放的各种商品——过去此类写作细节比较容易打乱写作思路,但刘宇昆通过 Wordcraft 的帮助可以直接生成一个列表,节约了自己的脑容量,可以专心去写对故事更重要的东西。
图片来源: 新浪微博
而在另一个场景中,他发现自己的想象力被限制了,一直在重复熟悉的概念。于是他将“主动权”交给了 LaMDA,让它来开头,“这样就能够逼迫我探索一些从未想到过的可能性,发现新的写作灵感。”
你可以在 Wordcraft Writers Workshop 的官方页面(阅读原文按钮)中找到刘宇昆在 Wordcraft 帮助下撰写的短篇小说 Evaluative Soliloquies。顺便,他还借用 Imagen 为小说生成了几张插图:
图片来源:Emily Reif via Imagen
超长、连贯性视频的生成,终于被攻破了?
大家对于 AI 文字生成图片应该都不算陌生了。最近一年里,有 DALL·E 2、Midjourney、Stable Diffusion、Craiyon(不分先后)等知名产品问世;而谷歌也有自己的AI 文字转图片模型,并且一做就是两个:Imagen(基于大预言模型和行业流行的扩散模型),和Parti(基于谷歌自家的 Pathways 框架)。
图片来源:Google Research
尽管今年 AIGC 的热闹都被 Stable Diffusion 这些炸子鸡给抢光了,低调沉稳的谷歌并没有躺平。
当其他人都似乎“阶段性”满足于用文字提示做小图片时,谷歌其实已经在加速往前冲了:它比任何人都更早进入了“文字生成高分辨率视频”,这一从未被探索过的复杂技术领域。
“生成高分辨率,且在时间上连贯的视频,是非常困难的工作,” Google Research 高级研究总监 Douglas Eck 表示。
“不过好在,我们最近有两项研究,Imagen Video 和 Phenaki,可以解决视频生成的问题。”
图片来源:Google Research
你可以这样理解:文字转图片就是根据一段文字提示来生成一张(或者多张平行的图片),而 Imagen Video 和 Phenaki 是可以根据多条文字提示,来生成在时序上连贯的多张照片——也就是视频。
具体来说,Imagen Video是通过文本生成图像 的扩散模型,能够生成具有前所未有真实度的高清画面;同时由于建立在基于 Transformer 技术的大规模语言模型上,它也具备极强的语言理解能力。
而 Phenaki 则是完全通过大语言模型,在时序上不断生成 token 的方式来生成视频。它的优势在于能够生成极长(数分钟)的视频,且画面的逻辑和视觉连贯性更强。
两者结合,强强联手,就得到了这样一条清晰度高,视觉和逻辑上也更加连贯的视频。
附:采用的文字提示
一个蓝色的气球插在红杉树的树枝上
镜头从挂着蓝色气球的树上移到动物园门口
镜头快速移动到动物园内
第一人称视角:在一个美丽的花园内飞行
长颈鹿的头从旁边冒出来
长颈鹿走向一棵树
放大长颈鹿的嘴
长颈鹿靠近树枝,拿起一个蓝色的气球
一个带白线的蓝色气球向长颈鹿的头部飞去
长颈鹿在附近咀嚼蓝气球镜头
随着单个蓝气球的飞走而向上倾斜
“说句实在话,这个项目不是我做的,但我觉得它真的非常令人惊讶。”Eck 表示,这项技术最强大之处,就在于可以使用多条文字提示组成的序列,来生成超高清晰度的视频,带来一种全新的故事讲述的能力。
“当然,AI 视频生成技术还处在襁褓阶段,我们非常期待跟更多影视专业人士以及视觉内容创作者合作,看他们会如何使用这项技术。”
Douglas Eck图片来源: 谷歌
无参考音频生成
早年 OpenAI 发布 GPT 初代模型的论文标题很经典:“Language models are few-shot learners”,点出了大语言模型在极少量样本的基础上,就可以在多种自然语言处理类任务上展现出强大的能力——同时, 这个标题预言了今后更强大的大语言模型,能够做到更多更厉害的事情。
而今天,谷歌展示的 AudioLM 纯音频模型就验证了这一预言。
图片来源: Google Research
AudioLM 是一个具备“长期连贯性”的高质量音频生成框架,不需要任何文字或音乐符号表示的情况下,只在极短(三四秒即可)的音频样本基础上进行训练,即可生成自然、连贯、真实的音频结果,而且不限语音或者音乐。
用 AudioLM 生成的语句,在句法和语义上仍然保持了较高的可信度和连贯性,甚至能够延续样本中说话人的语气。
更厉害的是,这个模型最初没有用任何音乐数据进行训练,结果却十分惊人:能够从任何乐器或乐曲录音中进行自动“续写”——这一事实,再一次展现出了大语言模型的真正实力。
下面的音频是一段20秒左右的钢琴曲,先听听感受一下:
实际上只有前4秒是给到模型的提示,后面都是 AudioLM自己“补完”的。而且也只有这一段4秒的音频样本,没有“钢琴”、“进行曲”等之类的专业文字提示作为补充。
“你不需要给它提供整段乐曲来学习,只要给它一小段,他就能直接在音乐的空间里开始续写——任何的音频片段都可以,无论是音乐还是语音。”Eck 表示,这种无参考的音频生成能力,早已超出了人们曾经对于 AI 创作能力的认知边界。
其他 AIGC 技术、产品
除了上述新技术之外,谷歌还宣布了在其他内容格式上的 AI 内容生成技术。
比如,在二维的图片/视频基础上,谷歌还让文字转 3D 模型成为了现实。通过结合 Imagen 和最新的神经辐射场 (Neural Radiance Field) 技术,谷歌开发出了DreamFusion 技术可以根据现有的文字描述,生成在具有高保真外观、深度和法向量的 3D 模型,支持在不同光照条件下进行渲染。
图片来源:DreamFusion: Text-to-3D using 2D Diffusion (dreamfusion3d.github.io)
以及,谷歌在今年 I/O 大会上面向公众推出的尝鲜应用 AI Test Kitchen,也将在近期更新加入 LaMDA 模型创新所解锁的新功能。比如“城市梦想家” (City Dreamer) 来用文字命令建造主体城市,或者“Wobble”来创造会扭动的卡通形象等。
用户可以在对应系统的应用商城中下载 AI Test Kitchen,并且前往谷歌网站申请测试资格,实测审批速度挺快。
AI Test Kitchen 支持 iOS 和 Android 系统/图片来源:谷歌、苹果
“我们在神经网络架构、机器学习算法和应用于机器学习的硬件新方法方面取得的进展,帮助 AI 为数十亿人解决了重要的现实问题,”Jeff Dean 表示。
“更多的进展即将到来。我们今天分享的是对未来充满希望的愿景:AI 正让我们重新想象技术如何能够带来帮助。”
注:封面图来自于谷歌,版权属于原作者。
相关推荐:
最新新闻:
- 出厂即6GHz i9-13900KS上架了 价格很贵
- 天天要闻:4款N卡停产 以后新卡只能买30系和40系了
- 环球动态:NUC玩跨界!英特尔公版NUC X15游戏本预售5999元
- 冠脉支架集采提价超25%,医药行业预期改变了吗?| 见智研究-全球焦点
- 《孤岛惊魂6》开启免费体验12月6日推出异界DLC
- 沉寂十年之后,大宗商品对冲基金强势归来
- 全球新消息丨类银河恶魔城射击游戏《魔骑少女》现已正式上市
- 动态焦点:华硕ROG幻16 2023款曝光 或将搭载13代酷睿和RTX 40显卡
- 损失严重!苹果iPhone产量极具下滑:预计减少5%至10%:环球快看点
- 每日热门:威尔士0-3不敌英格兰!英格兰队世界杯总进球数破百
- 补贴十三年,肥了谁?废了谁?|焦点精选
- 今日播报!高性价比推荐!一线大牌15.6英寸轻薄本3499元秒
- 特斯拉开始从它降价!每千瓦时降约0.35元
- 199元!网易UU加速盒2发布:支持所有游戏主机、VR
- SE公布《浪漫沙加:吟游诗人之歌》8名主角介绍预告:每日速读
- 《街头霸王6》日本相扑E·本田场景音乐欣赏-短讯
- 焦点资讯:任天堂公布《超级马里奥兄弟大电影》第二部预告
- 开发商表示《火星孤征》比《飞向月球》长得多
- 12月PS+会免游戏阵容爆料:《质量效应传奇版》等_观速讯
- 《重生边缘》国际版增加主机版 PC公测12/9-1/15进行:动态
- 天天百事通!《战神:诸神黄昏》幕后系列第七集 展示游戏电影如何构建
- 《最终幻想7:核心危机 再融合》发行预告片公布 全球快资讯
- 时讯:生活模拟游戏《花园小径》将于2023年春季推出
- 精选!世界杯“大嫂团” 内马尔的巴西模特女友热情火辣
- 快讯:影驰全家桶:冬日装机,纯白平价优选,颜值实力兼具
- 每日观察!AMD锐龙7000 3D版未发布即被封神,明年必买
- RGB控制一键超频 耕升GW-SOUL软件详解
- 谷歌手机广告造假 连带广告公司被FCC起诉
- 保护用户不力!Meta欧洲被罚2.65亿欧元_当前要闻
- 《如龙维新极》冈田以藏介绍:沉默寡言的危险剑客
- 天天快资讯:法拉利首款SUV停止接单!已经供不应求了
- 《传送门RTX》12月8日发售 DLSS 3特性展示_天天快看
- 一边办世界杯,一边狂“卖气”!卡塔尔与德国达成一份15年天然气供应协议
- 当前视讯!韩国罢工潮愈演愈烈!与工会谈崩后,政府下达强制开工令
- 出险房企等来了红包_全球快看点
- 【独家】传闻:《使命召唤》以幽灵为主角的内容正在开发
- 快播:苹果AirPods Pro 2耳机-500 只要1399
- 天天通讯!小米12 Pro降到2599 小米12s Ultra也只要4999
- 上财校长称40万博士生月收入仅3000元 建议提高博士生的收入_微动态
- C919大型客机获颁生产许可证_天天速读
- 世界快看点丨第二春?《大镖客2》Steam在线人数超6.6万创下新高
- 天文学家痛斥:美国一卫星比天上99.8%的星星都亮
- 《木卫四协议》前期2个小时视频被泄露
- 世界焦点!《亚当斯一家》真人剧《星期三》豆瓣开分8.1
- 每日热文:《FF7核心RE》新预告:预购开启、12月13日正式推出
- 《瞬息全宇宙》获哥谭奖“最佳影片”
- 角逐元宇宙,索尼也来了!推出360美元可穿戴VR设备 焦点简讯
- 每日讯息!如何在卡牌游戏里体验“满清十大酷刑”?
- 微软收购动视暴雪获得沙特、巴西和塞尔维亚的批准|快报
- 布兰妮在社交媒体疯狂输出 粉丝:她的眼神让人毛骨悚然
- 掌控4610亿美元资产,卡塔尔太后有多牛?:全球观点
- 焦点要闻:买飞机、建机场、收并购,中国物流如何“抄作业”?
- 得罪女性还能挣钱,婚恋博主的另类生意
- 大学生打电竞比赛聊考研 网友:学习好 游戏也打得好
- 今日讯!世界航空界首次:劳斯莱斯成功测试氢动力喷气发动机
- 小米首款台式机来了!小米迷你主机与小米13同步发布
- 火山引擎智能外呼上线抖店,双十一助力商家提升营销转化:全球报资讯
- 天天观天下!小米13跑《原神》30分钟测试:跑满帧 43度不发烫
- 网友曝小米13真机渲染图 你感觉如何?:世界新动态
- 特斯拉Model 3新款将开售:降到20万以内
- 【世界速看料】小米无线鼠标减价 史低价30元
- 发生了什么?上证50暴涨4%,离岸人民币狂拉800点,恒生科技飙升逾7%,债市延续大跌_最新资讯
- 高盛:对冲基金正在大规模做空能源股 环球微动态
- 印度首枚私人太空火箭发射升空,只有6米长、半吨重
- 《怪物猎人崛起:曙光》分享设计草图原画 凶恶怨虎龙霸气外露:环球热门
- LOL心之钢即将迎来削弱:伤害加成从10%下调至5%
- 加密货币贷款公司BlockFi 申请破产保护-当前速看
- 全球今头条!支付宝上线生僻字键盘 可方便6000万人
- 传《真人快打》正统续作或将于TGA公布 30周年纪念作品
- 全球速讯:多人跑团调查冒险游戏《志怪者》测试即将开启
- 拼多多三季度净赚百亿:我们以消费者为中心 规则简单 盈利不是优先目标
- 十六年来首次!日本央行国债持仓罕见亏损63亿美元
- 拼多多支棱起来了?-环球新要闻
- 《三体》动画发布希恩斯海报 他是第三位面壁者:环球新消息
- 《英雄联盟电竞经理》斩获苹果2022年App Store大奖年度中国游戏-滚动