GPT「高仿」问世:GPT-Neo,最大可达GPT-3大小,已开源 | AI日报

news2024/2/23 3:44:45

GPT“高仿”问世:GPT-Neo,最大可达GPT-3大小,已开源

近日,有个名叫 EleutherAI的团队(创始成员为:Connor Leahy,Leo Gao和Sid Black),宣布推出GPT-Neo开源项目,可用于复现GPT系列的各种语言模型,也包括GPT-3。

作者表示,目前他们已经成功制造出GPT-2大小的模型。从项目代码的可扩展性来看,他们预计可以复刻出GPT-3大小的语言模型,甚至比GPT-3更大。不仅如此,由于这是个开源的项目,大家还可以自主训练这些模型(将来也会包括GPT-3)。目前,作者已经给出了详细的训练步骤。

本质上,GPT-Neo有点像是GPT系列的“高仿”项目:GPT-Neo中的各种模型,设计原理接近GPT系列,但代码并不一样。作者们打算尝试各种结构和注意力类型,最终扩展出GPT-3大小的大语言模型。为了实现这一目标,他们从复现GPT系列的模型开始,不断尝试各种模型架构、和各种注意力机制的实现方式。

这里面,融合了各种让模型变得“更大”的研究:例如,多任务学习方法MoE(Mixture of Experts),采用多个专家的结构,将问题空间划分为同质区域,然后采用分发器,决定问题应该问哪些专家。又比如,具有线性复杂性的自注意力机制等。

项目地址:https://github.com/EleutherAI/gpt-neo

智源学者陈文光荣获2020年“CCF杰出贡献奖”

1月18日,中国计算机协会(CCF)发布公告,决定授予智源学者、清华大学陈文光教授2020年“CCF杰出贡献奖”,以表彰他为CSP的权威性、专业性做出的杰出贡献。

“CCF杰出贡献奖”奖励对CCF有独特或重大贡献;就重大问题提出独到观点或建议被CCF采纳并产生良好效果;发起并组织CCF有影响力的新的系列学术会议;推动学会与其他组织合作,促进了CCF的发展;向学会提供大额捐赠或资助;有其他独特或重大贡献的个人或单位。该奖于2010年设立。

陈文光,国内系统研究的领军人物之一,中国计算机学会副秘书长,曾任ACM中国理事会主席、ACM中国操作系统分会ChinaSys主席、ACM 通讯中文版主编等。

陈文光研究概况(转自清华大学计算机科学与技术系的陈文光个人主页):

我长期研究高性能计算编程模型和编译系统,近几年在以图计算系统为代表的新一代大数据处理系统方面取得了进展。

2014年提出并实现了一种单机图处理引擎GridGraph,通过一种基于源和目的节点双层混洗的图数据结构,能够高效利用外存放置图的边,从而实现在单机上处理十亿结点以上的图。GridGraph性能比国际上同类单机图处理引擎如X-STREAM和GraphChi性能提高了一个数量级,论文在USENIX ATC 15上发表。

2016年初,进一步研制成功了名为”双子座“的分布式图计算系统,通过稀疏/稠密双模式计算引擎、稀疏性敏感的紧凑数据结构以及细粒度动态负载平衡等技术,在典型大数据分析应用(如PageRank, ALS等)上的性能是国际同类图计算系统PowerGraph和PowerLyra的十倍以上,是目前流行的大数据系统Spark性能的100倍以上,占用内存仅为其十分之一。论文在OSDI 16上发表。

上述系统软件已在github上开源:https://github.com/thu-pacman

通过北斗卫星定位和AI技术,中国在全球首次实现集装箱码头自动化

1月17日,在天津港集装箱码头自动化驾驶示范区内,25辆无人驾驶电动集装箱卡车成功在全球首次实现集装箱码头无人自动化的实船作业。无人驾驶电动集装箱卡车按照预设指令在自动化轨道桥下精准对位,装载集装箱后从自动化堆场自动驾驶,有序经过自动加解锁站,在北斗导航系统的指引下,按照实时测算的最优行驶线路,停靠到预定地点。然后,由远程控制自动化岸桥,从无人驾驶电动集卡上抓取集装箱,稳稳落在集装箱货轮上,整个流程中没有一名现场工作人员。

集装箱码头自动化升级,有3项关键技术:高精度卫星定位、自动驾驶,远程设备操控。

  • 通过精准的定位,将指定的货物精确地放置在特定的位置,是码头自动化运转的前提。2020年6月23日,北斗系统第55颗导航卫星成功发射。至此,标志着我国建成了独立自主、开放兼容的全球卫星导航系统。

  • 另一方面,自动驾驶技术逐渐成熟,并在货物运输领域率先实现大规模商用。以天津港为例,装载集装箱的货运车依据系统规划的行驶路线,可以精准停靠在预定地点。

  • 远程设备操控,对网络带宽、延迟、稳定性都有很高的要求,这就需要5G网络的支撑。



点击左下角“阅读原文”,了解更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://nwjs.net/news/141832.html

如若内容造成侵权/违法违规/事实不符,请联系七分地网进行投诉反馈,一经查实,立即删除!

相关文章

Neighbor2Neighbor: Self-Supervised Denoising from Single Noisy Images

下面内容来自智源研究院CVPR2021预讲华为诺亚专场 1、深度学习的图像去噪方法面临的挑战 当前方法主要包括三类: 基于监督学习的方法:使用 noisy-clean 图像对进行训练(DnCNN, FFDNet, CBDNet, SGNet)。这类方法的难点在于&…

《Pro/ENGINEER野火版5.0从入门到精通》——1.3 体验Pro/E野火版5.0

本节书摘来自异步社区《Pro/ENGINEER野火版5.0从入门到精通》一书中的第1章,第1.3节,作者 暴风创新科技,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.3 体验Pro/E野火版5.0 Pro/E野火版5.0与其他软件类似,操作程序时…

CVPR 2021评审出炉,评审员奇葩意见遭热议 | AI日报

CVPR 2021评审出炉,评审员奇葩意见遭热议1月18日,CVPR 2021的评审结果出炉。根据CVPR 2021 程序主席、FAIR研究科学家Georgia Gkioxari近日在推特上的发文数据:今年共有7015篇有效提交论文,每篇论文都至少有3个评审结果&#xff0…

书评 | 9 年码龄工程师读 Android 经典

作为一个码龄 9 年的 Android 开发工程师,因业界大前端趋势,从18 年开始更多的时间专注在 React Native 上,Android 相关新技术日渐生疏了。Kotlin 和 Jetpack 等新技术一直缺乏上手了解的机会,是时候通过一本书体系化地了解一下相…

stylegan2 示例命令fused_bias_act.cu环境配置异常(无法打开包括文件: “tensorflow/core/framework/op.h”

在python运行stylegan2示例时,运行过程中,触发fused_bias_act.cu中的异常,可以看到fused_bias_act.cu中实际上是用c/c写的实现代码. 仔细看异常信息会发现这句话 无法打开包括文件: “tensorflow/core/framework/op.h”: 解决策略 1.首先确保你安装了c/c工具集,版本号可以有些…

中科院计算所沈华伟:GNN发展简史,诟病才是成长动力

文:周寅张皓图神经网络(Graph Neural Network)的应用在近年来蓬勃发展,但同时对其质疑也从未消失。诸如对与大规模图数据的存储问题,表达能力问题,以及数据集的规范问题引发了许多讨论。中科院计算所沈华伟…

赠书活动 | 数据挖掘经典入门

赠书活动在 AINLP 公众号。这本书相当受欢迎(前两个版本累计销量超过 5 万册),尤其是受学校青睐——在此也说声抱歉,出于出版时间的原因,很多学校依然采用了旧版作为教材;同时也请知悉,新版已上…

《C语言编程初学者指南》一2.9 理解运算符优先级

本节书摘来自异步社区《C语言编程初学者指南》一书中的第2章,第2.9节,作者【美】Keith Davenport(达文波特) , M1ichael Vine(维恩),更多章节内容可以访问云栖社区“异步社区”公众号查看 2.9 …

产品开发的 11 宗罪

题图 | created by freepik最近图灵君在翻看一本比较小众的书:《硬件产品设计与开发:从原型到交付》,没成想翻开前言和第 1 章都很惊艳,尤其是第 1 章总结的《产品开发的 11 宗罪》,真的让我受益匪浅。因为这篇文章总结…

盘点:2020 年机器学习 10 大进展

转载自:机器之心2020 年因为新冠疫情,很多人不得不在家工作和学习,大量人工智能学术会议也转为线上。不过在去年我们仍然看到了很多 AI 技术领域的进展。DeepMind 研究科学家 Sebastian Ruder 近日帮我们对去年的机器学习社区进行了一番总结。…

《精通自动化测试框架设计》—第1章 1.3节五天太久,还能压缩吗

本节书摘来自异步社区《精通自动化测试框架设计》一书中的第1章,第1.3节五天太久,还能压缩吗,作者陈冬严 , 邵杰明 , 王东刚 , 蒋涛,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.3 五天太久,还能压缩吗两…

终于!有本书把我从“看完就忘、死记硬背”的学习困境中拯救出来了!

设想一下,你面前有一堵由5000个魔方组成的魔方墙,从中间分割成两块,左右各2500个,并且它们的图案完全一致!这时,有人从右边的墙上随机挑选一个魔方,让九个方格中的一个变换颜色,你能…

一秒看遍10万神经元的「绚丽烟花」,AI究竟向大脑学什么?|北大陈良怡专访...

作者:梦佳大脑是人类进化的高级产物,重量约1.5公斤,占体重2%,功耗约20瓦,占全身功耗20%,当前人类对大脑的认识还不足5%,尚无完整的脑谱图可供参考。毫无疑问&…

一本真正讲“大数据”处理思路的书

这是我读到的第一本真正讲“大数据”处理思路的书,我想分享一下我读了这本书的感悟。一般情况下,在面对海量数据的时候,我们的软件架构也会跟着发生变化。当你的数据量在内存里放不下的时候,你就得考虑硬盘;当你的硬盘…

这些代码改变了科学界:从Fortran、arXiv到AlexNet

转自:机器之心2019 年,「事件视界望远镜」团队拍下了第一张黑洞照片。这张照片并非传统意义上的照片,而是计算得来的——将美国、墨西哥、智利、西班牙和南极多台射电望远镜捕捉到的数据进行数学转换。该团队公开了所用代码,使科学…

不存在完美的入门书,但是有些书在某些方面很惊艳

题图 | Technology vector created by stories - www.freepik.com前段时间收到了明发哥翻译的《Android 编程权威指南(第4版)》,许久没有打开纸质书,但翻阅时的纸墨味儿依旧,仿佛回到了几年前初学 XML 布局的时候。我从…

两院院士评选2020年中国、世界十大科技进展揭晓,「机器学习模拟上亿原子」等入选 | AI日报...

两院院士评选2020年中国、世界十大科技进展揭晓,「机器学习模拟上亿原子」等入选由中国科学院、中国工程院主办,中国科学院学部工作局、中国工程院办公厅、中国科学报社承办,腾讯集团发展研究办公室协办的中国科学院院士和中国工程院院士投票…

一本书带你入门商业数据科学

老马(Matt Taddy)是 Central Economics Team 的 VP,亚马逊北美首席经济学家。相当于大型智囊团里的二当家的。在来亚马逊之前,老马是芝加哥大学布斯商学院的明星教授,他是学数理统计出身的,一开始教授的是统…

面对500篇GNN论文,心态差点儿崩了,幸好我有这本小书

题图 | Computer vector created by stories - www.freepik.com说起来,大学时代的图灵君也算得上是零挂科修完全部计算机课程的人才。怀着对前沿技术的满腔热忱,年(yī)纪(tu)轻(xi)…

《因果科学周刊》第7期:2021因果强化学习第一课

为了帮助大家更好地了解因果科学的最新科研进展和资讯,我们因果科学社区团队本周整理了第7期《因果科学周刊》,推送近期因果科学领域值得关注的论文和资讯信息。本期的主题是“因果强化学习”,它在众多通向通用人工智能的路径中备受关注&…