07/11
全球AIGC行业新闻
1、GPT-4模型架构等关键信息泄露
2、ACL 2023最佳论文由西安交通大学等颁发
3、李飞飞团队发布“大模型版”机器人
4.微软推出多模态AI模型CoDi
5、百川智能推出130亿参数通用大语言模型
6、北京将发放4000万元算力券支持规模企业
7. 用户抱怨Bing Chat失去创造力
8、Spark大模型带动科大讯飞开发者数量增加85万
9.引入人工智能后电商平台解雇了90%的员工
10、腾讯精艺AI登顶日本麻将平台
11、Data Robot推出大型机器人模型
13. AI优化器帮助大型模型的训练成本减半
1、GPT-4模型架构等关键信息泄露
据爱范儿援引报道称,今日,其GPT-4的大量模型架构、训练成本、数据集等大量信息被泄露。 爆料人表示,GPT-4架构的封闭性是因为他们构建的东西是可复制的。 、Meta、、、、腾讯、字节跳动、百度等短期内都会有像GPT-4一样强大的模型。
据介绍,在模型架构方面,GPT-4的规模是GPT-3的10倍以上。 作者认为GPT-4包含120层1.8万亿个参数,而GPT-3只有约1750亿个参数。
使用混合专家 (MoE) 模型保持成本合理。 具体来说,GPT-4有16个专家模型,每个专家大约有1110亿个MLP参数。 其中,使用两个专家模型进行前向传播。 此外,注意力机制共享约550亿个参数。 每次前向传播推理(生成令牌)仅利用约 2800 亿个参数和计算。
从数据集构成来看,GPT-4的训练花费了13万亿个token数据集。 该数据集还包含许多纪元,因为没有高质量的代币。
并行策略方面,采用8路张量并行,因为最多只支持这么多。 但除此之外,爆料作者听说使用了15条并行管道。
从训练成本来看,训练 GPT-4 的 FLOPS 约为 2.15e25,在约 25,000 个 A100 上训练 90 至 100 天,利用率在 32% 至 36% 之间。
原文链接:
2、ACL 2023最佳论文由西安交通大学等颁发
据ACL 2023官网消息,今年AI峰会ACL 2023的获奖论文日前公布。 最佳论文奖3项,特别奖4项,优秀论文39篇。 此外,还有区域主席奖,由每个领域的高级主席提名。 据统计,获奖论文占投稿总数的1.5%-2.5%。 今年的获奖论文不少来自国内机构和中国学者,涉及西安交通大学、清华大学、中国科学技术大学、智普人工智能等。
ACL 2023三篇最佳论文简介及地址如下:
(1) 你会嘲笑羊吗? 《新报》的幽默“”
作者:Jack、Ana、Jena D. Hwang、Lee、Jeff Da、Rowan 和 Yejin Choi
论文地址:
(2)什么是DAAM:使用Cross
作者:Tang、Liu、Jiang、Gefei Yang、Karun Kumar、、Jimmy Lin 和 Ture
论文地址:
(3)从数据到任务:从of到NLP
作者:Feng、Chan Young Park、Yuhan Liu 和 Yulia
论文地址:
3、李飞飞团队发布“大模型版”机器人
据《科创板日报》报道,AI科学家李飞飞领导的团队近日发布了具身智能的最新成果:一个大型模型与机器人连接,复杂的指令转化为具体的行动计划。 人类可以自由地使用自然语言向机器人发出指令。 指令下,机器人不需要额外的数据和训练。 李飞飞团队将该系统命名为“与需要额外预训练的传统方法相比,该方法使用大型模型来指导机器人如何与环境交互,因此直接解决了机器人训练数据稀缺的问题。
4.微软推出多模态AI模型CoDi
据微软官网消息,近日,微软Azure认知服务研究团队与北卡罗来纳大学教堂山分校合作开发了一种名为“ (CoDi)”的AI模型,该模型可以同时处理和生成任意组合的内容的方式。
据悉,CoDi采用了一种新颖的可组合生成策略,通过在扩散过程中桥接对齐来构建共享的多模态空间,从而能够同步生成交织模态,例如视频和音频的时间整合。 对齐。
5、百川智能推出130亿参数通用大语言模型
今天,百川智能推出了通用大语言模型-13B-Base、对话模型-13B-Chat以及参数量达130亿的两个量化版本的INT4/INT8。
这是百川智能发布的第二个通用大语言模型。 不久前的6月15日,百川智能推出了首个70亿参数的中英语言模型——7B。 与之前发布的-7B相比,-13B在1.4万亿代币数据集上训练,超越LLaMA-13B 40%,是目前开源13B规模下训练数据量最大的模型。
-13B上下文窗口长度为4096,与-7B的RoPE编码方式不同,-13B采用ALiBi位置编码技术,可以处理长上下文窗口,甚至可以在训练时推断超出读取数据的上下文长度,从而更好地捕获文本中上下文的相关性,以做出更准确的预测或生成。
开源地址:
脸:
:
6、北京将发放4000万元算力券支持规模企业
据《科创板报》报道,北京市经济和信息化局党组书记、局长姜光智在接受《科创板报》记者专访时透露“北京将以场景和应用为导向。 场景化,推动大模型产业化应用,按季度迭代推出大规模模型应用成果,形成一批人工智能与经济社会发展深度融合的典型案例。
此外,该局正计划通过算力券等形式对模范伙伴、模范观察员进行支持,降低企业培训成本,提高算力对接效率。 第一期预计支持不少于4000万元算力券,补贴给模型合作伙伴企业。
7. 用户抱怨Bing Chat失去创造力
社区用户最近发帖称,微软对 Bing Chat 的限制过于严格,使得 Bing 的答案缺乏创意,只剩下诸如“作为 AI 语言模型,我不……”之类的无聊废话,因此他会弃用该平台。 这篇帖子引起了很多网友的共鸣,目前有259条评论。
8、Spark大模型带动科大讯飞开发者数量增加85万
7月10日晚,科大讯飞披露半年度业绩预告。 据预测,科大讯飞公司上半年预计实现营业收入78亿元,同比下降2.5%; 公司上半年归属于母公司净利润预计为55-8000万元信息架构,同比下降71%-80%。 截至2023年6月30日,讯飞开放平台开发者数量为497.4万(去年同期为343万),近一年增长45%。 其中,讯飞星火认知模型发布后,两个月内开发者数量增加了85万。
9.引入人工智能后电商平台解雇了90%的员工
这家印度电子商务平台的创始人兼首席执行官周一在推特上表示,在引入人工智能聊天机器人回答客户问题后,该公司 90% 的员工已被解雇。 他解释说,引入AI助手后,解决问题的时间从2小时13分缩短到3分12秒。 “考虑到经济状况,初创企业的首要任务应该是‘盈利’,”他说。
10、腾讯精艺AI登顶日本麻将平台
腾讯今日宣布,其自主研发的棋牌人工智能“精艺”在国际知名麻将平台“天风”上达到第十级,刷新了人工智能在麻将领域的最好成绩。 日本在线麻将比赛平台“天风”成立于2006年,拥有系统的比赛规则和专业的排名规则,受到专业麻将界的广泛认可。 截至目前,天风平台活跃人数为23.8万人,能达到第十阶段的只有27人(含AI),不足万分之一。
根据腾讯提供的数据,与其他麻将AI和人类玩家相比,《精艺》不仅拥有更高的稳定排名,而且从零开始达到第十名所需的局数明显更少,只需要1321局。 这些数据的排名都在之前最强的两个日本麻将AI之上。
11、Data Robot推出大型机器人模型
据中新网报道,2023世界人工智能大会期间,云机器人公司达门机器人宣布推出业界首款多模态机器人模型,包括1.0服务平台和1.0一体机产品。
据悉信息架构,基于多模态,具有多模态(文本、语音、图片、视觉、运动、点云等)融合感知、认知、决策和行为生成能力,并基于强化学习依靠人工反馈完成快速智能进化; 结合机器人的具身智能,机器人能够理解人类语言,自动分解、规划和执行任务,进行实时交互,完成复杂的场景应用,推动具身智能的自主进化,让云机器人成为通用人工智能智力。 智慧的最佳载体。 此外,还可以赋能数字人应用,实现虚实融合。
12.美国立法者正在考虑围绕人工智能立法
据外媒报道,美国参议院将于本周二举行首次有关人工智能的机密简报会,期间政府将向参议员介绍人工智能的保密情况。 据报道,参议院民主党领袖查克在一封信中告诉参议员们:“简报将展示美国政府如何使用和投资人工智能来保护我们的国家安全,并了解我们的对手正在利用人工智能做什么……作为立法者的工作是倾听专家的意见,我们尽可能多地学习,以便将这些想法转化为立法行动。”
13. AI优化器帮助大型模型的训练成本减半
据量子比特报道,近日,新加坡国立大学团队构建的CAME优化器在ACL会议上荣获优秀论文奖。 优化器在大型语言模型的训练中占用了大量的内存资源,而团队提出的优化器可以在保持相同性能的情况下减少一半的内存消耗,从而使大型模型的训练成本降低近一半。 目前已投入实际应用。
论文地址:
项目页面:
(本文为网易新闻•网易精选内容激励计划签约账号【智东石】原创内容,未经账号授权,禁止转载。)