圆梦财经

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜:
圆梦财经 首页 财经要闻 四大证券报 查看内容

四大证券报纸头版内容精华摘要(12月31日)

2024-12-31 08:49| 发布者: admin| 查看: 1712| 评论: 0

摘要: 四大证券报纸头版内容精华摘要(12月31日):东软集团拟收购思芮科技100%股权,惠企税费政策见实效: 三个“70%”展现出民企向好向“新”强劲脉动,低至一折起!多家银行代销养老基金费率大降 ...
科技圈和资管行业同时沸腾


  科技圈和资管行业同时沸腾。

  近日,国内全新大模型DeepSeek-V3首个版本上线,并同步开源。DeepSeek-V3背后并非互联网大厂,而是国内头部量化机构幻方量化。量化“大佬”进军AI大模型,引发关注。

  前沿大模型“刷屏”

  上一代模型DeepSeek-V2.5发布三个多月后,杭州深度求索人工智能基础技术研究有限公司(DeepSeek)近日发布公告,DeepSeek-V3正式上线。其迭代速度和性能表现令行业震惊,训练成本仅为557.6万美元,整个训练只需要280万个GPU小时。

   DeepSeek-V3的更新上线,其模型API服务定价调整为每百万输入tokens0.5元(缓存命中)或百万输入tokens2元(缓存未命中),每百万输出tokens8元。其超低的定价引发科技圈轰动。

  从性能来看,DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet难分伯仲。

  此外,通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现了3倍的提升,为用户带来更加迅速流畅的使用体验。

  对于训练成本较低的原因,DeepSeek-V3回复称,主要归功于算法优化、模型架构创新(如稀疏注意力机制、模型剪枝等技术)、智能的数据采样和增强技术、硬件加速、高效的分布式计算策略,以及通过知识蒸馏技术,将大型模型的知识转移到更小的模型中,小模型在保持较高性能的同时计算需求大幅降低。

  量化中的“极致技术理想主义者”

  值得关注的是,DeepSeek-V3背后并非互联网大厂,而是国内头部量化机构幻方量化。

  作为国内顶尖量化私募,幻方量化是目前最坚定向科技公司转型的“异类”。2023年4月,幻方量化高调宣布将踏上新征程,“追寻一直以来的技术理想,超越投资去直面更大的课题”。

  幻方量化在公告中表示,多年以来,幻方量化坚持把营收的一大部分投入人工智能领域,建设领先的AI硬件基础设施,进行大规模研究,探索人类未知的奥秘。

  一位量化业内人士表示:“幻方量化已将大模型当作主攻赛道,大模型团队非常庞大,与其它量化机构在战略上明显不同。”

  幻方量化在算力方面的投入巨大,是除了头部互联网大厂外,国内少数拥有超过1万枚GPU的公司。DeepSeek曾多次强调其万卡GPU训练集群的优势,并强调拥有在学术、竞赛和工程圈的顶尖人才,将团队视为“一群极致的技术理想主义者”。

  近年来,DeepSeek不断招贤纳士,扩充团队。对于顶尖的AI人才,给出的待遇相当可观。此前,DeepSeek曾高薪招聘AGI大模型实习生。对于深度学习研究员,更是开出最高11万元的月薪。


路过

雷人

握手

鲜花

鸡蛋

返回顶部