AI工具AI写作

DeepSeek深度求索

DeepSeek 通常指杭州深度求索...

标签:
DeepSeek 通常指杭州深度求索人工智能基础技术研究有限公司。具体信息如下:
  • 官网:https://www.deepseek.com/
  • 公司信息:成立于 2023 年 7 月 17 日,是幻方量化旗下专注于开发先进大语言模型(LLM)和相关技术的创新型科技公司。注册地位于浙江省杭州市拱墅区环城北路 169 号汇金国际大厦西 1 幢 1201 室,法定代表人为裴湉。
  • 技术成果
    • DeepSeek LLM:2024 年 1 月 5 日发布,包含 670 亿参数,在 2 万亿 token 的数据集上训练,涵盖中英文,在推理、编码、数学和中文理解等方面超越了 Llama2 70B base,其 chat 版本在编码和数学方面表现出色,在中文表现上超越了 GPT-3.5。
    • DeepSeek Coder:2024 年 1 月 25 日发布,由一系列代码语言模型组成,在 2 万亿 token 上训练,包含 87% 的代码和 13% 的中英文自然语言,在多种编程语言和基准测试中达到开源代码模型的先进性能。
    • DeepSeek Math:2024 年 2 月 5 日发布,以 DeepSeek-Coder-V1.5 7B 为基础,在 5000 亿 token 规模上预训练,在竞赛级 math 基准测试中取得 51.7% 的优异成绩。
    • DeepSeek VL:2024 年 3 月 11 日发布,是开源视觉 – 语言模型,采用混合视觉编码器,能高效处理高分辨率图像,在相同模型尺寸下在视觉 – 语言基准测试中性能出色。
    • DeepSeek-V2:2024 年 5 月 7 日发布,是第二代开源混合专家模型,包含 2360 亿个总参数,性能达 GPT-4 级别,以经济高效的训练和推理为特点。
    • DeepSeek Coder-V2:2024 年 6 月 17 日发布,是开源混合专家代码语言模型,在代码特定任务中达到与 GPT4-Turbo 相当的性能。
    • DeepSeek VL2:2024 年 12 月 13 日发布,是用于高级多模态理解的专家混合视觉语言模型,在多种任务中展现卓越能力。
    • DeepSeek-V3:2024 年 12 月 26 日上线首个版本并开源,在知识类任务上水平相比前代 DeepSeek-V2.5 显著提升,在生成速度上相比 V2.5 实现了 3 倍的提升。
  • 公司影响
    • 技术普惠:以其高性能和低成本的优势,尤其是通过 MoE、MLA 等架构创新,降低了计算成本和推理开销等,使中小企业和开发者也能负担高性能 AI 服务,推动 AI 技术的普惠化。
    • 行业竞争:对 OpenAI、NVIDIA 等企业形成了直接冲击,如 R1 发布后导致英伟达股价单日暴跌 17%,市值蒸发近 6000 亿美元,引发了美国对技术出口管制的讨论。
    • 开源推动:开源核心模型并鼓励开发者二次创新,推动了开源生态的发展,可能重塑全球 AI 技术重心,促使更多企业采用中国技术栈。

数据统计

相关导航

暂无评论

暂无评论...