# 基础-大模型

# Deepseek

是由杭州深度求索人工智能基础技术研究有限公司开发的一款大语言模型,成立于2023年7月,专注于研究世界领先的通用人工智能底层模型与技术。DeepSeek的母公司是知名的幻方量化,这使得它在AI领域迅速崭露头角。‌

# 相关网址

# 模型

‌DeepSeek目前主要有三款大模型:DeepSeek V3DeepSeek R1Janus Pro

  • DeepSeek V3:这款模型对标OpenAI的GPT-4o。它的亮点在于低成本,这是一个强大的混合专家模型(Mixture-of-Experts, MoE),拥有671亿个参数,能够在各种基准测试中与GPT-4o相媲美,且训练成本仅为557.6万美元。

  • DeepSeek R1:这款模型对标OpenAI的o1模型。R1在V3的基础上进行了更深层次的后训练(SFT+RL),效果可媲美o1正式版模型,并且在推理API定价上也低于海外同行。R1通过多轮强化学习迭代提升了推理能力,并且展示了通过强化学习迭代提升模型性能的巨大潜力

  • Janus Pro:这款模型对标OpenAI的DALL-E 3。Janus Pro是一款多模态模型,旨在实现图像和文本的跨模态生成和理解

# ‌智谱AI

‌智谱AI是由清华大学KEG实验室和智谱AI公司联合打造的。CodeGeeX是一个多语言代码生成模型,它可以实现代码的生成与补全、自动添加注释、代码翻译以及智能问答等功能,旨在帮助开发者显著提高工作效率。该模型支持多种主流的编程语言,并适配多种主流IDE,对个人用户免费开放使用‌

# 相关网址

# 模型

  • CodeGeeX:一个多语言代码生成模型,它可以实现代码的生成与补全、自动添加注释、代码翻译以及智能问答等功能,旨在帮助开发者显著提高工作效率。该模型支持多种主流的编程语言,并适配多种主流IDE,对个人用户免费开放使用‌
  • GLM-130B‌:这是智谱AI开发的一个中英双语千亿级大模型,具有强大的自然语言处理能力‌
  • ChatGLM‌:对话模型,ChatGLM提供了与用户的交互能力,能够理解和生成自然语言文本‌。
  • ChatGLM-6B:这是ChatGLM系列中的一个开源模型,虽然规模较小,但仍然保持了较高的性能,适合在资源受限的环境下使用‌
  • GLM-Zero-Preview:这是一款新一代推理模型,具有强大的推理能力,适用于数理推断、代码开发等场景‌

# OpenAI - 国外

是一家致力于开放人工智能研究和部署的公司,其使命是确保通用人工智能能够造福全人类。OpenAI成立于2015年12月,总部位于美国旧金山,由营利性公司OpenAI LP及非营利性母公司OpenAI Inc组成‌

# 相关网址

# 模型

  • ‌GPT系列‌:OpenAI提供了GPT-3、GPT-3.5、GPT-4等多个版本的模型。这些模型主要用于理解和生成自然语言文本,GPT-4还支持多模态输入(文本和图像)。GPT-3.5和GPT-4在复杂任务和推理方面表现出色,尤其是在多语言环境下。

  • o1系列:OpenAI推出了o1系列模型,包括o1-preview和o1-mini。这些模型旨在提供更高效和经济的推理能力,适用于各种应用场景。o1-preview模型在推理速度和成本方面表现出色,而o1-mini则专注于在资源有限的环境中提供高性能的推理。

  • DALL-E系列:OpenAI开发了DALL-E系列模型,用于生成高质量的图像。DALL-E 3是DALL-E系列的最新版本,支持更复杂的图像生成任务,如文本到图像的转换和图像到图像的转换。

  • Copilot系列 (opens new window):OpenAI推出了Copilot系列模型,包括Copilot-1和Copilot-2。这些模型旨在提供更高效和经济的推理能力,适用于各种应用场景。Copilot-1模型在推理速度和成本方面表现出色,而Copilot-2则专注于在资源有限的环境中提供高性能的推理。

# Gemini - 国外

Gemini是Google开发的一款多模态大模型,旨在提供高效且经济的推理能力。它支持文本、图像和音频等多种模态的输入和输出,适用于各种应用场景。Gemini-1.5-Pro是Gemini系列的最新版本,支持更复杂的任务处理和多模态交互。

# 相关网址

# 模型

  • Gemini 2.0系列‌

    • Gemini 2.0 Flash‌:被称为“主力模型”,适用于高容量、高频率任务‌1。
    • Gemini 2.0 Pro Experimental‌:专注提升编程性能,支持200万tokens的输入容量,能够一次性分析和处理大量信息‌1。
    • Gemini 2.0 Flash-Lite‌:谷歌称其为“迄今为止最具成本效益的模型”,其成本和速度均优于1.5 Flash,具有100万个tokens上下文窗口和多模式输入‌1。
  • 早期Gemini系列

    • Gemini Ultra: 适用于高度复杂的任务
    • Gemini Pro: 可扩展至各种任务的Gemini模型。
    • Gemini Nano: 适用于端侧设备的高效Gemini版本,有1.8B和3.25B两个版本。在早期的版本中,它是用于处理“终端上设备的特定任务”的模型‌34。