Skip to content

1 大模型

GPT-4o原生图像热闹之后,看DeepSeek,看统一多模态大模型

1.1 架构

以下是当前大模型技术中具有代表性的几种架构及其核心特性分析,涵盖MoE(混合专家模型)、RAG(检索增强生成)及其他重要技术方向:

2.1 MoE(混合专家模型)架构

核心原理:通过稀疏化计算实现模型规模扩展,将传统Transformer中的前馈网络(FFN)替换为多个独立专家网络(如8-32个),并由门控网络动态分配输入token到最优专家处理。
技术优势

  • 高效扩展:在相同计算成本下,MoE模型参数量可达万亿级(如Switch Transformers的1.6万亿参数),推理速度优于同规模稠密模型;
  • 条件计算:仅激活部分专家网络,减少计算冗余,如Mixtral 8×7B推理时仅需约12B FLOPs;
  • 训练优化:通过负载均衡机制(如辅助损失函数)避免专家资源分配不均,提升稳定性。
    应用场景:OpenAI的GPT-4、Google的Gemini、Mistral AI的Mistral均采用MoE架构,适用于需要高吞吐量的自然语言生成任务。

「DeepSeek-V3 技术解析」:DeepSeekMoE

「DeepSeek-V3 技术解析」:多头潜在注意力机制(MLA)

2.2 RAG(检索增强生成)架构

核心原理:结合向量检索与生成模型,通过动态检索外部知识库增强生成结果的准确性与时效性。典型流程包括文本向量化、相似性搜索、上下文增强生成三个阶段。
技术变体

  • Naive RAG:基础检索-生成链路,适用于通用问答;
  • Graph RAG:利用图数据库存储实体关系,提升复杂推理能力(如医疗诊断);
  • 多模态RAG:整合文本、图像等多模态数据,采用CLIP等嵌入模型实现跨模态检索;
  • Agentic RAG:通过智能体(Agent)路由查询到不同检索模块,优化处理路径。
    优势:无需重新训练模型即可更新知识库,降低部署成本;生成结果可溯源至检索文档,提升可解释性。

揭开 RAG 的神秘面纱:重新定义信息检索的革命性技术

2.3 Transformer基础架构

核心组件

  • 多头注意力(MHA):捕获长程依赖关系,增强上下文理解;
  • 前馈网络(FFN):通过非线性变换提取深层特征。
    扩展方向
  • 稀疏注意力:限制注意力计算范围(如局部窗口),降低计算复杂度;
  • 层级结构:堆叠不同粒度的Transformer层,实现分层特征抽象。

2.4 多模态融合架构

技术路径

  • 统一嵌入空间:使用CLIP等模型将文本、图像映射到同一向量空间,支持跨模态检索(如多模态RAG);
  • 跨模态对齐:通过对比学习对齐不同模态特征,增强语义一致性(如Florence、FLAVA)。

2.5 稀疏化与动态计算架构

  • 动态路由:除MoE外,还包括基于输入内容动态激活模型子模块的技术(如Switch Transformers);
  • 条件计算:仅处理与当前输入相关的参数,显著提升推理效率。

2.6 架构对比与趋势

架构类型核心优势典型应用场景挑战
MoE高扩展性、低推理成本大规模预训练、实时生成微调泛化能力不足
RAG知识实时更新、可解释性强专业领域问答、动态数据场景检索精度依赖嵌入模型
多模态融合跨模态语义理解图文生成、智能客服计算资源消耗高
稀疏注意力降低长序列计算复杂度文档摘要、代码生成局部依赖可能丢失全局信息

未来趋势

  • 技术融合:MoE与RAG结合,实现动态专家选择与知识增强生成;
  • 标准化:行业推动架构接口统一(如RAG的检索-生成协议);
  • 硬件协同:针对稀疏计算优化芯片设计(如TPU v5)。

如需进一步了解特定架构的技术细节或应用案例,可参考相关论文及开源项目(如Hugging Face的MoE实现、Milvus向量数据库在RAG中的应用)。

1.2 模型

DeepSeek

1.1 DeepSeek

豆包/字节

豆包深度思考模型正式发布!和 o3 一样能「看图思考」,还有一个 Agent 大招

字节猛踩油门

通义/阿里

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用

简介

阿里云发布通义家族首个端到端全模态大模型Qwen2.5-Omni-7B。该模型专为全模态感知设计,可处理文本、图像、音频、视频等多模态输入,并实时生成文本与自然语言应答,为在手机、笔记本电脑等终端设备部署多模态AI设立新标准。尽管仅采用了轻量级的7B参数,Qwen2.5-Omni-7B仍展现出卓越的性能与强大的多模态能力,成为开发高效能、高性价比、且具使用价值的AI智能体的理想基座模型,在智能语音应用领域尤其具有前景。例如,透过即时语音导航协助视障者安全辨识周边环境,分析视频中的食材按步骤提供烹饪指导,及打造真正理解客户需求的智能客服对话体验。该模型现已在Hugging Face与GitHub上开源,并可透过Qwen Chat及阿里云开源社区ModelScope获取。目前,阿里云已开源超过200个生成式AI模型。

Qwen2.5-Omni 登顶全球开源模型榜单

摘要

Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频和视频等多种模态,同时以流式方式生成文本和自然语音响应。开发团队表示,他们对 Qwen2.5-Omni 进行了全面评估,与类似大小的单模态模型和 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro 等闭源模型相比,该模型在所有模态中均表现出色。

在需要集成多种模态的任务(例如 OmniBench)中,Qwen2.5-Omni 实现了最佳性能。此外,在单模态任务中,它在语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)和语音生成(Seed-tts-eval 和主观自然度)等领域表现出色。

可灵/快手

最强视觉生成模型获马斯克连夜关注,吉卜力风格转绘不再需要GPT了

智谱清言

实测有沉思能力的智谱 AutoGLM ,我们离会思考的 agent 又近了一步

OpenAI

Sam Altman:GPT-5将免费开放,DeepSeek教训了我们|万字访谈实录访谈原文

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

Meta

Meta发布Llama 4系列AI模型,引入“混合专家架构”提升效率

财经

DeepSeek 满血版平替,金融领域首个 R1 类推理大模型 Fin-R1 开源

摘要

20250321【DeepSeek满血版平替! 金融领域首个R1类推理大模型Fin-R1开源发布,仅7B参数】财联社3月21日电,界面财联社旗下大模型科技公司财跃星辰与上海财经大学近日联合发布首款金融领域R1类推理大模型—Fin-R1。该模型为开源模型,仅7B参数,个人电脑即可部署,基本达到DeepSeek-R1满血版效果。Fin-R1通过构建高质量金融推理数据集与“金融推理SFT微调+RL强化学习”两阶段混合框架训练,实现金融领域“数据构建-模型训练-性能验证-模型部署-场景应用”的全闭环链路。 财跃星辰将推动Fin-R1应用于证券、银行、保险、基金等金融场景,通过指数级降本,助力金融机构实现模型普惠。

医疗

蚂蚁华为阿里云罕见联手:AI医疗如何跨过落地鸿沟?

RockAI

树莓派上流畅运行大模型!让终端具备自主学习与记忆能力|对话RockAI CEO刘凡平

Gemini

谷歌Gemini火力全开!实测:原生图像生成新升级确实强

Gemini 2.5 Pro自然图像转代码