Appearance
1 大模型
GPT-4o原生图像热闹之后,看DeepSeek,看统一多模态大模型
DeepSeek
豆包/字节
豆包深度思考模型正式发布!和 o3 一样能「看图思考」,还有一个 Agent 大招
通义/阿里
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
简介
阿里云发布通义家族首个端到端全模态大模型Qwen2.5-Omni-7B。该模型专为全模态感知设计,可处理文本、图像、音频、视频等多模态输入,并实时生成文本与自然语言应答,为在手机、笔记本电脑等终端设备部署多模态AI设立新标准。尽管仅采用了轻量级的7B参数,Qwen2.5-Omni-7B仍展现出卓越的性能与强大的多模态能力,成为开发高效能、高性价比、且具使用价值的AI智能体的理想基座模型,在智能语音应用领域尤其具有前景。例如,透过即时语音导航协助视障者安全辨识周边环境,分析视频中的食材按步骤提供烹饪指导,及打造真正理解客户需求的智能客服对话体验。该模型现已在Hugging Face与GitHub上开源,并可透过Qwen Chat及阿里云开源社区ModelScope获取。目前,阿里云已开源超过200个生成式AI模型。
摘要
Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频和视频等多种模态,同时以流式方式生成文本和自然语音响应。开发团队表示,他们对 Qwen2.5-Omni 进行了全面评估,与类似大小的单模态模型和 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro 等闭源模型相比,该模型在所有模态中均表现出色。
在需要集成多种模态的任务(例如 OmniBench)中,Qwen2.5-Omni 实现了最佳性能。此外,在单模态任务中,它在语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)和语音生成(Seed-tts-eval 和主观自然度)等领域表现出色。
可灵/快手
最强视觉生成模型获马斯克连夜关注,吉卜力风格转绘不再需要GPT了
智谱清言
实测有沉思能力的智谱 AutoGLM ,我们离会思考的 agent 又近了一步
OpenAI
Sam Altman:GPT-5将免费开放,DeepSeek教训了我们|万字访谈实录(访谈原文
刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站
Meta
Meta发布Llama 4系列AI模型,引入“混合专家架构”提升效率
财经
DeepSeek 满血版平替,金融领域首个 R1 类推理大模型 Fin-R1 开源
摘要
20250321【DeepSeek满血版平替! 金融领域首个R1类推理大模型Fin-R1开源发布,仅7B参数】财联社3月21日电,界面财联社旗下大模型科技公司财跃星辰与上海财经大学近日联合发布首款金融领域R1类推理大模型—Fin-R1。该模型为开源模型,仅7B参数,个人电脑即可部署,基本达到DeepSeek-R1满血版效果。Fin-R1通过构建高质量金融推理数据集与“金融推理SFT微调+RL强化学习”两阶段混合框架训练,实现金融领域“数据构建-模型训练-性能验证-模型部署-场景应用”的全闭环链路。 财跃星辰将推动Fin-R1应用于证券、银行、保险、基金等金融场景,通过指数级降本,助力金融机构实现模型普惠。