每日AI资讯 - OneSite

2026-03-26

AI资讯 AI-Bot

谷歌推出AI音乐生成模型 Lyria 3 Pro

谷歌推出旗下先进AI音乐生成模型Lyria 3 Pro，较前代在生成结构和长度上大幅提升。模型可精准处理前奏、主歌、副歌、桥段等编曲要素，支持生成最长约3分钟的完整音轨。模型不会直接模仿特定艺术家风格，训练数据仅使用合法授权内容，且所有生成音频均嵌有SynthID数字水印。来源：IT之家

阅读原文

AI News Google

Transform your headphones into a live personal translator on iOS.

<img src="https://storage.googleapis.com/gweb-uniblog-publish-prod/images/Static-InterstitialscreenJapane.max-600x600.format-webp.webp">Google Translate’s Live translate with headphones is officially arriving on iOS! And we're expanding the capability for both iOS and Android users to even more countries…

阅读原文

AI News Google

Search Live is expanding globally

<img src="https://storage.googleapis.com/gweb-uniblog-publish-prod/images/Search_Live_blog_header.max-600x600.format-webp.webp">We’re expanding Search Live globally, to all languages and locations where AI Mode is available.

阅读原文

AI资讯 AI-Bot

美团龙猫团队开源多模态大模型LongCat-Next

美团龙猫团队推出LongCat-Next多模态模型，核心创新为LoZA稀疏注意力机制。模型支持1M超长上下文，通过智能筛查将50%低重要模块替换为流式稀疏注意力，实现128K解码速度提升10倍、算力节省30%。模型包含Flash-Exp和Flash-Lite两个版本，在长文本任务表现超越Qwen-3。来源：AI工具集

阅读原文

AI News Google

Gemini 3.1 Flash Live: Making audio AI more natural and reliable

<img src="https://storage.googleapis.com/gweb-uniblog-publish-prod/images/gemini-3.1-flash-live_blog_head.max-600x600.format-webp.webp">Gemini 3.1 Flash Live is now available across Google products.

阿里在海外上线企业级Agent产品Accio Work ，定位”企业版龙虾”。用户只需提出想法，内置的AI Agent团队可7×24小时自动完成选品、采购、建站、运营等全流程，30分钟生成可运营的海外网店。产品支持单个Agent对话或Agent Team群聊模式，可自定义角色与技能，关键操作需用户授权保障安全。来源：量子位

阿里达摩院推出新一代旗舰RISC-V CPU IP——玄铁C950，SPECint2006基准测试突破70分，成为全球最强RISC-V CPU。产品首次实现RISC-V CPU原生流畅跑通千亿参数大模型（Qwen3、DeepSeek V3），集成4K超宽Vector引擎和Matrix引擎，单核算力达8TFLOPS。来源：智东西

智谱推出GLM-Claw智能体，支持打造一群”懂你的AI虾兵”协助处理各类事务。产品定位为个性化AI助手团队，可协同完成复杂任务，提升用户工作与生活效率。通过多智能体协作机制，实现从单一对话向多任务处理的升级。来源：智谱清言

阿里通义千问推出Qwen3.5-Max-Preview 预览版，模型在代码、数学、多语言理解等能力上实现显著提升。作为Qwen3.5系列旗舰模型，采用混合专家（MoE）架构，总参数量达235B，激活参数22B，在保持高效推理的同时实现性能突破。模型支持长达256K tokens的上下文窗口，擅长复杂推理和长文本处理。来源：千问大模型

面壁智能联合清华大学、OpenBMB社区开源EdgeClaw框架，和开箱即用的智能硬件EdgeClaw Box——专为OPC（一人公司）及数据敏感企业打造。产品通过S1/S2/S3三级隐私路由机制，实现数据本地化处理、自动脱敏上云、断网运行等功能，集成MiniCPM端侧模型，支持零Token消耗处理简单任务。来源：面壁智能

LiblibAI推出首个同时面向人类创作者与AI Agent的专业视频创作平台LibTV，平台提供无限画布式工作流，支持剧本解析、分镜管理、角色三视图、多机位生成等20余种专业AI能力，集成豆包、可灵、Kimi等顶级模型。Agent可通过Skill接口调用LibTV，实现一句话生成5分钟短剧、音乐转MV、视频风格复刻等自动化创作。来源：哩布哩布AI

全球首个自进化个人AI产品MuleRun（骡子快跑）正式发布。产品主打”0门槛”使用，无需部署安装，打开网页即可操作。MuleRun具备7×24小时云端持续运行能力，用户离线也能自动执行任务。产品核心特性包括自主进化、主动触达以及群体智慧共享，开放Agent网络生态，优质Agent可一键复用。来源：量子位

阿里云旗下AI Agent产品JVS Claw正式推出移动端App，基于开源OpenClaw架构打造，主打”开箱即用、云端隔离”。用户可通过手机App直接”遥控”专属云电脑（6核/12GB Linux环境），让Clawbot自动完成网页编写、数据查询、定时任务等复杂操作，无需接入飞书或QQ等第三方工具。来源：智东西

阅读原文

2026-03-13

AI资讯 AI-Bot

InternVL-U重磅开源，4B参数实现理解、推理、生成、编辑一体化

上海人工智能实验室联合多所高校开源多模态一体化模型InternVL-U，仅4B参数即实现理解、推理、生成、编辑四大能力统一。模型采用”统一语境建模+模态专用模块化+解耦视觉表征”架构，在文本渲染、科学推理等复杂场景中性能超越14B级模型，已全面开源并提供完整推理代码与评测工具。来源：书生Intern

阅读原文

AI资讯 AI-Bot

大晓机器人开源实时生成世界模型 Kairos 3.0-4B

大晓机器人开源具身原生世界模型Kairos 3.0-4B，以”多模态理解—生成—预测”一体化架构实现物理级深度理解与长时动态交互。模型仅4B参数，推理速度较Cosmos 2.5提升72倍，是行业首个在THOR端侧平台达成1:1.5实时生成的具身世界模型，可直接驱动机器人本体完成作业。来源：大晓机器人

威努特正式发布安全龙虾产品WinClaw，针对OpenClaw存在的安全风险（CNNVD通报82个漏洞，含12个超危漏洞）及配置复杂等问题，构建五层安全防护体系：身份认证双向鉴权、安装审查拦截14类危险模式、消息拦截41条安全规则、执行约束敏感操作二次确认、监控审计本地日志追溯。来源：威努特安全网络

AI语音教练平台BoldVoice完成2100万美元A轮融资，由Matrix领投。该公司仅7名员工，下载量突破500万，服务150多个国家，ARR超1000万美元。本轮融资将用于全球扩张及AI新功能开发。来源：AI工具集

智谱正式上线 AutoClaw（中文名”澳龙”），成为国内首个支持一键安装的本地版OpenClaw工具。产品预置50+热门Skills，支持macOS和Windows双平台，1分钟即可完成部署，一键接入飞书等即时通讯工具。AutoClaw内置智谱专为Agent场景优化的Pony-Alpha-2模型（内测中），集成AutoGLM Browser-Use浏览器操作能力，可稳定执行多步骤、跨页面的复杂任务。来源：智谱

小红书Super Intelligence团队发布图像编辑模型FireRed-Image-Edit 1.1版本，距离1.0发布不到一个月。新版本在ID一致性编辑、多元素融合（支持10余种元素智能组合）、人像美妆（数十种风格）、字体风格参考及老照片修复等方面显著增强。来源：小红书技术REDtech

OpenAI正式发布GPT-5.4，首次在单一模型中融合推理、编程、计算机原生交互、深度网页搜索及百万级Token上下文五大能力。模型在GDPval知识工作测试中得分83%，在SWE-Bench Pro编程测试中达57.7%，并在OSWorld计算机操作测试中取得75%成绩，均为业界领先。来源：量子位

<img src="https://storage.googleapis.com/gweb-uniblog-publish-prod/images/Thumbnail_mPCqgRv.max-600x600.format-webp.webp">Here are Google’s latest AI updates from February 2026

<img src="https://storage.googleapis.com/gweb-uniblog-publish-prod/images/AIMMode_Social.max-600x600.format-webp.webp">Canvas in AI Mode is now available for everyone in the U.S. Plus, it can now help you draft documents or build interactive tools.

通义实验室发布两款语音生成模型Fun-CosyVoice3.5与Fun-AudioGen-VD，首创FreeStyle指令控制范式，用户可通过自然语言描述语气、情绪、场景等细节，无需依赖固定标签。Fun-CosyVoice3.5支持多语种复刻与精细化表达控制，新增泰语、印尼语等4个小语种，生僻字读错率降至5.3%；Fun-AudioGen-VD则实现端到端声音设计，可生成角色化音色并模拟环境声学效果。来源：通义实验室

具身智能公司银河通用宣布完成25亿元新一轮融资，由国家人工智能产业基金（大基金三期）、中国石化、中信投资控股、中国银行、上汽集团等多家国资及产业资本领投，刷新行业单轮融资纪录。本轮国资密集入局，标志着具身智能融资进入”重装时代”。来源：极客公园

天际资本近日独家投资了Lemon AI数千万人民币Pre-A轮融资。该公司为企业提供“全栈开源+本地化部署”的AI安全落地方案，企业可在自有Docker环境中调用主流开源大模型，数据不出本地，以解决金融、医疗等行业的数据安全顾虑。来源：钛媒体

Skywork AI发布全新多模态视频基础模型SkyReels V4。模型采用创新的双流多模态扩散Transformer（MMDiT）架构，是全球首个能同时处理多模态输入、联合生成视频与音频、并统一完成视频生成、修复、编辑三大任务的模型。支持文本、图像、视频、音频、掩码等丰富输入，可输出1080p分辨率、32FPS、长达15秒的高质量音视频同步内容。来源：昆仑万维集团

<img src="https://storage.googleapis.com/gweb-uniblog-publish-prod/images/691A1377_1920x1080.max-600x600.format-webp.webp">Google is partnering with the Massachusetts AI Hub to provide every Baystater with no-cost access to Google’s AI training.

阅读原文

2026-02-25

AI资讯 AI-Bot

AI 音乐创作平台 ProducerAI 正式加入Google Labs

谷歌实验室宣布，生成式AI音乐创作平台ProducerAI正式推出。平台深度融合了Gemini、Lyria 3、Veo等大模型，为音乐人提供从作词、编曲到混音的全链路支持。用户通过简单文字指令即可生成不同流派的歌曲，进行后期处理。平台为所有音频输出嵌入了SynthID隐形水印。来源：IT之家

阅读原文

AI News Google

See the whole picture and find the look with Circle to Search

<img src="https://storage.googleapis.com/gweb-uniblog-publish-prod/images/FTL__Try_On_Blog_header.max-600x600.format-webp.webp">We’ve updated Circle to Search so you can now explore multiple items in a single image.

千寻智能近日完成近20亿元人民币融资，资本方覆盖顶级、产业、国有及战投机构，阵容强大。其开源模型Spirit v1.5在性能上超越了Pi0.5，凭借独特的“数据金字塔”训练理念和低成本数据采集技术，构筑了核心竞争壁垒。来源：千寻智能Spirit AI

阅读原文

2026-02-20

AI资讯 google

字节跳动今日宣布豆包大模型正式进入2.0阶段，发布Seed2.0，包含Pro、Lite、Mini和Code四个版本。新版本围绕现实复杂任务进行系统性优化，在推理、多模态理解和复杂指令执行能力上显著提升。豆包2.0 Pro在多项顶尖学术与推理基准测试中表现优异，综合能力达到或超越GPT 5.2与Gemini 3 Pro等顶尖模型。

字节跳动图像生成模型Seedream 5.0正式上线，在剪映、CapCut、小云雀等平台开放限时免费体验。新模型支持2K/4K分辨率输出，重点提升提示词理解准确性、细节纹理渲染和智能推理能力，并新增联网搜索功能。

字节跳动推出新一代AI视频生成模型Seedance 2.0，支持多模态参考生成，可同时上传图片、视频、音频等最多12个参考文件，精准复刻运镜逻辑与动作细节。该模型突破在于融合AI生成与后期编辑，用户可直接修改不满意部分，显著降低废片率。

OpenAI推出新一代编程模型GPT-5.3-Codex，宣称为全球最强智能体编程模型。模型在SWE-Bench Pro和Terminal-Bench 2.0测试中取得SOTA成绩，编程得分较Claude Opus 4.6高11.9%。具备调试、部署及办公软件操作能力，速度提升25%，能参与自身开发优化。

可灵AI正式升级至3.0版本，推出可灵3.0模型系列。实现多模态输入输出一体化，重新定义AI视频工作流。视频3.0模型在叙事与控制方面深度进化，新增智能分镜功能，可自动调度景别与机位，视频3.0 Omni进一步提升了主体相似度与复杂指令响应能力，图片3.0 Omni新增深度叙事与组图批量创作功能。

阅读原文

2026-02-04

每日AI资讯昆仑万维集团

昆仑天工面向全球发布“Skywork桌面版”

昆仑天工全球发布“Skywork桌面版”AI应用，支持Windows系统本地化运行，无需上传文件至云端。可跨格式理解并处理电脑中的文档、图片、视频等文件，实现多任务并行与内容生成。用户可选择Claude或Gemini模型，并自动调用百余项内置技能。

阅读原文

每日AI资讯通义大模型

通义千问 Qwen3-Coder-Next 开源：小而强！

通义开源Qwen3-Coder-Next编程智能体模型，采用80B总参数的MoE架构，每次推理仅激活3B参数，显著降低算力需求。在SWE-Bench Verified基准上取得超70%的问题解决率，性能接近更大规模的稠密模型。

智谱AI正式发布并开源专业级OCR模型GLM-OCR，以仅0.9B参数实现”小尺寸、高精度”的文档解析能力。模型在权威评测OmniDocBench V1.5中以94.6分登顶，在文本识别、公式识别、表格解析及信息抽取等任务中均取得SOTA表现。特别针对手写体、复杂表格、代码文档等高难场景进行优化，支持PDF和图像批量处理，吞吐量达1.86页/秒。

阶跃星辰发布新一代开源基座模型Step 3.5 Flash，专为 Agent 场景设计。模型采用稀疏 MoE 架构，具备 1960 亿参数，每个 token 仅激活约 110 亿参数，支持 256K 上下文长度。核心优势包括推理速度最高达 350 TPS，在 Agent 任务和数学推理上媲美闭源模型，并通过 MTP-3 技术实现单次预测 3 个 token，显著提升效率。

百度正式发布文心大模型5.0版本，模型参数量达2.4万亿，采用原生全模态统一建模技术，具备文本、图像、音频、视频等信息的全面理解与生成能力。官方表示，在40余项权威基准评测中，其语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等国际主流模型。

阅读原文

2026-01-21

每日AI资讯机器之心

MiniMax推出Agent 2.0，升级为进阶型桌面智能协作伙伴

MiniMax发布第二代智能体产品MiniMax Agent 2.0，推出“AI原生工作台”新范式。平台包含桌面端应用，支持Windows和Mac系统，可深度打通本地文件与环境，实现本地与云端任务的无缝协同。核心创新“Expert Agents”专家系统，通过封装行业SOP与私有知识，将专业能力从通用70分提升至95分以上。

阅读原文

每日AI资讯阶跃星辰

10B击败200B！阶跃星辰开源视觉语言SOTA：Step3-VL-10B

阶跃星辰（StepFun）开源10B参数多模态模型Step3-VL-10B，在多项基准测试中性能超越参数量20倍以上的主流大模型。模型在视觉感知、数学竞赛、逻辑推理等核心维度达到SOTA水平，其创新的并行协调推理机制（PaCoRe）显著提升复杂任务处理能力。

智谱AI正式开源并发布GLM-4.7-Flash模型，模型采用混合思考架构，总参数量30B，激活参数量仅3B，为轻量化部署提供高性能选择。模型在SWE-bench Verified、τ²-Bench等主流基准测试中表现优异，超越同尺寸开源模型达到SOTA水平。

字节跳动旗下AI智能体平台“扣子”正式发布2.0版本，推出四大核心功能升级。Agent Skills技能系统支持用户为AI安装行业专业能力包；Agent Plan支持设定长期目标后由AI自主规划执行；Agent Office提供深度职场场景理解与洞察；Agent Coding实现云端一站式开发。

阅读原文

2026-01-16

每日AI资讯腾讯混元

混元3D Studio 1.2全面开放公测！支持笔刷交互、八视图输入

腾讯混元3D Studio1.2版本今日全面开放公测，无需申请即可体验。该版本核心升级包括PartGen 1.5组件生成模型，拆分精度提升至1536³分辨率，并首次支持笔刷交互，用户可通过笔刷进行细粒度组件拆分控制。

阅读原文

每日AI资讯 IT之家

谷歌最强 AI 开放翻译模型：TranslateGemma 登场

谷歌发布基于Gemma 3架构的开放翻译模型系列TranslateGemma，提供4B、12B和27B三种参数规模。系列支持55种核心语言及多模态图像翻译，其中12B版本翻译质量超越参数量更大的基线模型，4B模型性能与12B基线相当，可在手机端流畅运行。

阅读原文