AI精选资讯-2024年9月19日

type

status

date

Author

summary

category

icon

password

通义千问发布新一代开源模型 Qwen2.5

通义千问团队宣布开源Qwen2.5系列模型，预训练在18T tokens数据集上，提升知识获取、编程和数学能力。支持长文本处理，生成最多8K tokens内容，保持对29种以上语言的支持。

官方模型介绍：‣

发布现场，图源：泽南

字节音乐大模型炸场！Seed-Music发布，支持一键生成高质量歌曲、片段编辑等

字节 Seed-Music 采用了创新的统一框架，将语言模型和扩散模型的优势相结合，并融入符号音乐的处理。与其他音乐模型相比，Seed-Music 能更好地满足不同群体的音乐创作需求，其 demo 人声效果逼真度惊艳。

快手可灵 AI 发布 1.5 版本，新增运动笔刷功能

快手宣布旗下视频生成大模型可灵现已推出1.5版本，性能升级的同时增加了不少新功能：

运动笔刷功能，用户可以为图片中的元素制定运动轨迹，

视频画质有所提升，支持生成 1080p 视频

构图更美观、动作更合理、文本相关性提升

阿里国际发布最新开源多模态模型Ovis

多模态大模型能够处理和理解多种不同类型的数据输入，例如文本、图像；在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。

例如，Ovis可以准确回答数学问题，识别花的品种，支持多种语言的文本提取，甚至可以识别手写字体和复杂的数学公式。

具体案例参见：‣

EzAudio 模型：开源AI生成音频模型

能够从文本提示中创建高质量的音频。它为开源T2A模型设定了新的标准，提供快速、高效和逼真的声音效果生成

使用场景示如：用于生成电影预告片中的背景音效、在游戏开发中生成角色对话和环境音效、为有声读物生成逼真的朗读音频等

在线体验地址：‣

AI扩图：

Diffusers Image Outpaint，免费使用，扩图效果还可以

（左为扩土前，右为扩图后）

项目体验地址：‣

睡胖猫