type
status
date
Author
summary
tags
category
icon
password
通义千问发布新一代开源模型 Qwen2.5
通义千问团队宣布开源Qwen2.5系列模型,预训练在18T tokens数据集上,提升知识获取、编程和数学能力。支持长文本处理,生成最多8K tokens内容,保持对29种以上语言的支持。
官方模型介绍:‣

发布现场,图源:泽南
字节音乐大模型炸场!Seed-Music发布,支持一键生成高质量歌曲、片段编辑等
字节 Seed-Music 采用了创新的统一框架,将语言模型和扩散模型的优势相结合,并融入符号音乐的处理。与其他音乐模型相比,Seed-Music 能更好地满足不同群体的音乐创作需求,其 demo 人声效果逼真度惊艳。
Seed-Music 官网:https://team.doubao.com/seed-music

快手可灵 AI 发布 1.5 版本,新增运动笔刷功能
快手宣布旗下视频生成大模型可灵现已推出1.5版本,性能升级的同时增加了不少新功能:
运动笔刷功能,用户可以为图片中的元素制定运动轨迹,
视频画质有所提升,支持生成 1080p 视频
构图更美观、动作更合理、文本相关性提升

阿里国际发布最新开源多模态模型Ovis
多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像;在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。
例如,Ovis可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。
具体案例参见:‣
EzAudio 模型:开源AI生成音频模型
能够从文本提示中创建高质量的音频。它为开源T2A模型设定了新的标准,提供快速、高效和逼真的声音效果生成
使用场景示如:用于生成电影预告片中的背景音效、在游戏开发中生成角色对话和环境音效、为有声读物生成逼真的朗读音频等
在线体验地址:‣
AI扩图:
Diffusers Image Outpaint,免费使用,扩图效果还可以

(左为扩土前,右为扩图后)

项目体验地址:‣
- Author:睡胖猫
- URL:https://tangly1024.com/article/1075b66c-2fd7-80df-8486-ed6bf047affd
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!