AIGC Weekly Insights (第 2 期): Open AI 发布高级语音模式

type

status

date

Author

summary

🏁精选动态

1、OpenAI发布高级语音模式

OpenAI 推出了高级语音模式（Advanced Voice Mode，AVM），向所有 ChatGPT Plus 和 Teams 用户开放。教育版和企业版用户将于下周获得访问权限。该模式支持超过 50 种语言和 9 种声线，让用户能以多种语言进行交流。此外，OpenAI 还提供了"自定义指令"扩展功能，允许用户个性化 ChatGPT 的响应方式，以及"记忆功能"，使 ChatGPT 能够记住之前的对话，以便日后参考。

4o 是支持文字、图片、语音的原生多模态模型，目前放开的是语音 + 文字的能力，图片部分还不是原生多模态。语音多模态效果整体不错，能说方言，能模拟人声。可以将其作为英语口语教练，让它告诉你哪里存在语音问题。

2、字节发布豆包 AI 视频生成模型

字节跳动发布豆包 PixelDance 模型和 Seaweed 模型，这些模型能够基于简单的提示词或图片自动生成接近实拍质量的影视级视频，支持复杂的多主体互动和连贯动作。

文章可参考：https://mp.weixin.qq.com/s/g-9oBGOHCeDIIRPHISk9tg

豆包视频体验地址：https://jimeng.jianying.com/ai-tool/home

文章可参考：https://mp.weixin.qq.com/s/g-9oBGOHCeDIIRPHISk9tg

豆包视频体验地址：https://jimeng.jianying.com/ai-tool/home

3、字节发布 Loopy 基于音频驱动的 AI 视频生成模型

Loopy 实现了数字人声音与画面、表情和情绪的完美匹配，解决了以往对口型视频中的割裂感问题，该技术的应用使得虚拟角色在与观众互动时显得更加生动，提升了整体观看体验。

项目地址：https://loopyavatar.github.io/

4、Meta 发布首款 Orion 全息 AR 智能眼镜

Meta 在 2024 年 9 月 25 日发布了其首款 Orion 全息 AR 智能眼镜，用户可以通过 Orion 将数字图像叠加到现实世界中，与人工智能互动等。

官网地址：https://about.meta.com/realitylabs/orion/

🌟其他动态

1、DualGS 生成沉浸式视频

DualGS 可以将输入的视频转化为多角度观看的沉浸式体验。这项技术能够补全视频的各个视角，让用户获得全方位的观看效果，尤其适合在 VR 设备上使用。尽管整体演示效果令人印象深刻，但一些细节部分仍有待改进。

项目地址：https://nowheretrix.github.io/DualGS/

2、PortraitGen 人像视频编辑工具

PortraitGen 支持通过文字描述或参考图片修改人物效果，实现换装功能，以及调整视频中的光照效果。用户只需输入原始视频，即可进行多样化的编辑操作。

项目地址：https://ustc3dv.github.io/PortraitGen/

3、MIMO 图像与视频人物替换及交互

MIMO 模型通过给定的图像和视频/动作序列，可以将图像中的人物替换为视频中的人物，并控制其动作与场景互动。这项技术支持生成三维空间动作，提供丰富的运动控制和物体交互功能。

GitHub：https://github.com/menyifang/MIMO

4、AI 生成音乐模型 QA-MDT

基于扩散模型的文本描述生成音乐模型。用户可以输入文本描述生成相应的音乐。例如，用户只需提供简单的描述，如"轻松的爵士乐"或"激昂的摇滚乐"，模型便能自动生成相应的音乐作品。

项目体验地址：https://huggingface.co/spaces/jadechoghari/OpenMusic

5、ColorfulShading 编辑图片光照效果

ColorfulShading 允许用户对图像中的光源进行精细调整，模拟自然光照条件，从而增强图像的深度和立体感。该工具为用户提供了强大的光照编辑功能，使得图像处理更加灵活和富有创意。

项目地址：https://yaksoy.github.io/ColorfulShading/

6、美图公司旗下 MOKI 重塑 AI 短片创作工作流

美图公司宣布其 AI 短片创作工具 MOKI 正式全面开放。这一创新平台旨在彻底改变视频创作流程，让用户轻松制作个性化短片。只需简单操作，用户就能快速融合图片、视频和音乐，生成高质量的短片作品。

官网地址：https://www.moki.cn/home

7、PDF2Audio 文档转换音频工具

该开源工具旨在将 PDF 文档转换为音频内容，方便用户通过听的方式获取信息，可以用于制作播客、讲座、讨论和摘要等。与 NotebookLM 相比，PDF2Audio 更加适合将文本转化为音频进行被动的信息获取，而 NotebookLM 则适合用于深入理解、分析文本内容，适用于需要主动交互和推理的场景。

GitHub：https://github.com/lamm-mit/PDF2Audio

项目体验地址：https://huggingface.co/spaces/lamm-mit/PDF2Audio

8、Imagine yourself 个性化图像生成模型

无需微调即可保持角色一致，支持一张图片中出现多角色。

论文地址：https://arxiv.org/abs/2409.13346

9、多邻国推出 AI 视频通话功能

用户可以通过视频通话直接学习语言和练习口语。

10、omni-zero-couples 生成指定风格指定人脸的情侣照

提供一张情侣照作为底图，再上传一男一女的照片作为替换对象，还可以选择设定图片风格参考。系统随即生成一张新的情侣照，将原图中的人物替换成上传的新面孔。虽然效果一般，但项目本身有点意思。

项目体验地址：https://huggingface.co/spaces/okaris/omni-zero-couples

11、How2Draw 图像生成模型

How2Draw 模型能够生成逐步绘制的图像，用户通过输入提示词，生成一张图，按步骤拆解出具体绘画的流程，从简单的线条开始，逐渐形成完整的画作。

项目体验地址：https://glif.app/@Ampp/glifs/cm0zpqvq2000lqe5lyjkw4qe5

🔧应用教程

1、《自动总结公众号的内容，并定时推送到微信上》- by 拔刀刘

文章介绍了如何利用 Coze 平台开发一个自动总结公众号内容并定时推送到微信的 Bot。首先进行需求分析，提出用户希望节省阅读时间的需求。接着，拆解工作流，通过 RSS 聚合公众号内容，批量读取和总结文章，最终将摘要推送至微信。作者希望借助此工具提升工作效率，减少信息处理的重复劳动。

文章地址：https://waytoagi.feishu.cn/wiki/WVRnweRmYi94gvkiARkcQnrinKe

2、《AI + 知识管理体系 - Obsidian 入门及 AI 插件配置》- by 小七姐

文章地址：https://waytoagi.feishu.cn/wiki/RY3lw1aAoiUNlvkabhKcwGgkn3k

3、《释放 AI 设计潜力｜一句提示词，即是你的专属名片设计师！》- by 一泽 Eze

文章介绍了如何利用简单的提示词和 AI 技术快速生成符合品牌调性的创意名片。通过输入一句提示词，用户即可生成具备品牌个性化设计的名片。

文章地址：https://waytoagi.feishu.cn/wiki/FIvvw02adibTMYkFafscUm31ngd

📖精选文章

1、借用数学包装不安全内容实现"越狱 LLM"

这篇论文的作者提出了一种名为 "MathPrompt" 的新型破解技术，通过将不安全的内容包装成为数学问题，从而成功绕过当前的 AI 安全措施，破解技术的平均成功率为 73.6%，其中包括一些领先的模型如 GPT-4 和 Claude 3 系列。

论文地址：https://arxiv.org/abs/2409.11445

2、《LLM 应用路在何方？》- by Winshare

文章探讨了大模型（LLM）的发展现状及其应用的挑战，比如对英伟达上游企业的依赖、商业话路径不清晰、资本的观望等，从而大模型的商业化进展不如预期，形成了低价值应用泛滥的恶性循环。大模型的未来应用需要突破技术限制，同时也要找到合适的高价值应用场景，从而避免低层次市场的竞争，实现真正的技术创新和商业价值的平衡。

文章地址：https://mp.weixin.qq.com/s/Wo3z_U0GeuVdDoJ0UvxTyw

3、《提示工程：反复崛起，反复被死亡》- by 宝玉

提示工程师的核心就是让 AI 真正理解你的意图，并且精确控制 AI 按照你的意愿去完成任务。随着 AI 模型的不断更新迭代，即便是简单的提示词也可以起到良好的效果，因此部分人认为提示工程师已经死了。但透过现象看本质，如何让 AI 懂你、怎么让 AI 更听话这件事情还有很长的路要走，提示工程师在未来很长一段时间仍将存在并且发挥巨大的价值。

文章地址：https://waytoagi.feishu.cn/wiki/ESxiw7WuIi71Hfk6H4lc53nkncd

🏁精选动态

🌟其他动态

🔧应用教程

📖精选文章

睡胖猫

交流频道

加入我们的社群讨论分享