跟阿里的Emo、微软的VASA-1类似,能通过语音驱动,使用图片生成带有表情和头部动作的视频。
跟阿里的Emo、微软的VASA-1类似,能通过语音驱动,使用图片生成带有表情和头部动作的视频。后续会开源代码和模型。
一个使用类型来构建自然语言界面的库。
一个声音克隆工具,可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。
一种专门为实时图像生成服务设计的扩散模型管道,显著地提升了实时图像生成的性能。
腾讯AI实验室推出的 AI 绘图模型,效果类似 ControlNet,可以控制图片生成的效果
文本来生成具有艺术风格的Cinemagraph动态图片
一款功能强大且易于使用的音频分离工具,可以根据你的描述准确分离音频文件中的不同声音源。