能用图像识别+音频转文字把视频生成长文档,再对文档进行提问、对话。
音频转文字
用Wisper获取音频的字幕
提供语音和视频转文字服务。该工具能自动识别讲话人音色,分享会等内容整理成文字,方便用户在工作中快速查阅和整理信息。飞书妙记是一款实用的办公神器。
SDXL Lightning 实时生图
一种专门为实时图像生成服务设计的扩散模型管道,显著地提升了实时图像生成的性能。
通过文字生成3D模型,可以指定衣服。