社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

GitHub第一!!北大开源文生视频登上GitHub趋势榜单第一名!

GitHub项目进阶 • 4 周前 • 35 次点击  

北大开源文生视频登上GitHub趋势榜单第一名!

https://github.com/PKU-YuanGroup/Open-Sora-Plan

huggingFace的体验

https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0


虽然字节否认了400亿美金的利润传言,但是还是可以看出,短视频的赚钱魅力。

如果能够文生短视频,将是内容供给的一大改革。谁先做出来,谁赚钱。所以,需求特别旺盛,开源文生视频一出来,登顶github榜单,也在意料之中。


国际著名导演昆丁看后直接感叹:

该项目旨在创建一个简单且可扩展的存储库,以重现Sora(OpenAI,但我们更愿意称其为“ClosedAI”)。我们希望开源社区能为这个项目做出贡献。欢迎拉请求!

本项目希望通过开源社区力量的复现Sora,由北大-兔展AIGC联合实验室共同发起,当前版本离目标差距仍在加大,仍需持续完善和快速迭代,欢迎拉取!

项目阶段:

  • 基本的

  1. 设置代码库并在景观数据集上训练无条件模型。

  2. 训练可提高分辨率和持续时间的模型。

  • 扩展

  1. 在景观数据集上进行text2video实验。

  2. 在 video2text 数据集上训练 1080p 模型。

  3. 具有更多条件的控制模型。


网页用户界面 

强烈建议通过以下命令尝试我们的网络演示。我们还提供在线演示 Huggingface Spaces。

🤝 享受@camenduru创建的和,他慷慨支持我们的研究!

python -m opensora.serve.gradio_web_server

CLI 推理

sh scripts/text_condition/sample_video.sh

数据集

参考数据.md

评估

请参阅文档EVAL.md

因果视频 VAE

重建

python examples/rec_video_vae.py --rec-path test_video.mp4 --video-path video.mp4 --resolution 512 --num-frames 1440 --sample-rate 1 --sample-fps 24 -
-device cuda --ckpt <Your ckpt>

训练和推理

请参阅文档CausalVideoVAE

视频GPT VQVAE

请参考文档VQVAE

视频扩散变压器

训练

sh scripts/text_condition/train_videoae_17x256x256.sh

sh scripts/text_condition/train_videoae_65x256x256.sh




    
sh scripts/text_condition/train_videoae_65x512x512.sh

🚀 提高训练表现

文生图的表现



文本生成图像(Text-to-Image)和文本生成视频(Text-to-Video)是人工智能领域中的两个热门研究方向,它们涉及到自然语言处理(NLP)、计算机视觉(CV)和机器学习(ML)等多个技术领域。以下是一些可能的技术路线和技术细节:

文本生成图像(Text-to-Image)


  1. 预训练的语言模型:使用大型预训练语言模型(如GPT系列)来理解文本输入的语义内容。

  2. 特征提取:通过卷积神经网络(CNN)或Transformer模型从文本中提取高级特征。

  3. 生成对抗网络(GANs):结合生成器和判别器,生成器负责生成图像,判别器负责区分生成图像和真实图像。

  4. 条件GANs(cGANs):在GANs的基础上,通过条件变量(即文本特征)来引导生成器生成特定内容的图像。

  5. 变分自编码器(VAEs):使用VAEs生成潜在空间的表示,然后从潜在空间解码出图像。

  6. 优化和微调:通过优化算法(如梯度下降)和微调技术来提高生成图像的质量和与文本的相关性。



文本生成视频(Text-to-Video)



  1. 序列模型:使用循环神经网络(RNNs)或Transformer模型来处理视频的时间序列特性。

  2. 多模态学习:结合文本、图像和视频数据,训练模型以理解不同模态之间的关系。

  3. 时间一致性:确保生成的视频在时间上的连贯性和一致性,这可能涉及到复杂的时间建模技术。

  4. 动态特征提取:使用3D CNN或其他空间-时间模型来提取视频中的动态特征。

  5. 视频生成对抗网络(VGANs):类似于cGANs,但用于视频内容的生成,确保生成的视频既符合文本描述又具有逼真的视觉效果。

  6. 端到端训练:设计端到端的网络结构,直接从文本到视频的生成,这可能包括编码器-解码器架构。



技术挑战



  1. 语义理解:准确理解文本的语义内容,并将其转化为视觉概念。

  2. 内容的多样性和创造性:生成多样化和创造性的内容,而不仅仅是模仿现有样本。

  3. 时间连贯性:对于视频生成,保持时间上的连贯性和逻辑性是一个挑战。

  4. 计算资源:这些模型通常需要大量的计算资源,特别是在处理高分辨率视频时。

  5. 伦理和隐私:生成内容可能涉及版权、隐私和伦理问题,需要在技术开发的同时考虑这些问题。



在 "open-sora-plan" 项目中,研究者可能会探索上述技术路线和技术细节,以实现从文本到视频的生成。这样的项目需要跨学科的合作,包括计算机科学家、语言学家、艺术家和伦理学家等,以确保技术的发展既先进又负责任。

北大开源文生视频登上GitHub趋势榜单第一名!

https://github.com/PKU-YuanGroup/Open-Sora-Plan

huggingFace的体验

https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0


英语不好的小伙伴看这里

http://www.gitpp.com/digital/open-sora-plan


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/168942
 
35 次点击