Xenova专门研究Web上的机器学习,他最近更新了浏览器内的背景去除演示,新的更新采用了WebGPU,使得速度提高了约 50 倍(~9 秒降至 180 毫秒)!
底层使用的是bria AI的RMBG-v1.4 模型,实现用的是 Transformers.js。#程序员#
Demo:huggingface.co/spaces/Xenova/remove-background-webgpu
RMBG-v1.4模型:huggingface.co/briaai/RMBG-1.4
这个Demo体现了WebGPU对性能的提升。如果你对Web上的AI感兴趣,可以了解Transformer.js:github.com/xenova/transformers.js
Transformers.js 的设计在功能上等同于 Hugging Face 的Transformers Python 库,这意味着你可以使用非常相似的 API 运行相同的预训练模型。这些模型支持不同模式的常见任务,例如:
📝自然语言处理:文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。
🖼️计算机视觉:图像分类、对象检测和分割。
🗣️音频:自动语音识别和音频分类。
🐙多模态:零样本图像分类。
Transformers.js 使用ONNX Runtime在浏览器中运行模型。
视频图片来自网络(测试用)↓
ChatGPT 黄建同学的微博视频
底层使用的是bria AI的RMBG-v1.4 模型,实现用的是 Transformers.js。#程序员#
Demo:huggingface.co/spaces/Xenova/remove-background-webgpu
RMBG-v1.4模型:huggingface.co/briaai/RMBG-1.4
这个Demo体现了WebGPU对性能的提升。如果你对Web上的AI感兴趣,可以了解Transformer.js:github.com/xenova/transformers.js
Transformers.js 的设计在功能上等同于 Hugging Face 的Transformers Python 库,这意味着你可以使用非常相似的 API 运行相同的预训练模型。这些模型支持不同模式的常见任务,例如:
📝自然语言处理:文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。
🖼️计算机视觉:图像分类、对象检测和分割。
🗣️音频:自动语音识别和音频分类。
🐙多模态:零样本图像分类。
Transformers.js 使用ONNX Runtime在浏览器中运行模型。
视频图片来自网络(测试用)↓
ChatGPT 黄建同学的微博视频