Spaces:

torettomarui
/

Llava-qw

Sleeping

App Files Files Community

Llava-qw / app.py

torettomarui

Update app.py

9a61481 verified 8 months ago

raw

history blame

1.82 kB

	import gradio as gr
	from transformers import AutoModel, AutoTokenizer
	import torch
	import torchvision.transforms as T
	from torchvision.transforms.functional import InterpolationMode
	from Models.modeling_llavaqw import LlavaQwModel




	IMAGENET_MEAN = (0.485, 0.456, 0.406)
	IMAGENET_STD = (0.229, 0.224, 0.225)


	model_name = "torettomarui/Llava-qw"
	tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True, use_fast=False)
	model = LlavaQwModel.from_pretrained(
	model_name,
	torch_dtype=torch.bfloat16,
	trust_remote_code=True,
	).to(torch.bfloat16).eval()#.cuda()

	def build_transform(input_size):
	MEAN, STD = IMAGENET_MEAN, IMAGENET_STD
	transform = T.Compose([
	T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),
	T.Resize((input_size, input_size), interpolation=InterpolationMode.BICUBIC),
	T.ToTensor(),
	T.Normalize(mean=MEAN, std=STD)
	])
	return transform


	def preprocess_image(file_path, image_size=448):

	transform = build_transform(image_size)
	pixel_values = transform(file_path)
	return torch.stack([pixel_values]).to(torch.bfloat16)#.cuda()

	def generate_response(image, text):

	pixel_values = preprocess_image(image)

	generation_config = dict(max_new_tokens=2048, do_sample=False)

	question = '<image>\n' + text

	response = model.chat(tokenizer, pixel_values, question, generation_config)

	return response

	iface = gr.Interface(
	fn=generate_response,
	inputs=[
	gr.Image(type="pil", label="上传图片"),
	gr.Textbox(lines=2, placeholder="输入你的问题..."),
	],
	outputs="text",
	title="Llava-QW",
	description="上传一张图片并输入你的问题，模型将生成相应的回答。",
	)

	iface.launch()