0% found this document useful (0 votes)

37 views7 pages

Video Processing with Decord Reader

Uploaded by

Satya Perabhatula

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

37 views7 pages

Video Processing with Decord Reader

Uploaded by

Satya Perabhatula

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

import argparse

import torch

from [Link] import IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN,

DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN
from [Link] import conv_templates, SeparatorStyle
from [Link] import load_pretrained_model
from [Link] import disable_torch_init
from llavavid.mm_utils import process_anyres_image,tokenizer_image_token,
get_model_name_from_path, KeywordsStoppingCriteria

import json
import os
import math
from tqdm import tqdm
from decord import VideoReader, cpu

from transformers import AutoConfig

import cv2
import base64
import openai

from PIL import Image

import numpy as np

def split_list(lst, n):

"""Split a list into n (roughly) equal-sized chunks"""
chunk_size = [Link](len(lst) / n) # integer division
return [lst[i : i + chunk_size] for i in range(0, len(lst), chunk_size)]

def get_chunk(lst, n, k):

chunks = split_list(lst, n)
return chunks[k]

def parse_args():
"""
Parse command-line arguments.
"""
parser = [Link]()

# Define the command-line arguments

parser.add_argument("--video_path", help="Path to the video files.",
required=True)
parser.add_argument("--output_dir", help="Directory to save the model results
JSON.", required=True)
parser.add_argument("--output_name", help="Name of the file for storing results
JSON.", required=True)
parser.add_argument("--model-path", type=str, default="facebook/opt-350m")
parser.add_argument("--model-base", type=str, default=None)
parser.add_argument("--conv-mode", type=str, default=None)
parser.add_argument("--chunk-idx", type=int, default=0)
parser.add_argument("--mm_resampler_type", type=str, default="spatial_pool")
parser.add_argument("--mm_spatial_pool_stride", type=int, default=4)
parser.add_argument("--mm_spatial_pool_out_channels", type=int, default=1024)
parser.add_argument("--mm_spatial_pool_mode", type=str, default="average")
parser.add_argument("--image_aspect_ratio", type=str, default="anyres")
parser.add_argument("--image_grid_pinpoints", type=str, default="[(224, 448),
(224, 672), (224, 896), (448, 448), (448, 224), (672, 224), (896, 224)]")
parser.add_argument("--mm_patch_merge_type", type=str, default="spatial_unpad")
parser.add_argument("--overwrite", type=lambda x: (str(x).lower() == 'true'),
default=True)
parser.add_argument("--for_get_frames_num", type=int, default=4)
parser.add_argument("--load_8bit", type=lambda x: (str(x).lower() == 'true'),
default=False)
parser.add_argument("--prompt", type=str, default=None)
parser.add_argument("--api_key", type=str, help="OpenAI API key")
parser.add_argument("--mm_newline_position", type=str, default="no_token")
parser.add_argument("--force_sample", type=lambda x: (str(x).lower() ==
'true'), default=False)
return parser.parse_args()

def load_video(video_path, args):

vr = VideoReader(video_path, ctx=cpu(0))
total_frame_num = len(vr)
fps = round(vr.get_avg_fps())
frame_idx = [i for i in range(0, len(vr), fps)]
# sample_fps = args.for_get_frames_num if total_frame_num >
args.for_get_frames_num else total_frame_num
if len(frame_idx) > args.for_get_frames_num or args.force_sample:
sample_fps = args.for_get_frames_num
uniform_sampled_frames = [Link](0, total_frame_num - 1, sample_fps,
dtype=int)
frame_idx = uniform_sampled_frames.tolist()
spare_frames = vr.get_batch(frame_idx).asnumpy()
# Save frames as images
# for i, frame in enumerate(spare_frames):
# [Link](f'{args.output_dir}/frame_{i}.jpg', [Link](frame,
cv2.COLOR_RGB2BGR))

return spare_frames

def load_video_base64(path):
video = [Link](path)

base64Frames = []
while [Link]():
success, frame = [Link]()
if not success:
break
_, buffer = [Link](".jpg", frame)
[Link](base64.b64encode(buffer).decode("utf-8"))

[Link]()
# print(len(base64Frames), "frames read.")
return base64Frames

def run_inference(args):
"""
Run inference on ActivityNet QA DataSet using the Video-ChatGPT model.
Args:
args: Command-line arguments.
"""
# Initialize the model
if "gpt4v" != args.model_path:
model_name = get_model_name_from_path(args.model_path)
# Set model configuration parameters if they exist
if [Link] == True:
overwrite_config = {}
overwrite_config["mm_spatial_pool_mode"] = args.mm_spatial_pool_mode
overwrite_config["mm_spatial_pool_stride"] =
args.mm_spatial_pool_stride
overwrite_config["mm_newline_position"] = args.mm_newline_position

cfg_pretrained = AutoConfig.from_pretrained(args.model_path)

# import pdb;pdb.set_trace()
if "qwen" not in args.model_path.lower():
if "224" in cfg_pretrained.mm_vision_tower:
# suppose the length of text tokens is around 1000, from bo's
report
least_token_number =
args.for_get_frames_num*(16//args.mm_spatial_pool_stride)**2 + 1000
else:
least_token_number =
args.for_get_frames_num*(24//args.mm_spatial_pool_stride)**2 + 1000

scaling_factor = [Link](least_token_number/4096)
if scaling_factor >= 2:
if "vicuna" in cfg_pretrained._name_or_path.lower():
print(float(scaling_factor))
overwrite_config["rope_scaling"] = {"factor":
float(scaling_factor), "type": "linear"}
overwrite_config["max_sequence_length"] = 4096 * scaling_factor
overwrite_config["tokenizer_model_max_length"] = 4096 *
scaling_factor

tokenizer, model, image_processor, context_len =

load_pretrained_model(args.model_path, args.model_base, model_name,
load_8bit=args.load_8bit, overwrite_config=overwrite_config)
else:
tokenizer, model, image_processor, context_len =
load_pretrained_model(args.model_path, args.model_base, model_name)
else:
pass

# Create the output directory if it doesn't exist

if not [Link](args.output_dir):
[Link](args.output_dir)

output_name = args.output_name
answers_file = [Link](args.output_dir, f"{output_name}.json")
ans_file = open(answers_file, "w")

video_path = args.video_path

all_video_pathes = []
# Check if the video_path is a directory or a file
if [Link](video_path):
# If it's a directory, loop over all files in the directory
for filename in [Link](video_path):
# Load the video file
cur_video_path = [Link](video_path, f"{filename}")
all_video_pathes.append([Link](video_path, cur_video_path))
else:
# If it's a file, just process the video
all_video_pathes.append(video_path)

# import pdb;pdb.set_trace()
for video_path in all_video_pathes:

sample_set = {}
question = [Link]
sample_set["Q"] = question
sample_set["video_name"] = video_path

# Check if the video exists

if [Link](video_path):
if "gpt4v" != args.model_path:
video = load_video(video_path, args)
video = image_processor.preprocess(video, return_tensors="pt")
["pixel_values"].half().cuda()
video = [video]
else:
video = load_video_base64(video_path)
interval = int(len(video) / args.for_get_frames_num)

# try:
# Run inference on the video and add the output to the list
if "gpt4v" != args.model_path:
qs = question
if [Link].mm_use_im_start_end:
qs = DEFAULT_IM_START_TOKEN + DEFAULT_IMAGE_TOKEN +
DEFAULT_IM_END_TOKEN + "\n" + qs
else:
qs = DEFAULT_IMAGE_TOKEN + "\n" + qs

conv = conv_templates[args.conv_mode].copy()
conv.append_message([Link][0], qs)
conv.append_message([Link][1], None)
prompt = conv.get_prompt()

input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX,

return_tensors="pt").unsqueeze(0).cuda()
if tokenizer.pad_token_id is None:
if "qwen" in tokenizer.name_or_path.lower():
print("Setting pad token to bos token for qwen model.")
tokenizer.pad_token_id = 151643

attention_masks = input_ids.ne(tokenizer.pad_token_id).long().cuda()

stop_str = [Link] if conv.sep_style != [Link] else

conv.sep2
keywords = [stop_str]
stopping_criteria = KeywordsStoppingCriteria(keywords, tokenizer,
input_ids)

cur_prompt = question
else:
prompt = question

system_error = ""

if "gpt4v" != args.model_path:

with torch.inference_mode():
# model.update_prompt([[cur_prompt]])
# import pdb;pdb.set_trace()
# output_ids = [Link](inputs=input_ids, images=video,
attention_mask=attention_masks, modalities="video", do_sample=True,
temperature=0.2, max_new_tokens=1024, use_cache=True,
stopping_criteria=[stopping_criteria])
if "mistral" not in cfg_pretrained._name_or_path.lower():
output_ids = [Link](inputs=input_ids, images=video,
attention_mask=attention_masks, modalities="video", do_sample=False,
temperature=0.0, max_new_tokens=1024, top_p=0.1,num_beams=1,use_cache=True,
stopping_criteria=[stopping_criteria])
# output_ids = [Link](inputs=input_ids, images=video,
attention_mask=attention_masks, modalities="video", do_sample=True,
temperature=0.2, max_new_tokens=1024, use_cache=True,
stopping_criteria=[stopping_criteria])
else:
output_ids = [Link](inputs=input_ids, images=video,
attention_mask=attention_masks, modalities="video", do_sample=False,
temperature=0.0, max_new_tokens=1024, top_p=0.1, num_beams=1, use_cache=True)
# output_ids = [Link](inputs=input_ids, images=video,
attention_mask=attention_masks, modalities="video", do_sample=True,
temperature=0.2, max_new_tokens=1024, use_cache=True)
else:
openai.api_key = args.api_key # Your API key here

max_num_retries = 0
retry = 5
PROMPT_MESSAGES = [
{
"role": "user",
"content": [
f"These are frames from a video that I want to upload.
Answer me one question of this video: {prompt}",
*map(lambda x: {"image": x, "resize": 336},
video[0::interval]),
],
},
]
params = {
"model": "gpt-4-vision-preview", #gpt-4-1106-vision-preview
"messages": PROMPT_MESSAGES,
"max_tokens": 1024,
}
sucess_flag=False
while max_num_retries < retry:
try:
result = [Link](**params)
outputs = [Link][0].[Link]
sucess_flag = True
break
except Exception as inst :
if 'error' in dir(inst):
# import pdb;pdb.set_trace()
if [Link] == 'rate_limit_exceeded':
if "TPM" in [Link]:
[Link](30)
continue
else:
import pdb;pdb.set_trace()
elif [Link] == 'insufficient_quota':
print(f'insufficient_quota key')
exit()
elif [Link] == 'content_policy_violation':
print(f'content_policy_violation')
system_error = "content_policy_violation"

break
print('Find error message in response:
',str([Link]), 'error code: ', str([Link]))

continue
if not sucess_flag:
print(f'Calling OpenAI failed after retrying for {max_num_retries}
times. Check the logs for details.')
exit()

if "gpt4v" != args.model_path:
outputs = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
[0].strip()
else:
print(len(video[0::interval]))

print(f"Question: {prompt}\n")
print(f"Response: {outputs}\n")

if "gpt4v" == args.model_path:
if system_error == 'content_policy_violation':
continue
elif system_error == "":
continue
else:
import pdb;pdb.set_trace()

# import pdb;pdb.set_trace()
if "mistral" not in cfg_pretrained._name_or_path.lower():
if [Link](stop_str):
outputs = outputs[: -len(stop_str)]

outputs = [Link]()

sample_set["pred"] = outputs
ans_file.write([Link](sample_set, ensure_ascii=False) + "\n")
ans_file.flush()

ans_file.close()
if __name__ == "__main__":
args = parse_args()
run_inference(args)

Next With Continuos Run
No ratings yet
Next With Continuos Run
4 pages
Video Api Endpoint
No ratings yet
Video Api Endpoint
2 pages
Def Set Random Seed (Seed)
No ratings yet
Def Set Random Seed (Seed)
29 pages
Kijai ComfyUI VEnhancer
No ratings yet
Kijai ComfyUI VEnhancer
76 pages
CCTV Anomaly Detection Guide
No ratings yet
CCTV Anomaly Detection Guide
39 pages
IndicTrans2 PDF to Punjabi Docx Conversion
No ratings yet
IndicTrans2 PDF to Punjabi Docx Conversion
5 pages
Trainrealfill
No ratings yet
Trainrealfill
19 pages
Comfyui Hunyuanvideowrapper
No ratings yet
Comfyui Hunyuanvideowrapper
316 pages
Test Work
No ratings yet
Test Work
18 pages
Vit32 GPTMD
No ratings yet
Vit32 GPTMD
6 pages
Tutorial Pytorch Best Commands
No ratings yet
Tutorial Pytorch Best Commands
8 pages
Image Captioning Model Development
No ratings yet
Image Captioning Model Development
9 pages
Wa0029.
No ratings yet
Wa0029.
11 pages
Inference
No ratings yet
Inference
8 pages
Using Pre-Trained Models in Keras
No ratings yet
Using Pre-Trained Models in Keras
12 pages
3D Convolutional Autoencoder
No ratings yet
3D Convolutional Autoencoder
14 pages
Image Captioning With Visual Attention PDF
No ratings yet
Image Captioning With Visual Attention PDF
16 pages
LLM Fine Tune
No ratings yet
LLM Fine Tune
11 pages
Video
No ratings yet
Video
28 pages
Stable Diffusion Report Updated
No ratings yet
Stable Diffusion Report Updated
19 pages
Start
No ratings yet
Start
3 pages
Deforum Stable Diffusion v0.7 Guide
No ratings yet
Deforum Stable Diffusion v0.7 Guide
12 pages
README MD
No ratings yet
README MD
3 pages
Causal Self-Attention in PyTorch
No ratings yet
Causal Self-Attention in PyTorch
10 pages
Deep Learning With PyTorch
No ratings yet
Deep Learning With PyTorch
19 pages
21BCP167 Ai 9
No ratings yet
21BCP167 Ai 9
10 pages
Train Py
No ratings yet
Train Py
4 pages
Transfer Learning For Image Classification in Pytorch
No ratings yet
Transfer Learning For Image Classification in Pytorch
13 pages
Detect
No ratings yet
Detect
6 pages
Retorno 1
No ratings yet
Retorno 1
29 pages
Assignment3 AL
No ratings yet
Assignment3 AL
23 pages
Fast Llama Training Guide
No ratings yet
Fast Llama Training Guide
5 pages
Cctvmodel
No ratings yet
Cctvmodel
4 pages
Fine-Tune Marian-MT Translation Model
No ratings yet
Fine-Tune Marian-MT Translation Model
9 pages
COCO to YOLO Object Detection Guide
No ratings yet
COCO to YOLO Object Detection Guide
447 pages
Deep Learning Lab
No ratings yet
Deep Learning Lab
7 pages
Computer Vision Lab Guide
No ratings yet
Computer Vision Lab Guide
120 pages
Intent Recognizer
No ratings yet
Intent Recognizer
5 pages
Experiment 10 NLP
No ratings yet
Experiment 10 NLP
5 pages
Optimize Dataset.py for Chunked Uploads
No ratings yet
Optimize Dataset.py for Chunked Uploads
21 pages
Img Proc
No ratings yet
Img Proc
2 pages
Today
No ratings yet
Today
33 pages
NLP
No ratings yet
NLP
15 pages
Install Transformers and Torch
No ratings yet
Install Transformers and Torch
4 pages
Transfer Learning for Beginners
No ratings yet
Transfer Learning for Beginners
7 pages
Audio Processing with TensorFlow
No ratings yet
Audio Processing with TensorFlow
5 pages
Image Classification with PyTorch
No ratings yet
Image Classification with PyTorch
19 pages
TensorFlow Cheat Sheet
No ratings yet
TensorFlow Cheat Sheet
7 pages
MNIST Classifier with TensorFlow
No ratings yet
MNIST Classifier with TensorFlow
3 pages
Experimental Pix2pix
No ratings yet
Experimental Pix2pix
5 pages
Tutorials Sources Beginner Ptcheat
No ratings yet
Tutorials Sources Beginner Ptcheat
7 pages
03 Pytorch Computer Vision - Ipynb
No ratings yet
03 Pytorch Computer Vision - Ipynb
152 pages
Csc413 Project Semantic Segmentation
No ratings yet
Csc413 Project Semantic Segmentation
84 pages
LLaVA - Large Multimodal Model
No ratings yet
LLaVA - Large Multimodal Model
15 pages
Assignment 3 DS5620
No ratings yet
Assignment 3 DS5620
11 pages
AI Image Generation from Text Prompts
No ratings yet
AI Image Generation from Text Prompts
6 pages
Message
No ratings yet
Message
3 pages
Hand On Day 2 Salinan - Dari - 2 - Using - Transformers
No ratings yet
Hand On Day 2 Salinan - Dari - 2 - Using - Transformers
10 pages
Petunjuk Mengerjakan Soal:: Panca Bhakti Magetan
No ratings yet
Petunjuk Mengerjakan Soal:: Panca Bhakti Magetan
2 pages
Cit314 2022 2
No ratings yet
Cit314 2022 2
3 pages
Far Right Encounters in Contemporary Eur
No ratings yet
Far Right Encounters in Contemporary Eur
26 pages
Siemens PLC Course TIA Portal Basic - Advanced (All in One)
No ratings yet
Siemens PLC Course TIA Portal Basic - Advanced (All in One)
2 pages
Lessons in Elocution, Or, A Selection of Pieces in Prose and Verse 1831
No ratings yet
Lessons in Elocution, Or, A Selection of Pieces in Prose and Verse 1831
357 pages
Rilke and The Modernist Tradition: A Brief Look at "Archaic Torso of Apollo" Pyeaam ABBASI
No ratings yet
Rilke and The Modernist Tradition: A Brief Look at "Archaic Torso of Apollo" Pyeaam ABBASI
7 pages
Jerrold Kemp: Instructional Design Model
No ratings yet
Jerrold Kemp: Instructional Design Model
37 pages
Two Yr CRP224 A-Lot - PT2 - Paper-1
No ratings yet
Two Yr CRP224 A-Lot - PT2 - Paper-1
13 pages
2025 Jehovah's Witnesses Calendar
No ratings yet
2025 Jehovah's Witnesses Calendar
8 pages
Sanet - ST Debt-Free Art Degree Foundations in Drawing-9780760391617
75% (16)
Sanet - ST Debt-Free Art Degree Foundations in Drawing-9780760391617
332 pages
LAHTI PREC - EN - TPL-400 - User - Guide
No ratings yet
LAHTI PREC - EN - TPL-400 - User - Guide
38 pages
Draft LCC 10 5 18
No ratings yet
Draft LCC 10 5 18
3 pages
Globalization's Influence on Communication
No ratings yet
Globalization's Influence on Communication
6 pages
Bouncken Et Al 2021
No ratings yet
Bouncken Et Al 2021
23 pages
Rebecca Stewart's Teaching Portfolio
No ratings yet
Rebecca Stewart's Teaching Portfolio
2 pages
Cambridge IGCSE™: Physics 0625/42
No ratings yet
Cambridge IGCSE™: Physics 0625/42
12 pages
Irregular Verbs List with Spanish Translation
No ratings yet
Irregular Verbs List with Spanish Translation
10 pages
Dashboard 12
No ratings yet
Dashboard 12
251 pages
Apps SQL Queries
100% (3)
Apps SQL Queries
11 pages
Verbs with Gerund and Infinitive Usage
No ratings yet
Verbs with Gerund and Infinitive Usage
4 pages
WS - CB - IX - Eng - The Sound of Music
No ratings yet
WS - CB - IX - Eng - The Sound of Music
3 pages
God S Shield of Protection
100% (4)
God S Shield of Protection
107 pages
Tutorial
100% (2)
Tutorial
1,367 pages
Comptia A+: - Exam Codes 220-1101 & 220-1102
No ratings yet
Comptia A+: - Exam Codes 220-1101 & 220-1102
280 pages
Advanced Branch Prediction Techniques
No ratings yet
Advanced Branch Prediction Techniques
41 pages
AI & Data Science Projects by Sanjay S
No ratings yet
AI & Data Science Projects by Sanjay S
1 page
Saidul Islam Software Engineer Resume
No ratings yet
Saidul Islam Software Engineer Resume
1 page
Introduction
No ratings yet
Introduction
3 pages
FD Part8 Integrated HMI en
100% (2)
FD Part8 Integrated HMI en
81 pages
Art Integrated Project Grade 9
No ratings yet
Art Integrated Project Grade 9
2 pages

Video Processing with Decord Reader

Uploaded by

Video Processing with Decord Reader

Uploaded by

import argparse

from [Link] import IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN,

from transformers import AutoConfig

from PIL import Image

def split_list(lst, n):

def get_chunk(lst, n, k):

# Define the command-line arguments

def load_video(video_path, args):

tokenizer, model, image_processor, context_len =

# Create the output directory if it doesn't exist

# Check if the video exists

input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX,

stop_str = [Link] if conv.sep_style != [Link] else

You might also like