OpenGVLab
diff --git a/‎.gitignore
Lines changed: 59 additions & 0 deletions b/‎.gitignore
Lines changed: 59 additions & 0 deletions
diff --git a/‎configs/config.json
Lines changed: 47 additions & 0 deletions b/‎configs/config.json
Lines changed: 47 additions & 0 deletions
diff --git a/‎configs/config_bert.json
Lines changed: 22 additions & 0 deletions b/‎configs/config_bert.json
Lines changed: 22 additions & 0 deletions
diff --git a/‎configs/config_mistral.json
Lines changed: 50 additions & 0 deletions b/‎configs/config_mistral.json
Lines changed: 50 additions & 0 deletions
diff --git a/‎configs/instruction_data.py
Lines changed: 155 additions & 0 deletions b/‎configs/instruction_data.py
Lines changed: 155 additions & 0 deletions
diff --git a/‎configs/model.py
Lines changed: 8 additions & 0 deletions b/‎configs/model.py
Lines changed: 8 additions & 0 deletions
diff --git a/‎dataset/TimeIT/dense_video_captioning/anet/instruct_dvc_10.0k_anet.json
Lines changed: 1 addition & 0 deletions b/‎dataset/TimeIT/dense_video_captioning/anet/instruct_dvc_10.0k_anet.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎dataset/TimeIT/dense_video_captioning/anet/instruct_dvc_10.0k_anet_15asr.json
Lines changed: 1 addition & 0 deletions b/‎dataset/TimeIT/dense_video_captioning/anet/instruct_dvc_10.0k_anet_15asr.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎dataset/TimeIT/dense_video_captioning/anet/test.caption_coco_format.json
Lines changed: 1 addition & 0 deletions b/‎dataset/TimeIT/dense_video_captioning/anet/test.caption_coco_format.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎dataset/TimeIT/dense_video_captioning/anet/train.caption_coco_format.json
Lines changed: 1 addition & 0 deletions b/‎dataset/TimeIT/dense_video_captioning/anet/train.caption_coco_format.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎dataset/TimeIT/dense_video_captioning/anet/val.caption_coco_format.json
Lines changed: 1 addition & 0 deletions b/‎dataset/TimeIT/dense_video_captioning/anet/val.caption_coco_format.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎dataset/TimeIT/dense_video_captioning/dense_video_captioning_instructions.json
Lines changed: 8 additions & 0 deletions b/‎dataset/TimeIT/dense_video_captioning/dense_video_captioning_instructions.json
Lines changed: 8 additions & 0 deletions
diff --git a/‎dataset/TimeIT/dense_video_captioning/vitt/instruct_dvc_5.1k_vitt.json
Lines changed: 1 addition & 0 deletions b/‎dataset/TimeIT/dense_video_captioning/vitt/instruct_dvc_5.1k_vitt.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎dataset/TimeIT/dense_video_captioning/vitt/instruct_dvc_5.1k_vitt_15asr.json
Lines changed: 1 addition & 0 deletions b/‎dataset/TimeIT/dense_video_captioning/vitt/instruct_dvc_5.1k_vitt_15asr.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎dataset/TimeIT/dense_video_captioning/youcook2/instruct_dvc_1.2k_youcook2.json
Lines changed: 1 addition & 0 deletions b/‎dataset/TimeIT/dense_video_captioning/youcook2/instruct_dvc_1.2k_youcook2.json
Lines changed: 1 addition & 0 deletions
@@ -0,0 +1,59 @@
+# local #
+tmp*/
+cache/*
+*/cache*/
+tmp*.py
+tmp*
+*pickle
+data/
+
+# Zip Files/Packages #
+*.7z
+*.dmg
+*.gz
+*.iso
+*.jar
+*.rar
+*.tar
+*.zip
+
+# Logs and databases #
+*.log
+*.sql
+*.sqlite
+.ipynb_checkpoints/
+*.swp
+*.vscode/
+*.idea/
+*.pyc
+__pycache__
+slurm*out
+
+# OS files #
+.DS_Store
+.DS_Store?
+._*
+.Spotlight-V100
+.Trashes
+ehthumbs.db
+Thumbs.db
+
+
+.vim-arsync
+scratch.norg
+sync_to_red.sh
+
+anno/
+wandb/
+logs/
+*.pth
+
+# personal
+test.ipynb
+
+jupyter/
+
+phoenix-slurm*
+batchscript-*
+
+debug*
@@ -0,0 +1,47 @@
+{
+  "model": {
+    "model_cls": "VideoChat2_it",
+    "vit_blip_model_path": "your_model_path/umt_l16_qformer.pth",
+    "llama_model_path": "your_model_path/vicuna-7b-v0",
+    "videochat2_model_path": "your_model_path/videochat2_7b_stage2.pth",
+    "freeze_vit": false,
+    "freeze_qformer": false,
+    "max_txt_len": 512,
+    "low_resource": false,
+    "vision_encoder": {
+      "name": "vit_l14",
+      "img_size": 224,
+      "patch_size": 16,
+      "d_model": 1024,
+      "encoder_embed_dim": 1024,
+      "encoder_depth": 24,
+      "encoder_num_heads": 16,
+      "drop_path_rate": 0.0,
+      "num_frames": 8,
+      "tubelet_size": 1,
+      "use_checkpoint": false,
+      "checkpoint_num": 0,
+      "pretrained": "",
+      "return_index": -2,
+      "vit_add_ln": true,
+      "ckpt_num_frame": 4
+    },
+    "num_query_token": 32,
+    "qformer_hidden_dropout_prob": 0.1,
+    "qformer_attention_probs_dropout_prob": 0.1,
+    "qformer_drop_path_rate": 0.2,
+    "extra_num_query_token": 64,
+    "qformer_text_input": true,
+    "system": "",
+    "start_token": "<Video>",
+    "end_token": "</Video>",
+    "img_start_token": "<Image>",
+    "img_end_token": "</Image>",
+    "random_shuffle": true,
+    "use_lora": false,
+    "lora_r": 16,
+    "lora_alpha": 32,
+    "lora_dropout": 0.1
+  },
+  "device": "cuda"
+}
@@ -0,0 +1,22 @@
+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "type_vocab_size": 2,
+  "vocab_size": 30522,
+  "fusion_layer": 9,
+  "encoder_width": 768,
+  "cross_module": "ca"
+}
@@ -0,0 +1,50 @@
+{
+  "model": {
+    "model_cls": "VideoChat2_it_mistral",
+    "vit_blip_model_path": "/path_to_the_timesuite_root_folder/download/parameters/umt_l16_qformer.pth",
+    "mistral_model_path": "/path_to_the_timesuite_root_folder/download/parameters/Mistral-7B-Instruct-v0.2",
+    "videochat2_model_path": "/path_to_the_timesuite_root_folder/download/parameters/videochat2_mistral_7b_stage2.pth",
+    "freeze_vit": false,
+    "freeze_qformer": false,
+    "max_txt_len": 512,
+    "low_resource": false,
+    "vision_encoder": {
+      "name": "vit_l14",
+      "img_size": 224,
+      "patch_size": 16,
+      "d_model": 1024,
+      "encoder_embed_dim": 1024,
+      "encoder_depth": 24,
+      "encoder_num_heads": 16,
+      "drop_path_rate": 0.0,
+      "num_frames": 8,
+      "tubelet_size": 1,
+      "use_checkpoint": true,
+      "checkpoint_num": 18,
+      "pretrained": "",
+      "return_index": -2,
+      "vit_add_ln": true,
+      "ckpt_num_frame": 4
+    },
+    "num_query_token": 32,
+    "qformer_hidden_dropout_prob": 0.1,
+    "qformer_attention_probs_dropout_prob": 0.1,
+    "qformer_drop_path_rate": 0.2,
+    "extra_num_query_token": 64,
+    "qformer_text_input": true,
+    "system": "",
+    "start_token": "<Video>",
+    "end_token": "</Video>",
+    "add_second_msg": true,
+    "img_start_token": "<Image>",
+    "img_end_token": "</Image>",
+    "random_shuffle": true,
+    "return_question_instruction": false,
+    "use_flash_attention": true,
+    "use_lora": false,
+    "lora_r": 16,
+    "lora_alpha": 32,
+    "lora_dropout": 0.1
+  },
+  "device": "cuda"
+}
@@ -0,0 +1,155 @@
+import os as __os  # add "__" if not want to be exported
+from copy import deepcopy as __deepcopy
+
+anno_root_it = "/path_to_the_timesuite_root_folder/download/datasets/TimePro"
+
+
+# ============== pretraining datasets=================
+available_corpus = dict(
+    
+    caption_youcook2=[
+        f"{anno_root_it}/caption_youcook2.json", 
+        "pnorm2:s3://youcook2/split_videos",
+        "video"
+    ],
+    conversation_videochat1=[
+        f"{anno_root_it}/conversation_videochat1.json", 
+        "pnorm2:s3://webvid10m",
+        "video"
+    ],
+    conversation_videochat2=[
+        f"{anno_root_it}/conversation_videochat2.json", 
+        "pnorm:s3://videointernsegvideos",
+        "video"
+    ],
+    conversation_videochatgpt=[
+        f"{anno_root_it}/conversation_videochatgpt.json", 
+        "pnorm2:s3://anet/ANet_320p_fps30",
+        "video"
+    ],
+    reasoning_star=[
+        f"{anno_root_it}/reasoning_star.json", 
+        "pnorm2:s3://star/Charades_v1_480",
+        "video"
+    ],
+    vqa_ego_qa=[
+        f"{anno_root_it}/vqa_ego_qa.json", 
+        "pnorm2:s3://egoqa/split_videos",
+        "video"
+    ],
+
+
+
+
+    # TimeIT
+    timeit_ANet=[
+        f"{anno_root_it}/timeit_ANet.json", 
+        "pnorm2:s3://anet",
+        "video"
+    ],
+    
+    timeit_COIN=[
+        f"{anno_root_it}/timeit_COIN.json", 
+        "pnorm:s3://COIN_320p",
+        "video"
+    ],
+
+    timeit_DiDeMo=[
+        f"{anno_root_it}/timeit_DiDeMo.json", 
+        "sssd:s3://yjsBucket",
+        "video"
+    ],
+    
+    timeit_HiREST=[
+        f"{anno_root_it}/timeit_HiREST.json", 
+        "pnorm2zxy:s3://hirest",
+        "video"
+    ],
+    
+    
+    timeit_QuerYD=[
+        f"{anno_root_it}/timeit_QuerYD.json", 
+        "pnorm2zxy:s3://queryd",
+        "video"
+    ],
+    
+    timeit_TVSum=[
+        f"{anno_root_it}/timeit_TVSum.json", 
+        "pnorm2zxy:s3://tvsum",
+        "video"
+    ],
+    
+    timeit_ViTT=[
+        f"{anno_root_it}/timeit_ViTT.json", 
+        "sssd:s3://ViTT",
+        "video"
+    ],
+    
+    timeit_yttemporal180m=[
+        f"{anno_root_it}/timeit_yttemporal180m.json", 
+        "pnorm:s3://YT-Temporal-180M",
+        "video"
+    ],
+    
+    grounding_ANetRTL=[    
+        f"{anno_root_it}/grounding_ANetRTL.json", 
+        "pnorm2:s3://anet/ANet_320p_fps30/train",
+        "video"
+    ],
+    
+    grounding_IntrenvidVTime_100K=[
+        f"{anno_root_it}/grounding_IntrenvidVTime_100K.json", 
+        "pnorm:s3://youtubeBucket/videos/",
+        "video"
+    ],
+    grounding_ANetHL2=[
+        f"{anno_root_it}/grounding_ANetHL2.json", 
+        "pnorm2:s3://anet/ANet_320p_fps30/train",
+        "video"
+    ],
+
+    grounding_CosmoCap_93K=[
+        f"{anno_root_it}/grounding_CosmoCap_93K.json", 
+        "pvideo:s3://howto100m/",
+        "video"
+    ],
+    vqa_moviechat = [
+        f'{anno_root_it}/vqa_moviechat.json',
+        'pnorm2:s3://MovieChat/real_video/',
+        'video'
+    ],
+    caption_moviechat = [
+        f'{anno_root_it}/caption_moviechat.json',
+        'pnorm2:s3://MovieChat/real_video/',
+        'video'
+    ],
+    
+)
+
+
+available_corpus["TimePro_Normal"] = [    #final dataset
+    #TiIT
+    available_corpus["timeit_ANet"],        
+    available_corpus["timeit_COIN"],        
+    available_corpus["timeit_DiDeMo"],      
+    available_corpus["timeit_HiREST"],      
+    available_corpus["timeit_QuerYD"],      
+    available_corpus["timeit_TVSum"],       
+    available_corpus["timeit_ViTT"],        
+    available_corpus["timeit_yttemporal180m"],     
+    #Conv
+    available_corpus["conversation_videochatgpt"],
+    available_corpus["conversation_videochat2"],
+    available_corpus["conversation_videochat1"],
+    #DvcVqa
+    available_corpus["caption_youcook2"],
+    available_corpus["vqa_ego_qa"],
+    #Gro
+    available_corpus["grounding_ANetRTL"],
+    available_corpus["grounding_IntrenvidVTime_100K"],
+    available_corpus["grounding_ANetHL2"],
+    available_corpus["grounding_CosmoCap_93K"],
+    available_corpus["vqa_moviechat"],
+    available_corpus["caption_moviechat"],
+    available_corpus["reasoning_star"],
+]
@@ -0,0 +1,8 @@
+TextEncoders = dict()
+TextEncoders["bert"] = dict(
+    name="bert_base",
+    pretrained="bert-base-uncased",
+    config="configs/config_bert.json",
+    d_model=768,
+    fusion_layer=9,
+)
@@ -0,0 +1 @@
+../../../../../../../.cache/huggingface/hub/datasets--ShuhuaiRen--TimeIT/blobs/36470518c0a555bbc7e7ae0b30393441ec533e03
@@ -0,0 +1 @@
+../../../../../../../.cache/huggingface/hub/datasets--ShuhuaiRen--TimeIT/blobs/2d6aad3236b910b1877aa8058dd0be19b3f333b7cefebd1f6c852880d13a6dc3
@@ -0,0 +1,8 @@
+{
+    "0": "Localize a series of activity events in the video, output the start and end timestamp for each event, and describe each event with sentences. The output format of each predicted event should be like: 'start - end seconds, event description'. A specific example is: ' 90 - 102 seconds, spread margarine on two slices of white bread in the video'.",
+    "1": "Determine the start and end times of various activity events in the video, accompanied by descriptions.",
+    "2": "Capture and describe the activity events in the given video, specifying their respective time intervals, and outputting the time intervals in the 'start - end seconds format'.",
+    "3": "Identify, timestamp, and describe various activity events occurring in the video. The timestamp should include the start time and end time in seconds.",
+    "4": "Detect and report the start and end timestamps of activity events in the video, along with descriptions.",
+    "5": "Pinpoint the time intervals of activity events in the video, and provide detailed descriptions for each event."
+}
@@ -0,0 +1 @@
+../../../../../../../.cache/huggingface/hub/datasets--ShuhuaiRen--TimeIT/blobs/1dc9787ee6fa38f8c3223b14eb10da0efdfa1c17ef9f0dea77fafd5425a5c5dc
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+../../../../../../../.cache/huggingface/hub/datasets--ShuhuaiRen--TimeIT/blobs/36470518c0a555bbc7e7ae0b30393441ec533e03`