new_dataloader

wabywang(王本友) · wabywang(王本友) · commit 47786cc817cf · 2018-01-02T23:33:52.000+08:00
diff --git a/dataHelper.py b/dataHelper.py
@@ -0,0 +1,163 @@
+# -*- coding: utf-8 -*-
+
+import os
+import numpy as np
+import string
+from collections import Counter
+import pandas as pd
+from tqdm import tqdm
+import random
+import time
+import pickle
+from utils import log_time_delta
+from tqdm import tqdm
+from dataloader import Dataset
+
+class Alphabet(dict):
+    def __init__(self, start_feature_id = 1, alphabet_type="text"):
+        self.fid = start_feature_id
+        if alphabet_type=="text":
+            self.add('[PADDING]')
+            self.add('[UNK]')
+            self.add('[END]')
+            self.unknow_token = self.get('[UNK]')
+            self.end_token = self.get('[END]')
+            self.padding_token = self.get('[PADDING]')
+
+    def add(self, item):
+        idx = self.get(item, None)
+        if idx is None:
+            idx = self.fid
+            self[item] = idx
+      # self[idx] = item
+            self.fid += 1
+        return idx
+    
+    def addAll(self,words):
+        for word in words:
+            self.add(word)
+            
+    def dump(self, fname,path="temp"):
+        if not os.path.exists(path):
+            os.mkdir(path)
+        with open(os.path.join(path,fname), "w") as out:
+            for k in sorted(self.keys()):
+                out.write("{}\t{}\n".format(k, self[k]))
+
+class BucketIterator(object):
+    def __init__(self,data,opt=None,batch_size=2,shuffle=True):
+        self.shuffle=shuffle
+        self.data=data
+        self.batch_size=batch_size
+        if opt is not None:
+            self.setup(opt)
+    def setup(self,opt):
+        self.data=opt.data
+        self.batch_size=opt.batch_size
+        self.shuffle=opt.__dict__.get("shuffle",self.shuffle)
+    def __iter__(self):
+        if self.shuffle:
+            self.data = self.data.sample(frac=1).reset_index(drop=True)
+        batch_nums = int(len(self.data)/self.batch_size)
+        for  i in range(batch_nums):
+            yield self.data[i*self.batch_size:(i+1)*self.batch_size]
+        yield self.data[-1*self.batch_size:]
+        
+                
+@log_time_delta
+def getSubVectors(vectors,vocab,dim):
+    embedding = np.zeros((len(vocab),dim))
+    count = 1
+    for word in vocab:
+        if word in vectors:
+            count += 1
+            embedding[vocab[word]]= vectors[word]
+        else:
+            embedding[vocab[word]]= np.random.uniform(-0.5,+0.5,dim)#vectors['[UNKNOW]'] #.tolist()
+    print( 'word in embedding',count)
+    return embedding
+
+@log_time_delta
+def load_text_vec(alphabet,filename="",embedding_size=-1):
+    vectors = {}
+    with open(filename,encoding='utf-8') as f:
+        for line in tqdm(f):
+            items = line.strip().split(' ')
+            if len(items) == 2:
+                vocab_size, embedding_size= items[0],items[1]
+                print( 'embedding_size',embedding_size)
+                print( 'vocab_size in pretrained embedding',vocab_size)                
+            else:
+                word = items[0]
+                if word in alphabet:
+                    vectors[word] = items[1:]
+    print( 'words need to be found ',len(alphabet))
+    print( 'words found in wor2vec embedding ',len(vectors.keys()))
+    
+    if embedding_size==-1:
+        embedding_size = len(vectors[list(vectors.keys())[0]])
+    return vectors,embedding_size
+
+def getEmbeddingFile(name):
+    #"glove"  "w2v"
+    
+    return "D:\dataset\glove\glove.6B.300d.txt"
+
+def getDataSet(dataset):
+    
+    data_dir = ".data/clean/demo"
+    files=[os.path.join(data_dir,data_name)   for data_name in ['train.txt','test.txt','dev.txt']]
+
+        
+    return files
+    
+
+def loadData(opt):
+    datas = []
+   
+    alphabet = Alphabet(start_feature_id = 0)
+    label_alphabet= Alphabet(start_feature_id = 0,alphabet_type="label")   
+    for filename in getDataSet(opt.dataset):
+        df = pd.read_csv(filename,header = None,sep="\t",names=["text","label"]).fillna('0')
+        df["text"]= df["text"].str.lower().str.split()
+        datas.append(df)
+        
+    df=pd.concat(datas)
+    
+    from functools import reduce 
+    word_set=reduce(lambda x,y : set(x)|set(y),df["text"])
+    alphabet.addAll(word_set)
+    label_set = set(df["label"])
+    label_alphabet.addAll(label_set)
+    
+    if opt.max_seq_len==-1:
+        opt.max_seq_len = df.apply(lambda row: row["text"].__len__(),axis=1).max()
+    
+    for data in datas:
+        data["text"]= data["text"].apply(lambda text: [alphabet.get(word,alphabet.unknow_token)  for word in text] + [alphabet.padding_token] *int(opt.max_seq_len-len(text)) )
+        data["label"]=data["label"].apply(lambda text: label_alphabet.get(text))
+
+        
+    glove_file = getEmbeddingFile(opt.__dict__.get("embedding","glove_6b_300"))
+    loaded_vectors,embedding_size = load_text_vec(alphabet,glove_file)
+    vocab = [v for k,v in alphabet.items()]
+    vectors = getSubVectors(loaded_vectors,vocab,embedding_size)
+    
+    opt.label_size= len(alphabet)    
+    opt.vocab_size = len(label_alphabet)
+    opt.embedding_dim= embedding_size
+    opt.embeddings = vectors
+   
+    alphabet.dump(opt.dataset+".alphabet")              
+    return map(BucketIterator,datas)  #map(lambda x:BucketIterator(x),datas)
+    
+
+if __name__ =="__main__":
+    import opts
+    opt = opts.parse_opt()
+    opt.max_seq_len=-1
+    import dataloader
+    dataset= dataloader.getDataset(opt)
+#    datas=loadData(opt)
+    
+
diff --git a/dataloader/Dataset.py b/dataloader/Dataset.py
@@ -0,0 +1,84 @@
+# -*- coding: utf-8 -*-
+import os,urllib
+class Dataset(object):
+    def __init__(self,opt=None):
+        if opt is not None:
+            self.setup(opt) 
+        self.root=".data_waby"
+        self.urls=[]
+    def setup(self,opt):
+#        self.http_proxy='http://dev-proxy.oa.com:8080'
+        self.name=opt.dataset
+        self.dirname=opt.dataset
+        
+        
+    def process(self):
+        dirname=self.download()
+        print("processing dirname: "+ dirname)
+        
+        return dirname
+    def download_from_url(self,url, path, schedule=None,http_proxy= "http://dev-proxy.oa.com:8080"):
+        if schedule is None:
+            schedule=lambda a,b,c : print("%.1f"%(100.0 * a * b / c), end='\r',flush=True) if (int(a * b / c)*100)%10==0 else None
+        if http_proxy is not None:
+            proxy = urllib.request.ProxyHandler({'http': http_proxy})
+    # construct a new opener using your proxy settings
+            opener = urllib.request.build_opener(proxy)
+    # install the openen on the module-level
+            urllib.request.install_opener(opener)
+        urllib.request.urlretrieve(url,path,lambda a,b,c : print("%.1f"%(100.0 * a * b / c), end='\r',flush=True) if (int(a * b / c)*100)%10==0 else None )
+        return path
+    
+    def download(self,  check=None):
+        """Download and unzip an online archive (.zip, .gz, or .tgz).
+    
+        Arguments:
+            root (str): Folder to download data to.
+            check (str or None): Folder whose existence indicates
+                that the dataset has already been downloaded, or
+                None to check the existence of root/{cls.name}.
+    
+        Returns:
+            dataset_path (str): Path to extracted dataset.
+        """
+        import zipfile,tarfile
+    
+        path = os.path.join(self.root, self.name)
+        check = path if check is None else check
+        if not os.path.isdir(check):
+            for url in self.urls:
+                if isinstance(url, tuple):
+                    url, filename = url
+                else:
+                    filename = os.path.basename(url)
+                zpath = os.path.join(path, filename)
+                if not os.path.isfile(zpath):
+                    if not os.path.exists(os.path.dirname(zpath)):
+                        os.makedirs(os.path.dirname(zpath))
+                    print('downloading {}'.format(filename))
+                    
+                    self.download_from_url(url, zpath)
+                ext = os.path.splitext(filename)[-1]
+                if ext == '.zip':
+                    with zipfile.ZipFile(zpath, 'r') as zfile:
+                        print('extracting')
+                        zfile.extractall(path)
+                elif ext in ['.gz', '.tgz']:
+                    with tarfile.open(zpath, 'r:gz') as tar:
+                        dirs = [member for member in tar.getmembers()]
+                        tar.extractall(path=path, members=dirs)
+        return os.path.join(path, os.path.splitext(filename)[-2])
+    
+
+
+if __name__ =="__main__":
+    import opts
+    opt = opts.parse_opt()
+    opt.max_seq_len=-1
+    from dataloader import Dataset
+    x=Dataset(opt)
+     
+    x.process()
+#    datas=loadData(opt)
+
+
diff --git a/dataloader/__init__.py b/dataloader/__init__.py
@@ -0,0 +1,14 @@
+# -*- coding: utf-8 -*-
+
+
+from .IMDB import IMDBDataset
+
+
+def getDataset(opt):
+    if opt.dataset=="imdb":
+        dataset = IMDBDataset(opt)
+        
+    else:
+        raise Exception("dataset not supported: {}".format(opt.dataset))
+    return dataset
+
diff --git a/models/LSTM.py b/models/LSTM.py
@@ -43,29 +43,29 @@ def forward(self, sentence):
         lstm_out, self.hidden = self.lstm(x, self.hidden)
         y  = self.hidden2label(lstm_out[-1])
         return y
-    def forward1(self, sentence):
-       
-        return torch.zeros(sentence.size()[0], self.opt.label_size)
-#    def __call__(self, **args):
-#        self.forward(args)
-    def test():
-        
-        import numpy as np
-        
-        word_embeddings = nn.Embedding(10000, 300)
-        lstm = nn.LSTM(300, 100)
-        h0 = Variable(torch.zeros(1, 128, 100))
-        c0 = Variable(torch.zeros(1, 128, 100))
-        hidden=(h0, c0)
-        sentence = Variable(torch.LongTensor(np.zeros((128,30),dtype=np.int64)))
-        embeds = word_embeddings(sentence)
-        torch.tile(sentence)
-        sentence.size()[0]
-       
-        
-        
-#        x= Variable(torch.zeros(30, 128, 300))
-        x = embeds.view(sentence.size()[1], self.batch_size, -1)
-        embeds=embeds.permute(1,0,2)
-        lstm_out, hidden = lstm(embeds, hidden)
-#                  
+#    def forward1(self, sentence):
+#       
+#        return torch.zeros(sentence.size()[0], self.opt.label_size)
+##    def __call__(self, **args):
+##        self.forward(args)
+#    def test():
+#        
+#        import numpy as np
+#        
+#        word_embeddings = nn.Embedding(10000, 300)
+#        lstm = nn.LSTM(300, 100)
+#        h0 = Variable(torch.zeros(1, 128, 100))
+#        c0 = Variable(torch.zeros(1, 128, 100))
+#        hidden=(h0, c0)
+#        sentence = Variable(torch.LongTensor(np.zeros((128,30),dtype=np.int64)))
+#        embeds = word_embeddings(sentence)
+#        torch.tile(sentence)
+#        sentence.size()[0]
+#       
+#        
+#        
+##        x= Variable(torch.zeros(30, 128, 300))
+#        x = embeds.view(sentence.size()[1], self.batch_size, -1)
+#        embeds=embeds.permute(1,0,2)
+#        lstm_out, hidden = lstm(embeds, hidden)
+##                  
diff --git a/push.bash b/push.bash
@@ -1,5 +1,6 @@
 git add *.py
 git add models/*.py
+git add dataloader/*.py
 git commit -m $1
 git pull
 git push
diff --git a/utils.py b/utils.py