[enh] Initial code, adding HYDRA

alexeyev · alexeyev · commit 9ff340d5a30a · 2021-08-29T19:37:55.000+03:00
diff --git a/configs/config.yaml b/configs/config.yaml
@@ -0,0 +1,14 @@
+defaults:
+  - embeddings: word2vec-custom
+  - optimizers: adam
+
+data:
+  path: "reviews_Electronics_5.json.txt"
+
+model:
+  batch_size: 50
+  ortho_reg: 0.1
+  aspects_number: 40
+  epochs: 1
+  negative_samples: 5
+  max_len: 201
diff --git a/configs/embeddings/word2vec-custom.yaml b/configs/embeddings/word2vec-custom.yaml
@@ -0,0 +1,2 @@
+name: word2vec-custom
+path: "word_vectors/reviews_Cell_Phones_and_Accessories_5.json.txt.w2v"
diff --git a/configs/optimizers/adam.yaml b/configs/optimizers/adam.yaml
@@ -0,0 +1 @@
+name: adam
diff --git a/main.py b/main.py
@@ -1,103 +1,77 @@
 # -*- coding: utf-8 -*-
 import numpy as np
 import torch
+import hydra
 from model import ABAE
 from reader import get_centroids, get_w2v, read_data_tensors
 
 
-if __name__ == "__main__":
-
-    import argparse
-
-    parser = argparse.ArgumentParser()
-
-    parser.add_argument("--word-vectors-path", "-wv",
-                        dest="wv_path", type=str, metavar='<str>',
-                        help="path to word vectors file")
-
-    parser.add_argument("--batch-size", "-b", dest="batch_size", type=int, default=50,
-                        help="Batch size for training")
-
-    parser.add_argument("--aspects-number", "-as", dest="aspects_number", type=int, default=40,
-                        help="A total number of aspects")
-
-    parser.add_argument("--ortho-reg", "-orth", dest="ortho_reg", type=float, default=0.1,
-                        help="Ortho-regularization impact coefficient")
-
-    parser.add_argument("--epochs", "-e", dest="epochs", type=int, default=1,
-                        help="Epochs count")
-
-    parser.add_argument("--optimizer", "-opt", dest="optimizer", type=str, default="adam", help="Optimizer",
-                        choices=["adam", "sgd", "asgd", "adagrad"])
-
-    parser.add_argument("--negative-samples", "-ns", dest="neg_samples", type=int, default=5,
-                        help="Negative samples per positive one")
-
-    parser.add_argument("--dataset-path", "-d", dest="dataset_path", type=str, default="reviews_Electronics_5.json.txt",
-                        help="Path to a training texts file. One sentence per line, tokens separated wiht spaces.")
-
-    parser.add_argument("--maxlen", "-l", type=int, default=201,
-                        help="Max length of the considered sentence; the rest is clipped if longer")
-
-    args = parser.parse_args()
-
-    w2v_model = get_w2v(args.wv_path)
-    wv_dim = w2v_model.vector_size
-    y = torch.zeros(args.batch_size, 1)
-
-    model = ABAE(wv_dim=wv_dim,
-                 asp_count=args.aspects_number,
-                 init_aspects_matrix=get_centroids(w2v_model, aspects_count=args.aspects_number))
-    print(model)
+@hydra.main("configs", "config")
+def main(cfg):
+
+    w2v_model = get_w2v(cfg.embeddings.path)
+    print(cfg)
+    print(w2v_model)
+    # wv_dim = w2v_model.vector_size
+    # y = torch.zeros(args.batch_size, 1)
+    #
+    # model = ABAE(wv_dim=wv_dim,
+    #              asp_count=args.aspects_number,
+    #              init_aspects_matrix=get_centroids(w2v_model, aspects_count=args.aspects_number))
+    # print(model)
+    #
+    # criterion = torch.nn.MSELoss(reduction="sum")
+    #
+    # optimizer = None
+    # scheduler = None
+    #
+    # if args.optimizer == "adam":
+    #     optimizer = torch.optim.Adam(model.parameters())
+    # elif args.optimizer == "sgd":
+    #     optimizer = torch.optim.SGD(model.parameters(), lr=0.05)
+    # elif args.optimizer == "adagrad":
+    #     optimizer = torch.optim.Adagrad(model.parameters())
+    # elif args.optimizer == "asgd":
+    #     optimizer = torch.optim.ASGD(model.parameters(), lr=0.05)
+    # else:
+    #     raise Exception("Optimizer '%s' is not supported" % args.optimizer)
+    #
+    # for t in range(args.epochs):
+    #
+    #     print("Epoch %d/%d" % (t + 1, args.epochs))
+    #
+    #     data_iterator = read_data_tensors(args.dataset_path, args.wv_path,
+    #                                       batch_size=args.batch_size, maxlen=args.maxlen)
+    #
+    #     for item_number, (x, texts) in enumerate(data_iterator):
+    #         if x.shape[0] < args.batch_size:  # pad with 0 if smaller than batch size
+    #             x = np.pad(x, ((0, args.batch_size - x.shape[0]), (0, 0), (0, 0)))
+    #
+    #         x = torch.from_numpy(x)
+    #
+    #         # extracting bad samples from the very same batch; not sure if this is OK, so todo
+    #         negative_samples = torch.stack(
+    #             tuple([x[torch.randperm(x.shape[0])[:args.neg_samples]] for _ in range(args.batch_size)]))
+    #
+    #         # prediction
+    #         y_pred = model(x, negative_samples)
+    #
+    #         # error computation
+    #         loss = criterion(y_pred, y)
+    #         optimizer.zero_grad()
+    #         loss.backward()
+    #         optimizer.step()
+    #
+    #         if item_number % 1000 == 0:
+    #
+    #             print(item_number, "batches, and LR:", optimizer.param_groups[0]['lr'])
+    #
+    #             for i, aspect in enumerate(model.get_aspect_words(w2v_model)):
+    #                 print(i + 1, " ".join([a for a in aspect]))
+    #
+    #             print("Loss:", loss.item())
+    #             print()
 
-    criterion = torch.nn.MSELoss(reduction="sum")
 
-    optimizer = None
-    scheduler = None
-
-    if args.optimizer == "adam":
-        optimizer = torch.optim.Adam(model.parameters())
-    elif args.optimizer == "sgd":
-        optimizer = torch.optim.SGD(model.parameters(), lr=0.05)
-    elif args.optimizer == "adagrad":
-        optimizer = torch.optim.Adagrad(model.parameters())
-    elif args.optimizer == "asgd":
-        optimizer = torch.optim.ASGD(model.parameters(), lr=0.05)
-    else:
-        raise Exception("Optimizer '%s' is not supported" % args.optimizer)
-
-    for t in range(args.epochs):
-
-        print("Epoch %d/%d" % (t + 1, args.epochs))
-
-        data_iterator = read_data_tensors(args.dataset_path, args.wv_path,
-                                          batch_size=args.batch_size, maxlen=args.maxlen)
-
-        for item_number, (x, texts) in enumerate(data_iterator):
-            if x.shape[0] < args.batch_size:  # pad with 0 if smaller than batch size
-                x = np.pad(x, ((0, args.batch_size - x.shape[0]), (0, 0), (0, 0)))
-
-            x = torch.from_numpy(x)
-
-            # extracting bad samples from the very same batch; not sure if this is OK, so todo
-            negative_samples = torch.stack(
-                tuple([x[torch.randperm(x.shape[0])[:args.neg_samples]] for _ in range(args.batch_size)]))
-
-            # prediction
-            y_pred = model(x, negative_samples)
-
-            # error computation
-            loss = criterion(y_pred, y)
-            optimizer.zero_grad()
-            loss.backward()
-            optimizer.step()
-
-            if item_number % 1000 == 0:
-
-                print(item_number, "batches, and LR:", optimizer.param_groups[0]['lr'])
-
-                for i, aspect in enumerate(model.get_aspect_words(w2v_model)):
-                    print(i + 1, " ".join([a for a in aspect]))
-
-                print("Loss:", loss.item())
-                print()
+if __name__ == "__main__":
+    main()
diff --git a/reader.py b/reader.py
@@ -1,7 +1,7 @@
 # -*- coding: utf-8 -*-
 import gensim
 import numpy as np
-from sklearn.cluster.k_means_ import MiniBatchKMeans
+from sklearn.cluster import MiniBatchKMeans
 
 
 def read_data_batches(path, batch_size=50, minlength=5):
diff --git a/requirements.txt b/requirements.txt
@@ -4,4 +4,5 @@ torch>=1.5.0
 torchvision>=0.6.0
 tqdm>=4.45.0
 scikit-learn>=0.22.2.post1
-numpy>=1.18.4
+numpy>=1.18.4
+hydra>=2.5

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+name: word2vec-custom`
	`2`	`+path: "word_vectors/reviews_Cell_Phones_and_Accessories_5.json.txt.w2v"`