chenxijun1029
diff --git a/‎data/__init__.py b/‎data/__init__.py
diff --git a/‎data/dataset.py
Lines changed: 52 additions & 0 deletions b/‎data/dataset.py
Lines changed: 52 additions & 0 deletions
diff --git a/‎main.py
Lines changed: 24 additions & 0 deletions b/‎main.py
Lines changed: 24 additions & 0 deletions
diff --git a/‎model/DeepFM.py
Lines changed: 182 additions & 0 deletions b/‎model/DeepFM.py
Lines changed: 182 additions & 0 deletions
diff --git a/‎model/__init__.py b/‎model/__init__.py
diff --git a/‎utils/__init__.py b/‎utils/__init__.py
@@ -0,0 +1,52 @@
+from torch.utils.data import Dataset
+import pandas as pd
+import numpy as np
+import os
+
+class CriteoDataset(Dataset):
+    """
+    Custom dataset class for Criteo dataset in order to use efficient 
+    dataloader tool provided by PyTorch.
+    """ 
+    def __init__(self, root, train=True):
+        """
+        Initialize file path and train/test mode.
+
+        Inputs:
+        - root: Path where the processed data file stored.
+        - train: Train or test. Required.
+        """
+        self.root = root
+        self.train = train
+
+        if not self._check_exists:
+            raise RuntimeError('Dataset not found.')
+
+        if self.train:
+            data = pd.read_csv(os.path.join(root, 'train.txt'))
+            self.train_data = data.iloc[:, :-1]
+            self.target = data.iloc[:, -1]
+        else:
+            data = pd.read_csv(os.path.join(root, 'test.txt'))
+            self.test_data = data.iloc[:, :-1]
+    
+    def __getitem__(self, idx):
+        if self.train:
+            dataI, targetI = self.train_data.iloc[idx, :], self.target.iloc[idx, :]
+            Xi = dataI.astype(np.int32)
+            Xv = np.ones_like(dataI)
+            return Xi, Xv, targetI
+        else:
+            dataI = self.test_data.iloc[idx, :]
+            Xi = dataI.astype(np.int32)
+            Xv = np.ones_like(dataI)
+            return Xi, Xv
+
+    def __len__(self):
+        if self.train:
+            return len(self.train_data)
+        else:
+            return len(self.test_data)
+
+    def _check_exists(self):
+        return os.path.exists(self.root)
@@ -0,0 +1,24 @@
+import numpy as np
+
+import torch.optim as optim
+from torch.utils.data import DataLoader
+from torch.utils.data import sampler
+
+from model.DeepFM import DeepFM
+from data.dataset import CriteoDataset
+
+# 900000 items for training, 10000 items for valid, of all 1000000 items
+Num_train = 900000
+
+# load data
+train_data = CriteoDataset('./data', train=True)
+loader_train = DataLoader(train_data, batch_size=100, 
+                        sampler=sampler.SubsetRandomSampler(range(Num_train)))
+val_data = CriteoDataset('./data', train=True)
+loader_val = DataLoader(val_data, batch_size=100, 
+                        sampler=sampler.SubsetRandomSampler(range(Num_train, 1000000)))
+
+feature_sizes = np.loadtxt('./data/feature_sizes.txt', delimiter=',')
+model = DeepFM(feature_sizes)
+optimizer = optim.Adam(model.parameters(), lr=1e-4, weight_decay=0.0)
+model.train(loader_train, loader_val, optimizer, epochs=5, verbose=True)
@@ -0,0 +1,182 @@
+# -*- coding: utf-8 -*-
+
+"""
+A pytorch implementation of DeepFM for rates prediction problem.
+"""
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.optim as optim
+
+from time import time
+
+
+class DeepFM(nn.Module):
+    """
+    A DeepFM network with RMSE loss for rates prediction problem.
+
+    There are two parts in the architecture of this network: fm part for low
+    order interactions of features and deep part for higher order. In this 
+    network, we use bachnorm and dropout technology for all hidden layers,
+    and "Adam" method for optimazation.
+
+    You may find more details in this paper:
+    DeepFM: A Factorization-Machine based Neural Network for CTR Prediction,
+    Huifeng Guo, Ruiming Tang, Yunming Yey, Zhenguo Li, Xiuqiang He.
+    """
+
+    def __init__(self, feature_sizes, embedding_size=4,
+                 hidden_dims=[32, 32], num_classes=10, dropout=[0.5, 0.5], 
+                 use_cuda=True, verbose=False):
+        """
+        Initialize a new network
+
+        Inputs:
+        - feature_size: A list of integer giving the size of features for each field.
+        - embedding_size: An integer giving size of feature embedding.
+        - hidden_dims: A list of integer giving the size of each hidden layer.
+        - num_classes: An integer giving the number of classes to predict. For example,
+                    someone may rate 1,2,3,4 or 5 stars to a film.
+        - batch_size: An integer giving size of instances used in each interation.
+        - use_cuda: Bool, Using cuda or not
+        - verbose: Bool
+        """
+        super().__init__()
+        self.field_size = len(feature_sizes)
+        self.feature_sizes = feature_sizes
+        self.embedding_size = embedding_size
+        self.hidden_dims = hidden_dims
+        self.num_classes = num_classes
+        self.dtype = torch.int32
+        self.bias = torch.nn.Parameter(torch.randn(1))
+        """
+            check if use cuda
+        """
+        if use_cuda and torch.cuda.is_available():
+            self.device = torch.device('cuda')
+        else:
+            self.device = torch.device('cpu')
+        """
+            init fm part
+        """
+        self.fm_first_order_embeddings = nn.ModuleList(
+            [nn.Embedding(feature_size, 1) for feature_size in self.feature_sizes])
+        self.fm_second_order_embeddings = nn.ModuleList(
+            [nn.Embedding(feature_size, self.embedding_size) for feature_size in self.feature_sizes])
+        """
+            init deep part
+        """
+        all_dims = [self.field_size * self.embedding_size] + \
+            self.hidden_dims + [self.num_classes]
+        for i in range(1, len(hidden_dims) + 1):
+            setattr(self, 'linear_'+str(i),
+                    nn.Linear(all_dims[i-1], all_dims[i]))
+            # nn.init.kaiming_normal_(self.fc1.weight)
+            setattr(self, 'batchNorm_' + str(i),
+                    nn.BatchNorm1d(all_dims[i]))
+            setattr(self, 'dropout_'+str(i),
+                    nn.Dropout(dropout[i-1]))
+
+    def forward(self, Xi, Xv):
+        """
+        Forward process of network. 
+
+        Inputs:
+        - Xi: A tensor of input's index, shape of (N, D, 1)
+        - Xv: A tensor of input's value, shape of (N, D, 1)
+        """
+        """
+            fm part
+        """
+        fm_first_order_emb_arr = [(torch.sum(emb(Xi[:, i, :]), 1).t() * \
+                                   Xv[:, i]).t() for i, emb in enumerate(self.fm_first_order_embeddings)]
+        fm_first_order = torch.cat(fm_first_order_emb_arr, 1)
+        # use 2xy = (x+y)^2 - x^2 - y^2 reduce calculation
+        fm_second_order_emb_arr = [(torch.sum(emb(Xi[:, i, :]), 1).t() * \
+                                    Xv[:, i]).t() for i, emb in enumerate(self.fm_second_order_embeddings)]
+        fm_sum_second_order_emb = sum(fm_second_order_emb_arr)
+        fm_sum_second_order_emb_square = fm_sum_second_order_emb * \
+            fm_sum_second_order_emb  # (x+y)^2
+        fm_second_order_emb_square = [
+            item*item for item in fm_second_order_emb_arr]
+        fm_second_order_emb_square_sum = sum(
+            fm_second_order_emb_square)  # x^2+y^2
+        fm_second_order = (fm_sum_second_order_emb_square -
+                           fm_second_order_emb_square_sum) * 0.5
+        """
+            deep part
+        """
+        deep_emb = torch.cat(fm_second_order_emb_arr, 1)
+        deep_out = deep_emb
+        for i in range(1, self.hidden_dims + 1):
+            deep_out = getattr(self, 'linear_' + str(i))(deep_out)
+            deep_out = getattr(self, 'batchNorm_' + str(i))(deep_out)
+            deep_out = getattr(self, 'dropout_' + str(i))(deep_out)
+        """
+            sum
+        """
+        total_sum = torch.sum(fm_first_order, 1) + \
+                    torch.sum(fm_second_order, 1) + torch.sum(deep_out, 1) + self.bias
+        return total_sum
+
+    def train(self, loader_train, loader_val, optimizer, epochs=1, verbose=False, print_every=100):
+        """
+        Training a model.
+
+        Inputs:
+        - loader_train: I
+        - loader_val: .
+        - optimizer: Abstraction of optimizer used in training process, e.g., "torch.optim.Adam()""torch.optim.SGD()".
+        - epochs: Integer, number of epochs.
+        - verbose: Bool, if print.
+        - print_every: Integer, print after every number of iterations. 
+        """
+        """
+            load input data
+        """
+        model = self.train().to(device=self.device)
+        criterion = F.binary_cross_entropy_with_logits
+
+        for _ in range(epochs):
+            for t, (xi, xv, y) in enumerate(loader_train):
+                model.train()
+                xi = xi.to(device=self.device, dtype=self.dtype)
+                xv = xv.to(device=self.device, dtype=self.dtype)
+                y = y.to(device=self.device, dtype=torch.long)
+                
+                total = model(xi, xv)
+                loss = criterion(total, y)
+                optimizer.zero_grad()
+                loss.backward()
+                optimizer.step()
+
+                if verbose and t % print_every == 0:
+                    print('Iteration %d, loss = %.4f' % (t, loss.item()))
+                    self.check_accuracy(loader_val, model)
+                    print()
+    
+    def check_accuracy(self, loader, model):
+        if loader.dataset.train:
+            print('Checking accuracy on validation set')
+        else:
+            print('Checking accuracy on test set')   
+        num_correct = 0
+        num_samples = 0
+        model.eval()  # set model to evaluation mode
+        with torch.no_grad():
+            for xi, xv, y in loader:
+                xi = xi.to(device=self.device, dtype=self.dtype)  # move to device, e.g. GPU
+                xv = xv.to(device=self.device, dtype=self.dtype)
+                y = y.to(device=self.device, dtype=torch.long)
+                total = model(xi, xv)
+                preds = (F.sigmoid(total) > 0.5)
+                num_correct += (preds == y).sum()
+                num_samples += preds.size(0)
+            acc = float(num_correct) / num_samples
+            print('Got %d / %d correct (%.2f%%)' % (num_correct, num_samples, 100 * acc))
+
+
+
+
+