Set small learning rate to avoid early overfitting (fix #2100)

Evgueni-Petrov-aka-espetrov · Evgueni-Petrov-aka-espetrov · commit f8b3d3c65bb9 · 2022-08-02T14:45:00.000+03:00
diff --git a/model_analysis/object_importance_tutorial.ipynb b/model_analysis/object_importance_tutorial.ipynb
@@ -65,7 +65,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "#### Let's train CatBoost on clear data and take a look at the quality:"
+    "#### Let's train CatBoost on clear data and take a look at the quality. We set a small learning rate to avoid overfitting when we start removing noisy objects."
    ]
   },
   {
@@ -77,12 +77,12 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "0.2157984851490331\n"
+      "0.22947301323494568\n"
      ]
     }
    ],
    "source": [
-    "cb = CatBoost({'iterations': 100, 'verbose': False, 'random_seed': 42})\n",
+    "cb = CatBoost({'iterations': 100, 'verbose': False, 'random_seed': 42, 'learning_rate': 0.001})\n",
     "cb.fit(train_pool);\n",
     "print(cb.eval_metrics(validation_pool, ['RMSE'])['RMSE'][-1])"
    ]
@@ -124,7 +124,7 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "0.25915746122622113\n"
+      "0.24770929523786442\n"
      ]
     }
    ],
@@ -168,22 +168,22 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 8,
+   "execution_count": 7,
    "metadata": {},
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "RMSE on validation datset when 0 harmful objects from train are dropped: 0.25915746122622113\n",
-      "RMSE on validation datset when 250 harmful objects from train are dropped: 0.25601149050939825\n",
-      "RMSE on validation datset when 500 harmful objects from train are dropped: 0.25158044983631966\n",
-      "RMSE on validation datset when 750 harmful objects from train are dropped: 0.24570533776587475\n",
-      "RMSE on validation datset when 1000 harmful objects from train are dropped: 0.24171376432589384\n",
-      "RMSE on validation datset when 1250 harmful objects from train are dropped: 0.23716221792112202\n",
-      "RMSE on validation datset when 1500 harmful objects from train are dropped: 0.23352830055657348\n",
-      "RMSE on validation datset when 1750 harmful objects from train are dropped: 0.23035731488436903\n",
-      "RMSE on validation datset when 2000 harmful objects from train are dropped: 0.2275943109556251\n"
+      "RMSE on validation datset when 0 harmful objects from train are dropped: 0.24770929523786442\n",
+      "RMSE on validation datset when 250 harmful objects from train are dropped: 0.2447175042288005\n",
+      "RMSE on validation datset when 500 harmful objects from train are dropped: 0.24225895802476696\n",
+      "RMSE on validation datset when 750 harmful objects from train are dropped: 0.23953255257505965\n",
+      "RMSE on validation datset when 1000 harmful objects from train are dropped: 0.23730021406692955\n",
+      "RMSE on validation datset when 1250 harmful objects from train are dropped: 0.23571326583727906\n",
+      "RMSE on validation datset when 1500 harmful objects from train are dropped: 0.23414087500696676\n",
+      "RMSE on validation datset when 1750 harmful objects from train are dropped: 0.23269021852578387\n",
+      "RMSE on validation datset when 2000 harmful objects from train are dropped: 0.231598588484771\n"
      ]
     }
    ],
@@ -210,9 +210,9 @@
     "    \n",
     "||RMSE on the validation dataset|\n",
     "|-|-|\n",
-    "|Clear train dataset: | 0.215798485149|\n",
-    "|Noisy train dataset: | 0.259157461226|\n",
-    "|Purified train dataset: | 0.227594310956|"
+    "|Clear train dataset: | 0.22947301323494568|\n",
+    "|Noisy train dataset: | 0.24770929523786442|\n",
+    "|Purified train dataset: | 0.231598588484771|"
    ]
   },
   {
@@ -244,4 +244,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 1
-}
+}