create_cd fix: dict keys in feature_names are column indices. Add tests.. Fixes #2211.

andrey-khropov · andrey-khropov · commit 1e42e2f2bb87 · 2022-10-31T22:41:22.000+03:00
diff --git a/classification/classification_tutorial.ipynb b/classification/classification_tutorial.ipynb
@@ -371,7 +371,7 @@
     "for column, name in enumerate(train_df):\n",
     "    if column == 0:\n",
     "        continue\n",
-    "    feature_names[column - 1] = name\n",
+    "    feature_names[column] = name\n",
     "    \n",
     "create_cd(\n",
     "    label=0, \n",
diff --git a/events/2019_10_30_odsc_west.ipynb b/events/2019_10_30_odsc_west.ipynb
@@ -199,7 +199,7 @@
    "outputs": [],
    "source": [
     "from catboost.utils import create_cd\n",
-    "feature_names = dict(list(enumerate(train_df.keys()[1:])))\n",
+    "feature_names = dict(list(enumerate(train_df.keys()))[1:])\n",
     "    \n",
     "create_cd(\n",
     "    label=0,\n",
diff --git a/events/2019_odsc_east/odsc_east_2019.ipynb b/events/2019_odsc_east/odsc_east_2019.ipynb
@@ -434,7 +434,7 @@
    "outputs": [],
    "source": [
     "from catboost.utils import create_cd\n",
-    "feature_names = dict(list(enumerate(train_df.keys()[1:])))\n",
+    "feature_names = dict(list(enumerate(train_df.keys()))[1:])\n",
     "    \n",
     "create_cd(\n",
     "    label=0,\n",
diff --git a/events/2020_06_04_catboost_tutorial/catboost_features.ipynb b/events/2020_06_04_catboost_tutorial/catboost_features.ipynb
@@ -148,7 +148,7 @@
    "outputs": [],
    "source": [
     "from catboost.utils import create_cd\n",
-    "feature_names = dict(map(lambda i: (i, 'Feature ' + str(i)), range(train_df.shape[1] - 2)))\n",
+    "feature_names = dict(map(lambda i: (i + 2, 'Feature ' + str(i)), range(train_df.shape[1])))\n",
     "    \n",
     "create_cd(\n",
     "    label=0,\n",
diff --git a/events/2020_odsc_west/text_features.ipynb b/events/2020_odsc_west/text_features.ipynb
@@ -187,7 +187,7 @@
    "outputs": [],
    "source": [
     "from catboost.utils import create_cd\n",
-    "feature_names = dict(map(lambda i: (i, 'Feature ' + str(i)), range(train_df.shape[1] - 2)))\n",
+    "feature_names = dict(map(lambda i: (i + 2, 'Feature ' + str(i)), range(train_df.shape[1])))\n",
     "    \n",
     "create_cd(\n",
     "    label=0,\n",
diff --git a/events/datastart_moscow_apr_27_2019.ipynb b/events/datastart_moscow_apr_27_2019.ipynb
@@ -338,7 +338,7 @@
    "outputs": [],
    "source": [
     "from catboost.utils import create_cd\n",
-    "feature_names = dict(list(enumerate(train_df.keys()[1:])))\n",
+    "feature_names = dict(list(enumerate(train_df.keys()))[1:])\n",
     "    \n",
     "create_cd(\n",
     "    label=0,\n",
diff --git a/events/intel_hands_on_moscow_oct_11_2019.ipynb b/events/intel_hands_on_moscow_oct_11_2019.ipynb
@@ -154,7 +154,7 @@
    "outputs": [],
    "source": [
     "from catboost.utils import create_cd\n",
-    "feature_names = dict(list(enumerate(train_df.keys()[1:])))\n",
+    "feature_names = dict(list(enumerate(train_df.keys()))[1:])\n",
     "    \n",
     "create_cd(\n",
     "    label=0,\n",
diff --git a/events/pydata_la_oct_21_2018.ipynb b/events/pydata_la_oct_21_2018.ipynb
@@ -450,7 +450,7 @@
     "for column, name in enumerate(train_df):\n",
     "    if column == 0:\n",
     "        continue\n",
-    "    feature_names[column - 1] = name\n",
+    "    feature_names[column] = name\n",
     "    \n",
     "create_cd(\n",
     "    label=0, \n",
diff --git a/events/pydata_moscow_oct_13_2018.ipynb b/events/pydata_moscow_oct_13_2018.ipynb
@@ -371,7 +371,7 @@
     "for column, name in enumerate(train_df):\n",
     "    if column == 0:\n",
     "        continue\n",
-    "    feature_names[column - 1] = name\n",
+    "    feature_names[column] = name\n",
     "    \n",
     "create_cd(\n",
     "    label=0, \n",
diff --git a/events/pydata_nyc_oct_19_2018.ipynb b/events/pydata_nyc_oct_19_2018.ipynb
@@ -450,7 +450,7 @@
     "for column, name in enumerate(train_df):\n",
     "    if column == 0:\n",
     "        continue\n",
-    "    feature_names[column - 1] = name\n",
+    "    feature_names[column] = name\n",
     "    \n",
     "create_cd(\n",
     "    label=0, \n",
diff --git a/feature_selection/eval_tutorial.ipynb b/feature_selection/eval_tutorial.ipynb
@@ -152,7 +152,7 @@
     "for column, name in enumerate(train_df):\n",
     "    if column == 0:\n",
     "        continue\n",
-    "    feature_names[column - 1] = name\n",
+    "    feature_names[column] = name\n",
     "    \n",
     "create_cd(\n",
     "    label=0, \n",
diff --git a/python_tutorial_with_tasks.ipynb b/python_tutorial_with_tasks.ipynb
@@ -282,7 +282,7 @@
    "outputs": [],
    "source": [
     "from catboost.utils import create_cd\n",
-    "feature_names = dict(list(enumerate(train_df.keys()[1:])))\n",
+    "feature_names = dict(list(enumerate(train_df.keys()))[1:])\n",
     "    \n",
     "create_cd(\n",
     "    label=0,\n",
diff --git a/ru/kaggle_amazon_tutorial_ru.ipynb b/ru/kaggle_amazon_tutorial_ru.ipynb
@@ -238,7 +238,7 @@
     "for column, name in enumerate(train_df):\n",
     "    if column == 0:\n",
     "        continue\n",
-    "    feature_names[column - 1] = name\n",
+    "    feature_names[column] = name\n",
     "    \n",
     "create_cd(\n",
     "    label=0, \n",