Initial Commit

LearningJournal · LearningJournal · commit 13b0ea034889 · 2020-06-15T16:23:19.000+05:30
diff --git a/.gitignore b/.gitignore
@@ -1,7 +1,7 @@
 # Leave entire .ipython checkpoint folder
 */.ipynb*
 *Untitled*
-
+*/dataSink/*
 */.idea*
 */app-logs*
 *__pycache__*
diff --git a/05-DataSinkDemo/DataSinkDemo.py b/05-DataSinkDemo/DataSinkDemo.py
@@ -0,0 +1,38 @@
+from pyspark.sql import *
+from pyspark.sql.functions import spark_partition_id
+
+from lib.logger import Log4j
+
+if __name__ == "__main__":
+    spark = SparkSession \
+        .builder \
+        .master("local[3]") \
+        .appName("SparkSchemaDemo") \
+        .getOrCreate()
+
+    logger = Log4j(spark)
+
+    flightTimeParquetDF = spark.read \
+        .format("parquet") \
+        .load("dataSource/flight*.parquet")
+
+    logger.info("Num Partitions before: " + str(flightTimeParquetDF.rdd.getNumPartitions()))
+    flightTimeParquetDF.groupBy(spark_partition_id()).count().show()
+
+    partitionedDF = flightTimeParquetDF.repartition(5)
+    logger.info("Num Partitions after: " + str(partitionedDF.rdd.getNumPartitions()))
+    partitionedDF.groupBy(spark_partition_id()).count().show()
+
+    partitionedDF.write \
+        .format("avro") \
+        .mode("overwrite") \
+        .option("path", "dataSink/avro/") \
+        .save()
+
+    flightTimeParquetDF.write \
+        .format("json") \
+        .mode("overwrite") \
+        .option("path", "dataSink/json/") \
+        .partitionBy("OP_CARRIER", "ORIGIN") \
+        .option("maxRecordsPerFile", 10000) \
+        .save()
diff --git a/05-DataSinkDemo/dataSource/flight-time.parquet b/05-DataSinkDemo/dataSource/flight-time.parquet
diff --git a/05-DataSinkDemo/lib/__init__.py b/05-DataSinkDemo/lib/__init__.py
diff --git a/05-DataSinkDemo/lib/logger.py b/05-DataSinkDemo/lib/logger.py
@@ -0,0 +1,21 @@
+class Log4j:
+    def __init__(self, spark):
+        log4j = spark._jvm.org.apache.log4j
+
+        root_class = "guru.learningjournal.spark.examples"
+        conf = spark.sparkContext.getConf()
+        app_name = conf.get("spark.app.name")
+
+        self.logger = log4j.LogManager.getLogger(root_class + "." + app_name)
+
+    def warn(self, message):
+        self.logger.warn(message)
+
+    def info(self, message):
+        self.logger.info(message)
+
+    def error(self, message):
+        self.logger.error(message)
+
+    def debug(self, message):
+        self.logger.debug(message)
diff --git a/05-DataSinkDemo/log4j.properties b/05-DataSinkDemo/log4j.properties
@@ -0,0 +1,38 @@
+# Set everything to be logged to the console
+log4j.rootCategory=WARN, console
+
+# define console appender
+log4j.appender.console=org.apache.log4j.ConsoleAppender
+log4j.appender.console.target=System.out
+log4j.appender.console.layout=org.apache.log4j.PatternLayout
+log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
+
+#application log
+log4j.logger.guru.learningjournal.spark.examples=INFO, console, file
+log4j.additivity.guru.learningjournal.spark.examples=false
+
+#define rolling file appender
+log4j.appender.file=org.apache.log4j.RollingFileAppender
+log4j.appender.file.File=${spark.yarn.app.container.log.dir}/${logfile.name}.log
+#define following in Java System
+# -Dlog4j.configuration=file:log4j.properties
+# -Dlogfile.name=hello-spark
+# -Dspark.yarn.app.container.log.dir=app-logs
+log4j.appender.file.ImmediateFlush=true
+log4j.appender.file.Append=false
+log4j.appender.file.MaxFileSize=500MB
+log4j.appender.file.MaxBackupIndex=2
+log4j.appender.file.layout=org.apache.log4j.PatternLayout
+log4j.appender.file.layout.conversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
+
+# Recommendations from Spark template
+log4j.logger.org.apache.spark.repl.Main=WARN
+log4j.logger.org.spark_project.jetty=WARN
+log4j.logger.org.spark_project.jetty.util.component.AbstractLifeCycle=ERROR
+log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO
+log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO
+log4j.logger.org.apache.parquet=ERROR
+log4j.logger.parquet=ERROR
+log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL
+log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR
+