OBJECTIVE:Analysis of movie lens dataset to identify the preferences of movies based on the ratings...

Question

OBJECTIVE:Analysis of movie lens dataset to identify the preferences of movies based on the ratings given by different users.Data:The datasets depict ratings with user ID (removed the demographics) from site Movie Lens, a recommendation service site for movies. This dataset contains 20000263 user choice ratings on over 27278 films. This data set was created between the time period of 1995 and 2015 with the size of almost Giga byte from 138493 viewers. And it made publicly available on 17-oct-2016.Methods:-Recommend genres based on the ratings given by users.-collaborative filtering.- Analysis with machine learning libraries to train and predict the preferences for the new user.-Apache spark on AWSResult: Movie recommendation with the preferences based on the user ratings.On an average user liked gener based on the ratings given by the user(most liked gener and how does it change over time)

Ximi · Accepted Answer

{
  "nbformat": 4,
  "nbformat_minor": 0,
  "metadata": {
    "colab": {
      "name": "building-recommender.ipynb",
      "provenance": []
    },
    "kernelspec": {
      "name": "python3",
      "display_name": "Python 3"
    }
  },
  "cells": [
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "BjY0XQCGk_BF",
        "colab_type": "text"
      },
      "source": [
        "##Getting and processing the data"
      ]
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "9ZPJJoLdmcSk",
        "colab_type": "code",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 1000
        },
        "outputId": "2b72f28b-8c16-4b01-d50f-abbfc415a04c"
      },
      "source": [
        "import pandas
",
        "!apt-get install openjdk-8-jdk-headless -qq > /dev/null
",
        "!wget -q http://www-eu.apache.org/dist/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
",
        "!tar xvf spark-2.4.4-bin-hadoop2.7.tgz
",
        "!pip install -q findspark"
      ],
      "execution_count": 1,
      "outputs": [
        {
          "output_type": "stream",
          "text": [
            "spark-2.4.4-bin-hadoop2.7/
",
            "spark-2.4.4-bin-hadoop2.7/R/
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/sparkr.zip
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/INDEX
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/html/
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/html/R.css
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/html/00Index.html
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/help/
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/help/aliases.rds
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/help/AnIndex
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/help/SparkR.rdx
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/help/SparkR.rdb
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/help/paths.rds
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/worker/
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/worker/worker.R
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/worker/daemon.R
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/tests/
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/tests/testthat/
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/tests/testthat/test_basic.R
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/profile/
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/profile/shell.R
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/profile/general.R
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/R/
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/R/SparkR.rdx
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/R/SparkR.rdb
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/R/SparkR
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/Meta/
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/Meta/nsInfo.rds
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/Meta/links.rds
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/Meta/hsearch.rds
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/Meta/Rd.rds
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/Meta/features.rds
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/Meta/package.rds
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/DESCRIPTION
",
            "spark-2.4.4-bin-hadoop2.7/R/lib/SparkR/NAMESPACE
",
            "spark-2.4.4-bin-hadoop2.7/sbin/
",
            "spark-2.4.4-bin-hadoop2.7/sbin/stop-shuffle-service.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/start-thriftserver.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/start-slave.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/start-shuffle-service.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/start-mesos-shuffle-service.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/start-master.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/start-history-server.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/spark-config.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/stop-thriftserver.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/stop-slaves.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/stop-slave.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/stop-mesos-shuffle-service.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/stop-mesos-dispatcher.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/stop-master.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/stop-history-server.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/stop-all.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/start-slaves.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/start-mesos-dispatcher.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/start-all.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/spark-daemons.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/spark-daemon.sh
",
            "spark-2.4.4-bin-hadoop2.7/sbin/slaves.sh
",
            "spark-2.4.4-bin-hadoop2.7/python/
",
            "spark-2.4.4-bin-hadoop2.7/python/dist/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark.egg-info/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark.egg-info/SOURCES.txt
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark.egg-info/dependency_links.txt
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark.egg-info/top_level.txt
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark.egg-info/PKG-INFO
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark.egg-info/requires.txt
",
            "spark-2.4.4-bin-hadoop2.7/python/README.md
",
            "spark-2.4.4-bin-hadoop2.7/python/MANIFEST.in
",
            "spark-2.4.4-bin-hadoop2.7/python/setup.py
",
            "spark-2.4.4-bin-hadoop2.7/python/run-tests.py
",
            "spark-2.4.4-bin-hadoop2.7/python/run-tests-with-coverage
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/userlibrary.py
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/userlib-0.1.zip
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/text-test.txt
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/streaming/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/streaming/text-test.txt
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/people_array_utf16le.json
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/people_array.json
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/people1.json
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/people.json
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=9/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=9/day=1/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=9/day=1/part-r-00007.gz.parquet
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=9/day=1/.part-r-00007.gz.parquet.crc
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=10/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=10/day=26/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=10/day=26/part-r-00005.gz.parquet
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=10/day=26/.part-r-00005.gz.parquet.crc
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=10/day=25/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=10/day=25/part-r-00004.gz.parquet
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=10/day=25/part-r-00002.gz.parquet
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=10/day=25/.part-r-00004.gz.parquet.crc
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2015/month=10/day=25/.part-r-00002.gz.parquet.crc
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2014/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2014/month=9/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2014/month=9/day=1/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2014/month=9/day=1/part-r-00008.gz.parquet
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/year=2014/month=9/day=1/.part-r-00008.gz.parquet.crc
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/_metadata
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/_common_metadata
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/parquet_partitioned/_SUCCESS
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/orc_partitioned/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/orc_partitioned/b=1/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/orc_partitioned/b=1/c=1/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/orc_partitioned/b=1/c=1/part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/orc_partitioned/b=1/c=1/.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/orc_partitioned/b=0/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/orc_partitioned/b=0/c=0/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/orc_partitioned/b=0/c=0/part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/orc_partitioned/b=0/c=0/.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/orc_partitioned/_SUCCESS
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/ages_newlines.csv
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/sql/ages.csv
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/hello/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/hello/sub_hello/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/hello/sub_hello/sub_hello.txt
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/hello/hello.txt
",
            "spark-2.4.4-bin-hadoop2.7/python/test_support/SimpleHTTPServer.py
",
            "spark-2.4.4-bin-hadoop2.7/python/test_coverage/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_coverage/sitecustomize.py
",
            "spark-2.4.4-bin-hadoop2.7/python/test_coverage/coverage_daemon.py
",
            "spark-2.4.4-bin-hadoop2.7/python/test_coverage/conf/
",
            "spark-2.4.4-bin-hadoop2.7/python/test_coverage/conf/spark-defaults.conf
",
            "spark-2.4.4-bin-hadoop2.7/python/setup.cfg
",
            "spark-2.4.4-bin-hadoop2.7/python/run-tests
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/python/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/python/pyspark/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/python/pyspark/shell.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/shuffle.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/serializers.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/rdd.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/profiler.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/java_gateway.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/files.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/daemon.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/context.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/conf.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/cloudpickle.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/broadcast.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/accumulators.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/__init__.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/worker.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/version.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/util.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/tests.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/test_serializers.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/test_broadcast.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/taskcontext.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/storagelevel.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/traceback_utils.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/streaming/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/streaming/tests.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/streaming/kinesis.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/streaming/kafka.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/streaming/flume.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/streaming/dstream.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/streaming/context.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/streaming/util.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/streaming/listener.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/streaming/__init__.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/status.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/statcounter.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/tests.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/streaming.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/session.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/readwriter.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/functions.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/dataframe.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/context.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/window.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/utils.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/udf.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/types.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/group.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/conf.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/column.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/catalog.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/sql/__init__.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/shell.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/resultiterable.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/rddsampler.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/util.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/tree.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/tests.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/regression.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/recommendation.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/random.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/fpm.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/feature.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/evaluation.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/clustering.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/classification.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/stat/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/stat/_statistics.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/stat/test.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/stat/distribution.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/stat/__init__.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/stat/KernelDensity.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/linalg/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/linalg/distributed.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/linalg/__init__.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/common.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/mllib/__init__.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/wrapper.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/util.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/tuning.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/tests.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/regression.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/recommendation.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/image.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/fpm.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/feature.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/evaluation.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/clustering.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/classification.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/stat.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/pipeline.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/param/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/param/shared.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/param/_shared_params_code_gen.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/param/__init__.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/linalg/
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/linalg/__init__.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/common.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/base.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/ml/__init__.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/join.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/heapq3.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/find_spark_home.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pyspark/_globals.py
",
            "spark-2.4.4-bin-hadoop2.7/python/pylintrc
",
            "spark-2.4.4-bin-hadoop2.7/python/lib/
",
            "spark-2.4.4-bin-hadoop2.7/python/lib/pyspark.zip
",
            "spark-2.4.4-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip
",
            "spark-2.4.4-bin-hadoop2.7/python/lib/PY4J_LICENSE.txt
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/pyspark.streaming.rst
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/pyspark.sql.rst
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/epytext.py
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/conf.py
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/Makefile
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/pyspark.rst
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/pyspark.mllib.rst
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/pyspark.ml.rst
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/make2.bat
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/make.bat
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/index.rst
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/_templates/
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/_templates/layout.html
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/_static/
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/_static/pyspark.js
",
            "spark-2.4.4-bin-hadoop2.7/python/docs/_static/pyspark.css
",
            "spark-2.4.4-bin-hadoop2.7/python/.gitignore
",
            "spark-2.4.4-bin-hadoop2.7/python/.coveragerc
",
            "spark-2.4.4-bin-hadoop2.7/bin/
",
            "spark-2.4.4-bin-hadoop2.7/bin/spark-class
",
            "spark-2.4.4-bin-hadoop2.7/bin/pyspark2.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/pyspark
",
            "spark-2.4.4-bin-hadoop2.7/bin/load-spark-env.sh
",
            "spark-2.4.4-bin-hadoop2.7/bin/load-spark-env.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/docker-image-tool.sh
",
            "spark-2.4.4-bin-hadoop2.7/bin/sparkR2.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/sparkR.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/sparkR
",
            "spark-2.4.4-bin-hadoop2.7/bin/spark-submit2.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/spark-submit.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/spark-submit
",
            "spark-2.4.4-bin-hadoop2.7/bin/spark-sql2.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/spark-sql.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/spark-sql
",
            "spark-2.4.4-bin-hadoop2.7/bin/spark-shell2.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/spark-shell.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/spark-shell
",
            "spark-2.4.4-bin-hadoop2.7/bin/spark-class2.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/spark-class.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/run-example.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/run-example
",
            "spark-2.4.4-bin-hadoop2.7/bin/pyspark.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/find-spark-home.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/find-spark-home
",
            "spark-2.4.4-bin-hadoop2.7/bin/beeline.cmd
",
            "spark-2.4.4-bin-hadoop2.7/bin/beeline
",
            "spark-2.4.4-bin-hadoop2.7/README.md
",
            "spark-2.4.4-bin-hadoop2.7/conf/
",
            "spark-2.4.4-bin-hadoop2.7/conf/spark-env.sh.template
",
            "spark-2.4.4-bin-hadoop2.7/conf/spark-defaults.conf.template
",
            "spark-2.4.4-bin-hadoop2.7/conf/slaves.template
",
            "spark-2.4.4-bin-hadoop2.7/conf/metrics.properties.template
",
            "spark-2.4.4-bin-hadoop2.7/conf/log4j.properties.template
",
            "spark-2.4.4-bin-hadoop2.7/conf/fairscheduler.xml.template
",
            "spark-2.4.4-bin-hadoop2.7/conf/docker.properties.template
",
            "spark-2.4.4-bin-hadoop2.7/data/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/gmm_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/als/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/als/test.data
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/als/sample_movielens_ratings.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/streaming_kmeans_data_test.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/sample_svm_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/sample_multiclass_classification_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/sample_movielens_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/sample_linear_regression_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/sample_libsvm_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/sample_lda_libsvm_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/sample_lda_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/sample_kmeans_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/sample_isotonic_regression_libsvm_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/sample_fpgrowth.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/sample_binary_classification_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/ridge-data/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/ridge-data/lpsa.data
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/pic_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/pagerank_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/kmeans_data.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/iris_libsvm.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=multichannel/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=multichannel/date=2018-02/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=multichannel/date=2018-02/grayscale.jpg
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=multichannel/date=2018-02/chr30.4.184.jpg
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=multichannel/date=2018-01/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=multichannel/date=2018-01/BGRA_alpha_60.png
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=multichannel/date=2018-01/BGRA.png
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=kittens/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=kittens/date=2018-02/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=kittens/date=2018-02/DP802813.jpg
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=kittens/date=2018-02/DP153539.jpg
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=kittens/date=2018-02/54893.jpg
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=kittens/date=2018-01/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=kittens/date=2018-01/not-image.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/partitioned/cls=kittens/date=2018-01/29.5.a_b_EGDP022204.jpg
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/multi-channel/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/multi-channel/grayscale.jpg
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/multi-channel/chr30.4.184.jpg
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/multi-channel/BGRA_alpha_60.png
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/multi-channel/BGRA.png
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/license.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/kittens/
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/kittens/not-image.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/kittens/DP802813.jpg
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/kittens/DP153539.jpg
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/kittens/54893.jpg
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/origin/kittens/29.5.a_b_EGDP022204.jpg
",
            "spark-2.4.4-bin-hadoop2.7/data/mllib/images/license.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/graphx/
",
            "spark-2.4.4-bin-hadoop2.7/data/graphx/users.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/graphx/followers.txt
",
            "spark-2.4.4-bin-hadoop2.7/data/streaming/
",
            "spark-2.4.4-bin-hadoop2.7/data/streaming/AFINN-111.txt
",
            "spark-2.4.4-bin-hadoop2.7/NOTICE
",
            "spark-2.4.4-bin-hadoop2.7/licenses/
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-jtransforms.html
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-json-formatter.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-jquery.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-join.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-jodd.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-jline.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-javolution.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-javassist.html
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-janino.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-heapq.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-graphlib-dot.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-f2j.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-datatables.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-dagre-d3.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-d3.min.js.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-cloudpickle.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-bootstrap.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-automaton.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-arpack.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-antlr.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-CC0.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-AnchorJS.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-zstd.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-zstd-jni.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-xmlenc.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-vis.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-spire.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-sorttable.js.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-slf4j.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-scopt.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-scala.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-sbt-launch-lib.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-respond.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-reflectasm.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-pyrolite.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-py4j.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-protobuf.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-pmml-model.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-paranamer.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-netlib.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-mustache.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-modernizr.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-minlog.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-matchMedia-polyfill.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-machinist.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-leveldbjni.txt
",
            "spark-2.4.4-bin-hadoop2.7/licenses/LICENSE-kryo.txt
",
            "spark-2.4.4-bin-hadoop2.7/LICENSE
",
            "spark-2.4.4-bin-hadoop2.7/examples/
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/ElementwiseProductExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/DenseKMeans.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/DecisionTreeRegressionExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/DecisionTreeClassificationExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/CorrelationsExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/Correlations.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/ChiSqSelectorExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/BisectingKMeansExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/BinaryClassificationMetricsExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/AssociationRulesExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/AbstractParams.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/Word2VecExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/TallSkinnySVD.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/TallSkinnyPCA.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/TFIDFExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/SummaryStatisticsExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/StreamingTestExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/StreamingLogisticRegression.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/StreamingLinearRegressionExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/StreamingKMeansExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/StratifiedSamplingExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/StandardScalerExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/SparseNaiveBayes.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/SimpleFPGrowth.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/SampledRDDs.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/SVMWithSGDExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/SVDExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/RegressionMetricsExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/RecommendationExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/RandomRDDGeneration.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/RandomForestRegressionExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/RandomForestClassificationExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/PrefixSpanExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/PowerIterationClusteringExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/PMMLModelExportExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/PCAOnSourceVectorExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/PCAOnRowMatrixExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/PCAExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/NormalizerExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/NaiveBayesExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/MultivariateSummarizer.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/MulticlassMetricsExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/MultiLabelMetricsExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/LogisticRegressionWithLBFGSExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/LinearRegressionWithSGDExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/LatentDirichletAllocationExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/LDAExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/LBFGSExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/KernelDensityEstimationExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/KMeansExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/IsotonicRegressionExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/HypothesisTestingKolmogorovSmirnovTestExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/HypothesisTestingExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/GradientBoostingRegressionExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/GradientBoostingClassificationExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/GaussianMixtureExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/FPGrowthExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/RankingMetricsExample.scala
",
            "spark-2.4.4-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/mllib/MovieLensALS.scala
",
            "spark-2.4.

OBJECTIVE: Analysis of movie lens dataset to identify the preferences of movies based on the ratings given by different users. Data: The datasets depict ratings with user ID (removed the...

Answer To: OBJECTIVE: Analysis of movie lens dataset to identify the preferences of movies based on the ratings...

Answer To This Question Is Available To Download

Related Questions & Answers

Submit New Assignment