Apache Sparkとは？Hadoopとの違いなど解説！

Apache Sparkの導入を検討している企業は多いのではないでしょうか。データを分散型にて高速処理ができるApache Sparkですが、オープンソースのフレームワークとしてJavaやPythonなどのAPIを実装していることが、その特徴として挙げられます。また、Hadoopの後継でもあるApache Sparkとの互換性は、システム運用において重要な指標といえます。本記事では、Apache Sparkの基礎や特徴、Hadoopとの違いなどについて解説します。

Apache sparkとは

Apache Sparkとは、複雑な分散処理を効率よく行うことができるフレームワークで、コードを実行するだけでビッグデータの高速処理を実現できます。機械学習の現場で活用されており、他言語に対応していることも大きな特徴として挙げられます。
続いて、Apache Sparkの特徴や社会的背景・Hadoopとの違いについて詳しく説明します。

Apache sparkとは

Apache Sparkとは、分散型の特性を活用したオープンソース型のフレームワークのことです。複数のデータサーバーをネットワーク上で管理する分散型の仕組みにより、整合性や安全性が保たれています。
パブリックな運用が可能で、ビッグデータの処理における負荷を分散できる点がメリットです。また、Apache Sparkの特徴の1つにオープンソースが挙げられますが、分散型も兼ね備えていることから処理速度の向上だけでなく正確性も重視した運用が可能です。具体的には、下記のような4つが挙げられます。

MLlib：機械学習を実装
Spark SQL：クラスタ上のデータをSQL処理
Spark Streaming：ストリーミング処理
GraphX：グラフ処理

JavaやPython、Scalaなどのオープンソースでシステム開発が可能で、簡潔なコードを実装するだけで手軽に運用できる点は開発者の負担軽減に繋がります。

Apache spark誕生の背景

Apache sparkが誕生する以前は、Hadoopと呼ばれる分散型のシステムが存在していました。
しかし、実際に運用することで、ストレージエラーやアクセスの不具合が生じるなどのさまざまな欠点がみられ、システム改善の必要性が示唆されていました。
そこで、新しくHadoopの後継版として登場した仕組みがApache sparkです。そもそもHadoopの分散型処理には、下記のような課題が挙げられていました。

各ノードのストレージ能力を活かせるシステム設計の不備
分散型処理にてストレージアクセスのエラー障害
同処理におけるストレージの不具合

そのなかで機械学習の需要と技術向上に伴い、Hadoopでは仕組み上、対応できる場面が限られることが示唆されてきました。Apache sparkの登場により、Resilient Distributed Datasetsが確立され、Hadoopの課題が解決され、分散型メモリにより、ビッグデータを細分化する仕組みが構築されました。

Hadoopとの違い

Apache sparkとHadoopとの違いは明確です。前述した内容から、Hadoopのストレージ管理がビッグデータの処理に対応していないことは理解できたかと思います。

具体的に説明すると、Apache sparkはメモリの導入によりストレージ不可による不具合を解消します。一方で、Hadoopはデータ発生の都度、ストレージにアクセスする仕組みを採用しています。
そのため、読み込みと書き込みの工程でラグが発生するだけでなく、ビッグデータの分散型実現が困難となっていました。Apache sparkは、 Hadoopよりも高速な分散処理ができる仕組みを実現しているといえます。

Apache sparkを導入するメリット

機械学習によるビッグデータの処理において、Apache sparkのようなオープンソースのフレームワークでアプリケーションを開発する企業のシステム開発者もいることでしょう。
Hadoopでは実現できなかったメリットも数多く存在し、その特性は現代の機械学習の現場において大きな働きをみせています。

なかでも、 「データ処理」「Hadoop互換性」「リアルタイム処理」 などのメリットは、社内の業務効率化に繋がります。続いて、Apache sparkを導入するメリットについて、具体的に説明します。

Hadoopとの互換性

Apache sparkの仕組みが確立して以降、分散型によるシステム開発が比較的容易となりました。
Hadoopはソースが複雑化しているだけでなく、ストレージアクセスへの不具合が生じるなどのエラーにより、業務上の非効率化が目立ちました。
Hadoopの上位互換でもあるApache sparkは、 システムの互換性が強く、連携しやすい ところは大きなメリットといえます。

タイムリーなデータ処理が可能

Apache sparkは、 テラバイトを超えるペタバイト容量のデータも高速処理が可能です 。分散型の仕組みとして、オープンソースのフレームワークによる高速処理が挙げられますが、これによりタイムリーな稼働ができるようになりました。

Apache sparkの必要性がみられるケースで即時処理が求められる場合、データマイニングや機械学習によるシステム開発によって効率よくビッグデータを処理できます。
Hadoopはデータマイニングに適していても、機械学習には不向きなデメリットもありますが、Apache sparkであればデータマイニングを機械学習によって実行できるところはメリットといえます。

Apache sparkの動作環境と取扱い方法

Apache sparkにおけるシステム開発で重要なポイントとして、動作環境やインストール手順を紹介します。

膨大な量のデータ処理が可能

Apache sparkの最大の特徴として、ビッグデータを高速処理できる分散型という仕組みを採用していることが挙げられます。
なかでも、JAVAやSQL・Pythonなどのプログラミング言語を活用したシステム開発は、オープンソース特有の透明化に優れており、より大きく発展していくには不可欠です。それでは、実際の動作環境やインストール手順についてみていきます。

動作環境

Apache sparkの操作環境については、下記のとおりです。

Windows
MacOSX
Linuxディストリビューション

互換性の兼ね合いもあり、これらOS以外のシステムは不具合を引き起こす可能性もあるため、注意が必要です。

ライセンスとサポート

Apache sparkのライセンスはバージョン2.0で、使用者はオープンソースの特性からソフトウェアの使用や頒布、修正などが可能です。

使い方の手順

Apache sparkの使い方としては、互換性のある動作環境にてインストールしなければなりません。
また、使用したいプログラミング言語をプラグインしなければならず、JavaやPythonなどのApache sparkプラットフォームを導入します。
今回は、Javaを用いたApache sparkのダウンロード手順を紹介します。

Javaをインストール
「 http://ftp.jaist.ac.jp/pub/apache/spark/ 」でバージョン確認
最新ファイルのダウンロードおよび解凍
各種設定
コード入力

Apache sparkの最新バージョンは随時更新されているため、よく確認してダウンロードしてください。

まとめ

今回は、Apache sparkの特徴やその仕組み、ダウンロードの手順などについて解説しました。Apache sparkのオープンソースや分散型のなかで稼働する仕組みは先進的で、社内の業務効率化に繋がります。

導入を検討したい場合は、 Azure HDInsight の Apache Sparkがおすすめです。Azure HDInsight の Apache Sparkは、フルマネージドのサービスで、Azure 内でSpark環境をカスタマイズして利用が可能です。他にも、Azureではapache spark環境が豊富に提供されていますので、この機会にぜひ導入をご検討してください。