こんにちは。完全自動化研究所の小佐井です。
僕はオープンソースのETLツール『Pentaho Data Integration』を長年利用していますし、自分の書籍「オープンソースで作る!RPAシステム開発入門」でも使っています。
Pentaho自体はETLツールとBIツールを複合したツールですが、この記事ではETLツール部分だけの解説です。僕はETLツール部分だけを指して、「Pentaho」と呼んでいるので誤解しないでくださいね!>>Pentahoとは(HITACHIのページに飛びます)
さて、僕は長年、個人事業主としてお客様から仕事を受けているなかで、Pentaho以外にも有料のETLツールを使ってきました。それらのツールに比べても、Pentahoは非常に高性能なETLツールだと思います。無料なのに…。
自動化の協力な友人となるPentaho!この記事ではPentahoの基本的な使い方をご説明します。
それではどうぞ!
Pentahoを起動する
それでは、Pentahoの使い方を簡単に解説します。
ETLツールを無料で使おう!Pentahoのインストール方法で書いているようにPentahoをインストールが完了していることを前提としてます。
では、始めます。
Pentahoをインストールしたフォルダにある「Spoon.bat」をダブルクリックしてください。一瞬、真っ黒画面が立ち上がってから、このPDI画面が起動されます。起動するのに少し時間がかかると思います。
Spoon.batはこれから使うことになるので、ショートカットを作ってデスクトップやランチャーなどに置いておくといいですね。毎回、Spoon.batを探すのは手間ですから。
Pentahoが起動しない場合は、Pentahoが起動しない場合のデバッグ方法を記事にしているので、参照してくださいね。
ジョブを追加する
Pentahoが無事に起動したら、ジョブを追加しましょう。Pentahoは基本的に[ジョブ]→[データ変換]という階層になっています。
まず、PDI画面のファイルメニューの下にある[ファイルの追加]アイコンをクリックしてください。
下図のメニューが表示されますので、[ジョブ]をクリックしてください。
PDI画面の右側のパネルに「ジョブ1」というジョブが新規追加されました。
アイコンをジョブパネルに配置する
左側の[デザインパネル]に様々な機能を持ったアイコンが格納されています。これらのアイコンをジョブパネルに配置して、アイコン同士をつなげていって、ETL処理を完成させるのが、Pentaho開発の基本です。
左側の[デザインパネル]には、次のような機能が格納されています。少し、見てましょう。
全般
スタート、ジョブ、データ変換など、変換機能ではないがETLを構成するために必要な機能が格納されています。
- START
- ジョブ
- データ変換
- 変数設定
など
メール
SMTPサーバーを指定してメール送信ができます。データ変換の結果を添付してメール送信したり、データ変換中のエラー発生時に担当者にエラーのメール通知したりするのに使用します。
POP3/IMAPを使用したメール受信も可能です。僕は使ったことはありませんが。
- メール検証
- メール
- メール取得(POP3/IMAP)
ファイル管理
ファイル/フォルダーの作成や削除、名前の変更などの機能が格納されています。
- フォルダー作成
- ファイル作成
- ファイル解凍
- ファイル削除
- ファイル移動
など
条件
「ファイルが存在するなら続きを実行する」「データベースの値を見て実行する処理を変える」といった条件を設定したい場合に利用します。
- 待機
- ファイル確認
- テーブル確認
- データベース接続確認
など
スクリプト
スクリプトやSQLを実行する機能が格納されています。
- シェル
- SQL
- JAVAスクリプト
まとめ
Pentaho Data Integration(PDI)の使い方を簡単に解説しました。
PDI画面にジョブを作って、その中にアイコンをドラッグ&ドロップして、つなげていってETL処理を完成させる、ということです。
Pentahoは[ジョブ]→[データ変換]という階層になっています。ジョブから複数のデータ変換を呼び出してETL処理を作っていくことになります。
これ以上、細かい使い方を解説するよりは実際に使って学んでいくほうがいいかもしれません。なによりも実践が一番の勉強ですから。
僕の執筆した書籍「オープンソースで作る!RPAシステム開発入門」でもがっつり使っているので、実践的な使用法を身に付けたい場合は、書籍を参考にするといいかも、です。サンプルをダウンロードできるので、動かしながら理解できますよ。