ETLとは?DWHを活用した新規ビジネスに必須の機能
さまざまなITツールが発展し、データを取得する機器とインターネットが直接つながるIoTの時代はすっかり定着しました。リアルタイムにいろいろなデータが集まるようになった反面、「データの肥大化と煩雑化」という問題も生じています。
何かの意思決定にデータを活用しようとしたときに、必要項目がいろいろなデータベースに散らばっており、すぐに結果が得られないのです。欲しい情報の元はあるのに、現状は整理統合する手段がない。仕方なく毎回CSVに落として手作業で加工せざるを得ない、もしくは始めからあきらめている人も多いのではないでしょうか。データを整理統合する手段があれば、省力化にも寄与し、AIなどを活用して新規ビジネスを展開する可能性も出てきます。
この記事ではそうした課題を解決し、新たな可能性を広げるソフトウエアであるETLについて、日本国内の成功事例と具体的な製品、またDATAFLUCTの取り組みも交えて解説します。
ETL(Extract TransForm Load)とは何か
ETLとは、必要とするデータを抽出(Extract)し、目的とする利用形態に変換(Transform)して、書き出す(Load)処理のことです。
抽出(Extract)
複数のシステムの複数のデータベースから統合すべきデータを抽出します。データの構文を読んで、判別を行います。
変換(Transform)
抽出されたデータを決まりに従って変換します。例えば文字コードをJISからUTF-8に変換するとか、個人IDなど、同類の区分コードをほかのデータベースと同じフォーマットにそろえるなどの処理です。
書き出し(Load)
抽出、加工されたデータをDWHのDBに書き出します。
これらの中でも変換の機能は重要です。Excelを使った手作業では膨大な時間と労力を必要としますが、ETLを使えばこれを大幅に省力化できます。重複データを削除したり、グループ化したりする機能を備えるソフトウエア製品もあります。
病院におけるETL活用ケース
ETLツールは、ビジネスの現場でどのような使われ方をしているのでしょうか。ここではある病院で活用された事例を紹介します。
病院の課題
病院で使われるコンピュータシステムにはいろいろな種類があります。それぞれの役割があり、それぞれのデータベースを使って診療と会計は成り立っている状態です。例えば、医事システム、電子カルテシステム、臨床検査システム、給食システム、病理システムなどが挙げられます。
これらは、病院本来の業務である「診療」を成立させるためには必要十分なものです。しかしながら、病院の経営を改善させるためにこのデータを活用しようとなると、途端に難しくなります。患者数変化の原因を探るのにデータを見ようとするならば、複数のシステムのデータを手作業で統合しなくてはならないからです。
また、近年は国の方針で医療費削減のために入院期間を短くする傾向があります。次から次へと退院させては入院させるというベッドコントロールが必要になりますが、これを紙ベースでやっていたのでは時間がかかりすぎることも課題となっていました。
ETLの導入手順や方法
病院の情報管理の担当者はあるベンダーから、「ETLツールでDWH(データウェアハウス)を作ってみてはどうか」という提案を受けました。検討してみたところ、自分の病院の問題解決には最適という感触があり、早速導入します。
経営層・病棟の看護師・入退院を支援するソーシャルワーカーなどが、必要とされているデータは何かを話し合い、情報管理部門で意見をとりまとめてデータ構造を設計しました。その後、ETLで自分たちが必要なデータを集めてDHWを作成しました。
改善後
外来患者数の疾患別推移など、ほぼリアルタイムで見られるようになり、経営層は早く手を打つことができるようになりました。今何をすることが必要なのかが分かるようになってきたのです。
また、入退院支援では、間もなく入院、退院する人のリストと、現在病棟に入院している人などの関係や受け入れ先の状況などがリアルタイムに把握できるので、会議室ではなくナースステーションでどのように動けばよいかが事前にわかり、余裕を持てるようになりました。
これが、残業時間や無駄な作業の削減につながり、働き方改革にも寄与したといいます。
主要なETLツールを紹介
現在提供されている主要なETLツールを紹介します。数年前まではオンプレミス型のアプリケーションとして存在していましたが、現在はクラウドサービスが主流となりつつあります。
ASTERIA Warp
Excelから基幹システム、業務アプリケーション、クラウドサービスまで、さまざまなデータソース間で、複雑な連携処理やデータ変換処理をノーコード&高速開発で簡単に実現できるETLツールとして知られています。
コードを入力することなく使えるので、エンジニアでない人にもシステム構築が可能となる所を売りにしています。月額3万円から使用できます。
Waha!Transformer
Waha!Transformerは、ライセンス方式のオンプレミスでも、クラウド型でもどちらの形式でも導入可能です。既に大手企業をはじめ1800ライセンスの導入実績があり、手厚いサポート体制が敷かれています。上記事例のような病院にも導入実績があるツールです。
料金は、ライセンス型だと初期費用で450万円から、クラウド型の月額使用料は13万5000円からとなっています。古くからの運用実績があり、オンプレミスの顧客も多くいます。業態を問わない顧客数があり、より使いやすいGUIを特徴としています。
Informatica PowerCenter
Informatica(インフォマティカ)は、「データマネジメント」のサービスを提供しているグローバル企業です。主力の「PowerCenter」は同社のデータ統合ソリューションの中でも実績のあるサービスで、大企業のオンプレミス環境として実績を重ねてきました。
巨大なPOSデータを扱うチェーン店、膨大な設計データを持つゼネコンなど、ビッグデータにも対応できるサービス群を持ちます。世界的にも高い評価を受けていることを盛んに掲げているベンダーです。
大企業のオンプレミス向けとはいえ、GUIベースで開発することができ、省力化にも寄与します。AWSとAzureなどのクラウド環境にも適応しています。
分散したデータの果実を収穫する方法こそ必要
DXが国を挙げて進行中ですが、重要なのは種々雑多な形式になって散在しているデータを、時間をかけずに、どううまく統合して活用できる形態にもっていくかにかかっているといえます。
デバイスやソフトウエアの進化だけではDXとは言えません。あくまでも人間のデータ活用力です。それを、支援するのがETLでありDWHなのですが、今やデータの統合は異なるシステム同士のデータベース統合にとどまらず、クラウドや画像、PDFなどからも統合を行う動きになっています。
2021年12月に提供が開始された、DATAFLUCTのAirLakeなどのサービスは、DBだけでなく、テキスト・動画・音声、IoT、天気、人流などにいたるまでデータを統合し、機械学習などに利用できるようカタログ化するという、ここまで紹介してきたETLをさらに拡張した機能も含んでいます。
データ統合ツールを例えるなら、人間がこれまで生み出し、収集してきたデータという果実を収穫するための特別なアイテムと言えるかもしれません。
参考リンク
> AirLake|ノーコードクラウドデータプラットフォーム
誰でも簡単に
「社内外のデータ収集」と
「非構造化データの構造化」で
データを資産化
AirLakeは、データ活用の機会と効果を拡張する
ノーコードクラウドデータプラットフォームです。
SEやビジネスマンとしての30年にわたる経験に最新の知見を組み合わせて、各種Webメディアで執筆活動をしている。