機械学習の主要サービス:画像、音声、言語系をチェック
これまでの情報処理は概ね、データを入力して計算や加工を施し、結果を人間に提出するものでした。いまその在り方が根本的に変わろうとしています。既に蓄積した大量データを分析して未来を予測し、次の行動を人間に示唆する、あるいは機械に行動させる、といった方法に変わりつつあります。機械学習やAIの活用範囲が広がりつつあるのです。
ほんの少し前まで、AIはPythonなどのプログラム言語を使って作成するものでしたが、現在は場合によってはコードを書く必要がなくなっています。また、手間のかかるインフラを自ら用意することなく、クラウドで機械学習環境を提供するサービスもあります。
この記事では、Google、AWS、Microsoft、IBMという米主要IT企業が提供する機械学習サービスを紹介し、画像、音声、言語系など具体的にどのようなデータ活用方法があるのかを調べてみました。
Google Cloud Platform
Googleが提供するGoogle Cloud Platform(GCP)は、クラウド機械学習サービスです。可能になる機械学習の種類は次の通りです。
- 画像認識
- 翻訳
- テキストマイニング
- 会話
- テキストの読み上げ
- 音声の文字おこし
- データマイニング
例えば、画像認識は「この人は大人か、子どもか、判定したい」という場合、大人と子どもの画像データを集めて、Google Cloudにアップロードします。そして大人と子どもそれぞれの画像に、ラベルを付けて機械学習ボタンを押せば、その画像が「大人か子どもか」 を判定できるようになるというものです。
コードを記述するようなプログラミングの必要はなく、この程度であれば直感的に操作できます。なお、画像の読み込みや機械学習にはデータ量に応じて一定の時間がかかり、学習時間に応じて料金が発生します。
機械学習後にモデルができたら、その判別プログラムをアプリケーションとして使えるようにデプロイできます。モデルを公開すると API を取得でき、API を使うための Pythonプログラムのソースコードも紹介されるようになっています。
また、音声データの文字起こしはかなり精度が高いと言われています。言い方の癖などが含まれるフリートークではまだまだ誤変換も目立つ一方で、アナウンサーのように台本を読むような音声で入力すれば、完璧に近い精度で変換してくれるとの声も聞こえてきます。
Machine Learning on AWS(Amazon Web Service)
Amazon Web Services(AWS)は利用者も多く有名ですが、機械学習サービスの種類も数多くリリースされています。
- 機械学習の実行からデプロイまで
- Alexaを“目”の代わりにするツール
- 文章をリアルな音声に変換
- 画像分析と動画分析
- 翻訳
- おすすめの商品を選び出すような機能
- 時系列予測サービス
上記リストは日本で使えるものだけで、海外のサーバーではテキストマイニングや、会話、自動音声認識なども用意されているようです。この中で、機械学習の実行からデプロイまでを実施できるのが「Amazon Sage Maker」というサービスです。AWSでの機械学習サービスという場合は、これが基本になるでしょう。
Amazon Sage Makerでは、機械学習のプログラムは自作することが必要になっています。「Jupyter Notebook」というWebブラウザ上で、ソフトウエアを開発できる環境をクラウド上で操作できるようになっているので、Pythonなどを使ってこれで作ります。
作ったプログラムを走らせて機械学習モデルを作成したら、デプロイもできます。デプロイするには、AWS-CLI(Command Line Interface)と呼ぶコマンドラインで直接操作する必要があり、難易度が少し高くなってきます。
機械学習を稼働させるマシンの性能面でも複数の選択肢を用意しており、選択できます。どれくらいの大きさの画像を、何枚くらい読ませるかなどの条件に応じて、性能を選ぶ必要があります。
Microsoft Azure(Machine Learning Studio)
Microsoft Azureも利用者の多いクラウドサービスですが、Azureの機械学習サービスには、GoogleやAWSのような機能・種類別のメニューのようなものがありません。テキストマイニングや、会話なども用意されておらず、必要なら自分で作らなくてはなりません。
ですので、どんなパターンの機械学習も自由に作成することができる反面、自分でアルゴリズムを考えたり、機械学習を実行したりすることが必要になってきます。
機械学習用のプログラムを作成する環境は、AWSと同じ「Jupyter Notebook」と、Microsoft独自の「Experiment」というGUIが用意されています。どちらで作っても機械学習モデルの作成は可能で、Webサービスなどにデプロイもできます。
この「Experiment」というGUIなのですが、一見プログラムを知らなくてもできそうな見やすい画面で、取り組みやすそうな印象もあります。しかし、実行してみると、機械学習のロジックを熟知していないと組み立てが困難であることがわかります。Pythonのコードは覚えていないものの、機械学習のアルゴリズムなら知っているという人向けの仕組みと言えるでしょう。
機械学習に使う仮想マシンはグレードがいくつかあり、選択できるようになっています。CPU・GPU・FPGAとグレードがあり、無料利用枠はCPUだけになっています。
最終的に一般の人が使えるようにデプロイするには、Microsoftの開発環境であるVisual StudioとML.NETというフレームワークを使って機械学習モデルをセットし、サービスを公開するというプロセスを踏みます。Microsoft Azure と Machine Learning Studio を統合して使うのが一般的になるでしょう。
MicrosoftのMachine Learning Studioは、既にAzureを利用している人で、Visual Studioを使い込んでいる人向けだといえるでしょう。
IBM Cloud
IBM Cloudは、以前からオンプレミスでIBMのメインフレームを利用しているユーザーなどに利用されているサービスです。オンプレミスでメインフレームを使うコンピューティングは古い形態となりつつありますが、IBMの機械学習サービスも競合企業に引けを取らず、高機能で使いやすいものがそろっています。主なラインアップは以下の通りです。
- IBM Watson Studio
一般向けの機械学習モデル作成用プラットフォーム - IBM Machine Learning for z/OS
メインフレームユーザー向けの機械学習モデル作成プラットフォーム - IBM SPSS Modeler
データサイエンティスト向けのMLソリューション。パブリッククラウドも使用可能 - Watson Discovery
受賞歴のある優秀なAIを活用した、テキストマイニングソリューション
IBM Watson Studioは、お試し用の無料版や、学生向けの無料版も用意されているなど、機械学習を普及させる意図を持った、デスクトップソリューションです。
手元にある小さな課題を、デスクトップで機械学習モデルによって解決することから始められるため、AI入門に適しています。オフライン下でも作業ができ、オンライン時に同期させることが可能です。
CSVのデータから機械学習モデルを作成するなどの作業を、GUIで行えるようになっており、これは他社より秀でている点でしょう。
SPSS Modelerは、データサイエンティスト向けのツールで、オープンソースのPythonやクラウドとオンプレミスのデータを組み合わせるなどの操作ができるようになっています。
MicrosoftのExperiment と同様、GUIで視覚的に機械学習モデルを構築できるようになっており、どちらがよいか好みの分かれるところ。小規模なものから大規模なものまで機械学習モデルを作れるツールになっています。
Watson Discoveryは、SNSにあふれる巷の声のテキストデータを拾い上げ、ある事象に対し人々がどのような反応を示しているか、分析できるソリューションです。
紹介するページの動画では、タイフーンの災害時、被災地の人々が最も必要としているものは何かを分析したところ、倒木によって食料が届いていないことが判明、直ちに非常食と生鮮食料品を届けられる様子が描かれていました。顧客へのアンケート調査などにも威力を発揮しそうです。
機械学習にとって大事なのはデータの組み合わせ
紹介してきたように、機械学習が非常に身近になってきました。人材募集もこれまでのプログラマーやSEといった職種に加え、データサイエンティストの不足が指摘されています。
新しいシステムを構築して戦略的に活用する段階から、過去より蓄積されてきた、あるいは公開されている膨大なデータをどう活用していくのかという段階に移りつつあるといえるでしょう。これこそ今、国が推進しているDXの肝になるのではないでしょうか。
データは存在しているままでは機械学習に取り入れることができません。「整理」と、「ある程度の加工」が必要となります。
例えば、DATAFLUCTでは、非構造化されたデータを構造化して、カタログ化し、機械学習などに応用できる形に整理するソリューション「AirLake」を提供しています。これから機械学習で課題を解決しようと考える企業に適したサービスです。
【関連リンク】
> AirLake|ノーコードクラウドデータプラットフォーム
誰でも簡単に
「社内外のデータ収集」と
「非構造化データの構造化」で
データを資産化
AirLakeは、データ活用の機会と効果を拡張する
ノーコードクラウドデータプラットフォームです。
SEやビジネスマンとしての30年にわたる経験に最新の知見を組み合わせて、各種Webメディアで執筆活動をしている。