画像認識のAPI、どんどんと公開されていますね。
編集部でも、Amazon、Salesforce、リクルートなどいろいろな画像認識APIを試してきました。
今回の記事では、Microsoftが公開している画像認識API「Computer Vision API」を試してみます。
単なる物体認識だけではなく、文字画像のテキスト化や、著名人かどうかの判別や自動サムネイル生成など、さまざまな分野に活かせそうな機能がありました。
Computer Vision APIって?
機能の一覧は次の通りです。
- 画像の分析
- 画像内のテキストの読み取り
- 画像内の手書き文字の読み取り
- 著名人及びランドマークの認識
- サムネイルの生成
- リアルタイムでのビデオ分析
今回はこの中から1. ~ 5. を説明します。
1. 画像の分析
アップロードした画像から取得した情報を返す機能。
例として、iphoneが写っている画像をアップロードしてみます。
その結果がこちら。
{
"tags":
[
"person", "grass", "holding", "outdoor", "cellphone", "hand"
],
"captions":
[
{ "text" : "a hand holding a cellphone", "confidence" : 0.933895648 }
],
"Adult":[
{ "Adult content" : "false", "Adult score" : 0.01530617 }
]
}
出てきた情報は説明、タグ、画像形式、画像サイズなど……。”Adult score”の部分でわいせつ性まで検知しています。これがあればサイト内のアダルトコンテンツの自動制限も簡単にできてしまいますね。
さらに、なんと”text”の部分で「a hand holding a cellphone」という画像を表す文章も出力されています。
以前ご紹介した「Seeing AI」のように、目が見えない方向けに音声での読み聞かせなど、アクセシビリティ用途での活用方法もありえそうです。
2. 画像内のテキストの読み取り
画像内の文字を認識してテキストとして返す機能です。
今回は、少し変わったデザインのフォントを含むテキスト画像を解析してみました。
すると、このような結果が出てきます。
文字が大きい場合にはうまく読み取れるようですが、細かい筆記体などはまだ難しそうです。フォントの影響も大きそうですが、それでも一部は認識できているのがすごいですね。
ビジネスで活用するとなると、一枚しかない名刺を撮影して読み取り、テキスト化して共有などができそうです。
3. 画像内の手書き文字の読み取り
手書き文字をテキストにして返す機能。現在はアルファベットに対応しているようです。
筆者が書いたメモを解析してみましょう。(ちなみに、スティーブジョブズの名言を書いてみました)
結果がこちら。
メモ3行目の”dots”が”dore”になってしまっている以外は解析できています。
これがあれば、たとえばブレストの際、手書きで紙に書いた資料を一部テキスト化して共有、といったこともできるので、日常の業務効率化という面でのインパクトは大きそうですね。
4. 著名人及びランドマークの認識
著名人やランドマーク(土地や、建物の名前など)を特定してくれる機能です。
今回はシンガポールのランドマーク、マリーナベイサンズの画像を解析させてみましょう。
その結果がこちら。
{
"categories":
[
{
"name": "outdoor_",
"score": 0.0390625,
"detail":
{
"landmarks":
{
"name": "Marina Bay Sands",
"confidence": 0.9303226
}
}
},
{
"name": "outdoor_waterside",
"score": 0.76953125,
"detail": null
}
]
}
マリーナベイサンズをしっかりと認識しています。
たとえば「旅行で訪れた場所の名前を忘れてしまった……」という人でも、これなら写真を読み込ませるだけで高確率で特定ができるので、便利ですよね。
5. サムネイルの生成
アップロードした画像を最適な大きさ、形、スタイルに変更してくれる機能です。
また、スマートトリミング機能を使えば、注目すべき領域を特定し、維持したサムネイルを生成してくれます。
それでは、渋谷のハチ公像の写真を解析してみましょう。
スマートトリミングなしの結果がこちら。
右下のハチ公像は切れてしまっています。
それでは、スマートトリミングを使用した場合ではどうでしょうか?
右下のハチ公像も切れておらず、かなり良い仕上がりです。
サムネイルは、サイト運営をされている方であれば使う機会の多い機能で嬉しいですね。Ledge.aiでも画像作成の場面は頻繁にあるため、何か使えるかもしれません。
画像認識APIがビジネスの可能性を広げてくれる
今回は「Computer Vision API」の5つの機能をご紹介しました。
ビジネスへのインパクトだけではなく、APIの機能を組み合わせたり工夫をしたりすることで、身近な作業の効率化やサービス向上にもつなげられそうですね。
たとえば、
- ECサイト用の画像を自動でサムネイル生成
- 著名人の権利侵害を検知
- アダルトサイトから子供を守る制限
など、多くの活用方法が考えられます。
こういったAPIでディープラーニングを用いた技術が身近になることで、技術を深く理解しなくともWebサービスやアプリに組み込めるようになる。そうすればさらにサービスが多様化し、競争が生まれ、個々のクオリティも高まる。ディープラーニングを「難しいよくわからない技術」として一部のプロフェッショナルに独占させてしまうよりも、よっぽど有益ですよね。
多機能な画像認識API「Computer Vision API」、ぜひ試してみてはいかがでしょうか?