深層学習を用いた物体領域推定のための学習データの生成支援

情報科学部

ネットワークデザイン学科

画像情報処理研究室

西口敏司 准教授

共同研究者

田中靖浩

深層学習を用いたセグメンテーションのための学習では,物体が写っている画像を物体毎に数百枚から数千枚用意し,画像に写っている物体の輪郭情報を人手でアノテーションする必要があり,労力やコストがかかるという問題がある.一方,RGB-Dカメラは各画素に対応する距離に関する情報も同時に獲得できるカメラである.本研究では,深層学習を用いた物体領域推定(セグメンテーション)のための学習に必要な物体の輪郭情報をRGB-Dカメラを用いて人手によらずに高速に獲得する手法を開発した.

背景

生活支援ロボットなどの物体把持タスクでは,物体の識別とロボット座標系における位置情報の獲得が必要である.これまでも,物体の識別のために深層学習などの手法が適用されている.一方,輪郭情報などの学習データの作成は人海戦術によるものが多く,また物体の外接矩形(バウンディングボックス)を付与することがほとんどであった.近年,Mask R-CNNの機能の一つとして物体セグメンテーションと呼ばれる手法が開発され,物体を構成する画素を推定する手法が提案されている.物体セグメンテーションのための学習データとしては対象物体の輪郭情報が必要であり,対象物体のバウンディングボックス情報のみでは,物体の背景を含むため物体セグメンテーションのための学習データとしては使用できず,物体の輪郭情報が必要である.一般には,このような情報を付与するために,GIMPのような描画ツールや専用のツールを使用して手動で輪郭情報を付与する作業が行われており,人手や時間的,金銭的コストがかかるという問題がある.

目的

本研究では,生活支援ロボットの物体把持タスクの対象となる程度の大きさを持つ物体のセグメンテーションのための学習データの自動生成手法について検討する.大規模な学習データを作成するにあたって学習画像の収集時に少し環境を整え,RGB-Dカメラで撮影物体を撮影し,物体に関する領域と背景に関する領域を分離することで,高速に物体の輪郭情報を獲得する手法を検討する.

RGB-Dカメラによる物体の撮影

RGB-Dカメラは通常のカラー画像(図1)に加え,各画素に対応する距離を獲得できるカメラである.この情報に基づき,視野に含まれるシーンの三次元情報を獲得することが可能である(図2).これを三次元点群とよぶ.

図1. 物体を撮影した画像
図2. 獲得された三次元点群

物体に対応する三次元点群の抽出​

獲得される三次元点群には物体以外の背景などの情報を含むため,RDB-Dカメラからみて左右方向および,奥行き方向について,一定の範囲内の点群のみを残すフィルタをかける(図3).さらに,RANSACアルゴリズムによる平面を構成する点群の検出とその除去を行う.この操作により,物体を構成する三次元点群が抽出される.ただし,ノイズなどの影響により,物体に関連しない三次元点群も含まれるため,これに対処する必要がある.

図3. 物体領域を含む三次元点群の例

物体に対応する領域の抽出

物体に対応する三次元点群が得られるため,各点の 情報を用いて,二次元画像上に二値画像としてプロットする(図4).この段階ではまだごま塩ノイズや欠損が存在することがある.

図4. 二次元画像への射影結果の例

マスクの推定と物体領域の抽出

ゴマ塩ノイズを除去するためにオープニング(縮小→拡大)処理を施し,欠損を埋めるためにクロージング(拡大→縮小)処理を施す.次に輪郭検出処理を適用し,検出された輪郭のうち内部に含まれる画素数が最も多い輪郭を残す.この輪郭を,物体を囲む輪郭として利用し,また,輪郭内の画素の集合を学習用のマスクとして利用する(図5).

図5. マスク画像の例

提案手法の検証に用いた物体

提案手法の有効性を評価するために,ロボットによる把持を想定した12種類の物体(図6, 図7)をRGB-Dカメラで撮影し,学習データセットを構築した.

図6. 物体No.1~No6
図7. 物体No.7~No.12

(図6および図7において,No.1は日本コカ・コーラ株式会社の商品名綾鷹,No.2はカルピス株式会社の商品名ウェルチグレープ50,No.3~No.5は,ヤマザキビスケット株式会社の商品名chip star,No.6は株式会社明治の商品名プレーンクラッカー,No.9は日清食品株式会社の商品名シーフードヌードル,No.10は江崎グリコ株式会社の商品名プリッツ,No.11はエースコック株式会社の商品名スープはるさめ,No.12は味の素株式会社の商品名クノールボストンクラムチャウダーを引用した)

手動によるマスクと提案手法によるマスクの比較

図8~図11以下に示すように,提案手法でもほぼ正確に物体領域の抽出ができている.また,図6,図7に示した物体を様々な方向からそれぞれ12回撮影した,計144枚の物体画像に対して手動によるマスク領域の付与は約1時間30分かかる一方,提案手法によるマスク領域の付与は約1分で完了し,大幅な時間短縮ができている.

図8. 物体No.6の手動によるマスク
図9. 物体No.6の提案手法によるマスク
図10. 物体No.7の手動によるマスク
図11. 物体No.7の提案手法によるマスク

detectron2を用いた識別結果の比較

手動によるマスク画像を用いた学習結果と提案手法によるマスク画像を用いた学習結果を認識フレームワークのdetectron2に適用したところ,以下に示すように同等の識別領域推定結果が得られている.

手動によるマスク画像を用いた識別結果
提案手法によるマスクを用いた識別結果

想定される用途

  • 深層学習用データベースの低コストな作成
  • ロボットによる物体把持のための識別モデルの迅速な構築

論文

「物体領域推定のための学習データの生成支援」(2020)田中靖浩『画像の認識・理解シンポジウム (MIRU2020) 論文集』p.IS3-3-19.

研究シーズ・教員に対しての問合せや相談事項はこちら

技術相談申込フォーム