LeTung

2017.10.17

K-meansクラスタ分析( K-means Clustering)のサンプル

はじめに

こんにちは。AD-Tech事業部のトゥンでございます。

機械学習の手法である教師なし学習の一番簡単なアルゴリズムとサンプルを紹介いたします。

K-meansクラスタ分析とは

K-meansクラスタ分析( K-means Clustering)はデータのラベルがわからない場合、同じ属性があるデータを同じクラスタに分割するアルゴリズムです。

アルゴリズムの解析

  1. 最初に、分類の起点として、各クラスタの重心(核)をK個生成します。
    重心は任意の値でも良いし、入力データの一部でも良いです。(ここでは4個)

  2. それぞれの重心との距離を基に、データをクラスタに分類します。
    各データは、一番近い距離にある重心のクラスタに所属します。

  3. 各クラスタに所属するデータの平均値を新しい重心にします。

  4. 新しい重心が決まったところで、「2.」に戻って同じことを繰り返します。

  5. 重心が変化しなくなるまで繰り返します。

重心が変化しなくなっていき、収束することが証明されています。証明はこのドキュメントを参照してください。

K-meansクラスタ分析の各ステップの挙動

簡単なサンプルを作ってみる

手書きの数字をクラスタリング

MNIST文字データ

MNISTとは、「Mixed National Institute of Standards and Technology database」の略で、手書きの数字「0~9」に正解ラベルが与えられているデータセットです。

手書き文字は28ピクセル×28ピクセル(784ピクセル)の画像で与えられます。ピクセルごとに0~255までの値があります、黒いピクセルの値は0、ピクセルが白ければ白くほどピクセルの値は255に近くなります。

トレーニングセットは0~9の画像が6万サンプルありまして、テストセットは1万画像があります。全てのデータの画像はラベルが付けられています。

以下はMNISTデータのサンプルです。

Simple Neural Network implementation in Ruby からの画像)

問題:仮にMNISTのデータ画像のラベルがわからない場合、同じ数字がある画像を同じクラスタに分類します。

K-meansクラスタ分析を使って上記の問題を解決しましょう!

まずはこのリンクからMNISTデータをダウンロードします。

Pythonでコードを書きます。

以下のコードはテストデータ(1万画像)をクラスタリングします。

Object Segmentation

問題:以下の画像から花があるピクセルを区別します。

解説:この画像では、花は白、バックグラウンドは青と黒と、主に3つのカラーがあります。

それで3クラスタにしたらお花のところは機械でわかるようになるはずです。

やりかたとしてはまず画像ピクセルごとを3クラスタに分類し、その後に画像ピクセルごとに分類されたクラスタの重心の値に切り替えます。
終わったら3色がある画像が出てきます。花のピクセルは全て白くなりますので、花のみを抽出したい場合は白いピクセル以外のピクセルを適当な値に設定することで抽出できるようになります。

Pythonでコードを書きます。

結果は3つ色がある画像になります。

花のみの画像が欲しい場合、K=1のみを重心のカラーに設定して、他のピクセルは適当な値にすると結果が出します。

結果: