// ランダムフォレスト多クラス分類（random forest classification） // なお、データセットはRに付属しているirisを使用しました。 #include #include #include #include #include #include using namespace std; #define SZ(a) ((int)(a).size()) // 乱数は、xorを使ってますが、メルセンヌツイスターの方がよいかも知れません。 class RandXor { public: RandXor() { init(); } void init() { x=123456789; y=362436069; z=521288629; w= 88675123; } inline unsigned int random() { unsigned int t; t=(x^(x<<11));x=y;y=z;z=w; return( w=(w^(w>>19))^(t^(t>>8)) ); } private: unsigned int x; unsigned int y; unsigned int z; unsigned int w; }; static RandXor randxor; // マルチスレッド対応にするなら、木ごとに乱数用オブジェクトを用意して、シードを変えましょう。 typedef double FeatureType; typedef int AnswerType; static const int NUM_CLASSES = 3; // 分類のときのクラス数 enum { LEFT, RIGHT, NUM_LR, }; struct TreeNode { bool leaf; // 葉（=子がない）ならtrue int level; // ノードの深さ。ルートノードは0 int featureID; // 説明変数ID。x0, x1, x2... の0,1,2の部分 FeatureType value; // 分割する値 AnswerType answer; // ノード内（=領域内）の目的変数yの平均値 vector bags; // ノード内（=領域内）に含まれるデータのID int left; // 左側の子のノードID int right; // 右側の子のノードID TreeNode() { leaf = false; level = -1; featureID = -1; value = 0; answer = 0; left = -1; right = -1; } }; class DecisionTree { public: DecisionTree() { } // 学習。訓練データをいれて、決定木を作成する。 // features 説明変数x0,x1,x2... // answers 目的変数y // minNodeSize ノード内 // maxLevel ノードの深さの最大値 // numRandomFeatures 領域を分けるときに試す説明変数（グラフでは軸）の数 // numRandomPositions 領域を分けるときに試すデータ（グラフでは点）の数 DecisionTree(const vector >& features, const vector & answers, int minNodeSize, int maxLevel, int numRandomFeatures, int numRandomPositions) { const int numData = SZ(features); const int numFeatures = SZ(features[0]); assert(numData==SZ(answers)); assert(numData>1); TreeNode root; // ルートのノード root.level = 0; root.bags.resize(numData); for (int i = 0; i < numData; i++) { // ここで、同じIDが選ばれる可能性があるが、問題なし。 root.bags[i] = randxor.random()%numData; } m_nodes.emplace_back(root); int curNode = 0; // m_nodesに子ノードがどんどん追加されていく幅優先探索 while (curNode < SZ(m_nodes)) { TreeNode &node = m_nodes[curNode]; // 現在のノードに入っている目的変数が、すべて同じかどうかを調べる // （その場合は、ノードを分ける必要がなくなる） bool equal = true; // すべて同じならtrue for (int i=1;i= maxLevel) { // 葉にして子ノードは増やさない。 setLeaf( node, curNode, answers ); continue; } // どこで分けるのがベストかを調べる int bestFeatureID = -1; int bestLeft=0, bestRight=0; FeatureType bestValue = 0; double bestGini = 1e99; // ジニ係数 for(int i=0;i