library(tm)
library(tmcn)
library(Rwordseg)

d.corpus <- Corpus(DirSource("docs", encoding = 'UTF-8'))

# 清除標點符號, 數字
d.corpus <- tm_map(d.corpus, removePunctuation)
d.corpus <- tm_map(d.corpus, removeNumbers)
# 清除大小寫英文與數字
d.corpus <- tm_map(d.corpus, function(word) {
  gsub("[A-Za-z0-9]", "", word)
})

d.corpus <- tm_map(d.corpus, segmentCN, nature = TRUE)

d.corpus <- Corpus(VectorSource(d.corpus))

myStopWords <- c(stopwordsCN(), "編輯", "時間", "標題", "發信", "實業", "作者", "！")
d.corpus <- tm_map(d.corpus, removeWords, myStopWords)

tdm <- TermDocumentMatrix(d.corpus, control = list(wordLengths = c(2, Inf)))

inspect(tdm)