makeDTM ÆÐŰÁö ¹öÀü 1.3À» °ø°³ÇÕ´Ï´Ù.
À̹ø ¹öÀü¿¡¼´Â »ó°üºÐ¼® ±â´ÉÀ» Ãß°¡ÇÏ¿´½À´Ï´Ù.
¸ÕÀú makeDTMÀÇ ÀÌÀü ±â´É¿¡ ´ëÇØ¼´Â ÀÌÀü °Ô½Ã±ÛÀ» ÂüÁ¶ÇØÁÖ¼¼¿ä.
¿©±â¼´Â »õ·Î Ãß°¡µÈ »ó°üºÐ¼® ±â´ÉÀ» Áß½ÉÀ¸·Î ¼Ò°³ÇÕ´Ï´Ù.
¼³Ä¡´Â ´ÙÀ½À¸·Î ÇÕ´Ï´Ù.
library(devtools)
install_github("caitechKHU/makeDTM")
¶Ç´Â ÷ºÎµÈ ÆÄÀÏÀ» .libPaths() ÇÔ¼öÀÇ Ã¹¹øÂ° °æ·Î¿¡ ¾ÐÃàÀ» Ç®¾î Á÷Á¢ ¼³Ä¡Çصµ µË´Ï´Ù.
½Ç½À ÆÄÀϵµ °°ÀÌ ¿Ã¸³´Ï´Ù.
½ÇÇà ¹æ¹ýÀº ´ÙÀ½°ú °°½À´Ï´Ù.
0. ÀÚ·á Àбâ
setwd("C:/rtest")
txt <- readLines("sample_news.txt")
docs <- as.data.frame(txt) # ¹®¼¸¦ µ¥ÀÌÅÍÇÁ·¹ÀÓÀ¸·Î º¯È¯
1. Ű¿öµå ÃßÃâ (Çʼö ¾Æ´Ô)
library(RHINO)
initRhino()
noun <- lapply(txt, getMorph, "noun")
nounVec <- unlist(noun)
nounFreq <- table(nounVec) # µµ¼öºÐÆ÷Ç¥
keywords <- names(head(sort(nounFreq, decreasing = T), 20)) # Ű¿öµå 20°³ ÃßÃâ
2. DTM »ý¼º
library(makeDTM) # makeDTM ÆÐŰÁö·Î DTM ±¸¼º
dtm <- makeDTM(docs, key=keywords , TEXT.name = "txt", RHINO = TRUE)
3-1. µÎ ´Ü¾îÀÇ »ó°ü°ü°è ºÐ¼®
findAssocTwo(dtm, "°èȹ", "ÅõÀÚ")
3-2. ÇÑ ´Ü¾î¸¦ ±âÁØÀ¸·Î ÇÑ »ó°ü°ü°è ºÐ¼®
findAssocs(dtm, "°èȹ") # '°èȹ'À̶ó´Â ´Ü¾î¿Í 0.3 ÀÌ»óÀÇ »ó°ü°ü°è¸¦ °®´Â ´Ü¾î ÃßÃâ
findAssocs(dtm, "°èȹ", 0.6) # '°èȹ'¶ó´Â ´Ü¾î¿Í 0.6 ÀÌ»óÀÇ »ó°ü°ü°è¸¦ °®´Â ´Ü¾î ÃßÃâ
3-3. DTM ³»ÀÇ ¸ðµç ´Ü¾î »ó°ü°ü°è ºÐ¼®
findAssocsAll(dtm) # ¸ðµç »ó°ü°ü°è ºÐ¼®
findAssocsAll(dtm, 0.8) # 0.8 ÀÌ»óÀÇ »ó°ü°ü°è¸¦ °®´Â ´Ü¾î¸¸ ÃßÃâ
- »ó°üºÐ¼® ÀÚü´Â RÀÇ cor() ÇÔ¼ö¸¦ ÀÌ¿ëÇß½À´Ï´Ù.