Text Processing Menggunakan R Studio

 Assalamualaikum teman teman.. 

disini saya akan menjelaskan tentang cara text processing dengan menggunakan Rstudio, disini saya membuat text processing dengan data set yang saya ambil dari web kaggle, atau anda bisa mendownload data set nya di link berikut ini https://drive.google.com/file/d/1AaJI18sPXnw8gwGlINLzYPvFP7-krOFd/view?usp=sharing

1. Membuka aplikasi Rstudio


2. Mempersiapkan library yang akan digunakan, jika belum ada bisa menginstall package dengan cara

install.packages("textclean")
install.packages("tidytext")
install.packages("tidyverse")
install.packages("wordcloud")
install.packages("tokenizers")
install.packages("stopwords")


3. lalu memanggil library yang akan digunakan 

library(textclean)
library(tidytext)
library(tidyverse)
library(wordcloud)

4. lalu impor database atau langsung memanggil atau membaca data dengan cara 

Tweets <- read_csv("Tweets.csv")
head (Tweets)


5. langkah selanjutnya adalah text cleaning atau membersihkan data, atau menghapus tanda baca yang tidak digunakan atau menghapus huruf besar yang akan mengganggu saat text processing. Untuk mempermudah melakukan text cleaning ini kita harus mengubah data kita yang awalnya data frame menjadi data vektor.

rev <- Tweets$text
head (rev)

6. Langkah selanjutnya adalah menyeragamkan kapitalisasi (huruf besar kecil)  pada data. Karena ini case sensitive takutnya kata kata yang artinya sama dianggap berbeda cuma karen huruf besar kecilnya

rev %>%
str_to_lower()%>%
head()

7. Langkah selanjutnya adalah menghapus huruf yang bentuknya bukan kata pada data. misalnya angka atau tanda tanda baca

rev %>%
strip() %>% 
head()

7.  langkah selanjutnya adalah tokenize (menghitung frekuensi angka) dan remove stopwords. pertama tama kita harus mengubah data nya menjadi data frame lagi dengan cara

enframe(rev, value = "word", name = NULL)%>%

8. selanjutnya kita akan melakukan tokenisasi, fungsi ini nanti akan mentransfrom tiap kata pada text menjadi satu data, megagregasi kemunculan setiap kata kata dan melakukan stopwords untuk membuang kata yang tidak kita inginkan untuk di hitung. 

enframe(rev, value = "word", name = NULL)%>%
unnest_tokens(word, word) %>%
count(word, sort = T) %>%
anti_join(stop_words)


9. nah langkah terakhir adalah membuat wordcloudnya, dengan cara

words <- enframe(rev, value = "word", name = NULL)%>%
unnest_tokens(word, word) %>%
count(word, sort = T) %>%
anti_join(stop_words)
words%>%
with(
wordcloud(
words = word, 
freq = n,
max.words = 200,
)
)




atau jika kurang jelas anda bisa klik link berikut untuk melihat video https://youtu.be/U8QDeBKeHZY





Komentar

Postingan Populer