Text Processing Menggunakan R Studio
Assalamualaikum teman teman..
disini saya akan menjelaskan tentang cara text processing dengan menggunakan Rstudio, disini saya membuat text processing dengan data set yang saya ambil dari web kaggle, atau anda bisa mendownload data set nya di link berikut ini https://drive.google.com/file/d/1AaJI18sPXnw8gwGlINLzYPvFP7-krOFd/view?usp=sharing
1. Membuka aplikasi Rstudio
2. Mempersiapkan library yang akan digunakan, jika belum ada bisa menginstall package dengan cara
install.packages("tidytext")
install.packages("tidyverse")
install.packages("wordcloud")
install.packages("tokenizers")
install.packages("stopwords")
3. lalu memanggil library yang akan digunakan
library(textclean)library(tidytext)
library(tidyverse)
library(wordcloud)
4. lalu impor database atau langsung memanggil atau membaca data dengan cara
head (Tweets)
5. langkah selanjutnya adalah text cleaning atau membersihkan data, atau menghapus tanda baca yang tidak digunakan atau menghapus huruf besar yang akan mengganggu saat text processing. Untuk mempermudah melakukan text cleaning ini kita harus mengubah data kita yang awalnya data frame menjadi data vektor.
head (rev)
6. Langkah selanjutnya adalah menyeragamkan kapitalisasi (huruf besar kecil) pada data. Karena ini case sensitive takutnya kata kata yang artinya sama dianggap berbeda cuma karen huruf besar kecilnya
str_to_lower()%>%
head()
7. Langkah selanjutnya adalah menghapus huruf yang bentuknya bukan kata pada data. misalnya angka atau tanda tanda baca
strip() %>%
head()
7. langkah selanjutnya adalah tokenize (menghitung frekuensi angka) dan remove stopwords. pertama tama kita harus mengubah data nya menjadi data frame lagi dengan cara
enframe(rev, value = "word", name = NULL)%>%
8. selanjutnya kita akan melakukan tokenisasi, fungsi ini nanti akan mentransfrom tiap kata pada text menjadi satu data, megagregasi kemunculan setiap kata kata dan melakukan stopwords untuk membuang kata yang tidak kita inginkan untuk di hitung.
unnest_tokens(word, word) %>%
count(word, sort = T) %>%
anti_join(stop_words)
9. nah langkah terakhir adalah membuat wordcloudnya, dengan cara
unnest_tokens(word, word) %>%
count(word, sort = T) %>%
anti_join(stop_words)
words%>%
with(
wordcloud(
words = word,
freq = n,
max.words = 200,
)
)
Komentar
Posting Komentar