“Анализ Twitter в чистых твитах” Ответ

Анализ Twitter в чистых твитах

  clean_tweet = gsub("&", "", unclean_tweet)
  clean_tweet = gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", clean_tweet)
  clean_tweet = gsub("@\\w+", "", clean_tweet)
  clean_tweet = gsub("[[:punct:]]", "", clean_tweet)
  clean_tweet = gsub("[[:digit:]]", "", clean_tweet)
  clean_tweet = gsub("http\\w+", "", clean_tweet)
  clean_tweet = gsub("[ \t]{2,}", "", clean_tweet)
  clean_tweet = gsub("^\\s+|\\s+$", "", clean_tweet) 
MF

Анализ Twitter в чистых твитах

clean_tweet4 <- str_replace_all(clean_tweet3, "https://t.co/[a-z,A-Z,0-9]*","")
clean_tweet5 <- str_replace_all(clean_tweet4, "http://t.co/[a-z,A-Z,0-9]*","")
MF

Анализ Twitter в чистых твитах

df <- tm_map(df, tolower)  
MF

Анализ Twitter в чистых твитах

df <- tm_map(df, removePunctuation)
MF

Анализ Twitter в чистых твитах

# Get rid of URLs
clean_tweet <- str_replace_all(clean_tweet, "http://t.co/[a-z,A-Z,0-9]*{8}","")
MF

Анализ Twitter в чистых твитах

df <- tm_map(df, removeNumbers)
MF

Анализ Twitter в чистых твитах

 #get rid of unnecessary spaces
clean_tweet <- str_replace_all(clean_tweet," "," ")
# Get rid of URLs
clean_tweet <- str_replace_all(clean_tweet, "http://t.co/[a-z,A-Z,0-9]*{8}","")
# Take out retweet header, there is only one
clean_tweet <- str_replace(clean_tweet,"RT @[a-z,A-Z]*: ","")
# Get rid of hashtags
clean_tweet <- str_replace_all(clean_tweet,"#[a-z,A-Z]*","")
# Get rid of references to other screennames
clean_tweet <- str_replace_all(clean_tweet,"@[a-z,A-Z]*","")   
MF

Анализ Twitter в чистых твитах

Error in stri_replace_all_regex(string, pattern, fix_replacement(replacement),  : 
 Syntax error in regexp pattern. (U_REGEX_RULE_SYNTAX)
MF

Анализ Twitter в чистых твитах

    library(tidyverse)    

    clean_tweets <- function(x) {
                x %>%
                        str_remove_all(" ?(f|ht)(tp)(s?)(://)(.*)[.|/](.*)") %>%
                        str_replace_all("&", "and") %>%
                        str_remove_all("[[:punct:]]") %>%
                        str_remove_all("^RT:? ") %>%
                        str_remove_all("@[[:alnum:]]+") %>%
                        str_remove_all("#[[:alnum:]]+") %>%
                        str_replace_all("\\\n", " ") %>%
                        str_to_lower() %>%
                        str_trim("both")
        }

    tweets %>% clean_tweets
MF

Ответы похожие на “Анализ Twitter в чистых твитах”

Вопросы похожие на “Анализ Twitter в чистых твитах”

Больше похожих ответов на “Анализ Twitter в чистых твитах” по TypeScript

Смотреть популярные ответы по языку

Смотреть другие языки программирования