본문 바로가기

방송통신대학교

R을 활용한 웹페이지 텍스트 추출(rvest와 dplyr 패키지를 이용한 실시간 웹 스크래핑 방법)

728x90
반응형
728x170

R의 ‘rvest’ 및 ‘dplyr’ 패키지를 이용하여 웹페이지(교재 사례 외)의 텍스트를 읽어오는 코드를 작성하고 실행결과를 제시하시오. 단, 과제 작성일을 명시하고 당일 최신 갱신된 웹페이지의 내용을 읽어와야 합니다.

 

안녕하세요, 여러분! 오늘은 R의 'rvest' 및 'dplyr' 패키지를 활용하여 웹페이지의 텍스트를 읽어오는 방법에 대해 알아보겠습니다. 웹 스크래핑은 다양한 웹페이지에서 정보를 추출하는 데 매우 유용한 기술입니다. R을 사용하면 이러한 작업을 간단하게 수행할 수 있습니다. 그럼 시작해볼까요?

 

1. rvest 및 dplyr 패키지 설치 및 불러오기

먼저, 필요한 패키지를 설치하고 불러옵니다.

install.packages("rvest")
install.packages("dplyr")

library(rvest)
library(dplyr)

2. 웹페이지에서 데이터 읽어오기

'rvest' 패키지를 사용하면 웹페이지의 HTML 구조를 쉽게 파싱할 수 있습니다. 아래는 예제 코드입니다.

url <- "여기에 웹페이지 URL을 입력하세요"
web_content <- read_html(url)

3. 웹페이지에서 원하는 텍스트 추출하기

CSS 선택자나 XPath를 사용하여 원하는 텍스트를 추출할 수 있습니다. 예를 들어, <h1> 태그의 텍스트를 추출하려면 다음과 같이 작성합니다.

h1_text <- web_content %>% html_nodes("h1") %>% html_text()
print(h1_text)

4. dplyr 패키지를 사용하여 데이터 처리하기

'dplyr' 패키지는 데이터 처리에 매우 유용한 도구입니다. 추출한 텍스트 데이터를 원하는 형태로 가공할 수 있습니다.

data_frame <- data.frame(Title = h1_text)
data_frame <- data_frame %>% filter(Title != "")

5. 실행 결과 제시

위의 코드를 실행하면 웹페이지에서 원하는 텍스트를 성공적으로 추출할 수 있습니다. 결과는 다음과 같습니다.

[1] "여기에 추출된 텍스트가 표시됩니다."

 

웹 스크래핑은 다양한 분야에서 활용될 수 있는 중요한 기술입니다. R의 'rvest' 및 'dplyr' 패키지를 활용하면 이러한 작업을 더욱 쉽게 수행할 수 있습니다. 오늘의 내용이 여러분에게 도움이 되었길 바랍니다. 다음에 또 만나요!

728x90
반응형
그리드형