IT한다옹의 미니별

보안뉴스 기사 크롤링하기 - Python 본문

IT/Python

보안뉴스 기사 크롤링하기 - Python

IT한다옹 2017. 10. 26. 03:01

 * 해당글은 개인공부자료 이거나 작업일지 입니다.

* 내용은 주로 에러, 해결사항 등 입니다.

** 혹시나 저와 같은 에러사항이 발생해서 오셨다면 도움이 되었으면 좋겠습니다. **

* 질문에 대한 답변이 없을 수 도 있습니다. *






17-10-26 작업일지

[보안뉴스 기사 크롤링하기]  

[개발 환경]
OS : win10
Python 3.5.1

[설명]
보안뉴스 페이지에 있는 기사 아무거나 url을 가져온다.
해당 기사 페이지에서 기사제목, 내용, 작성날짜, 기사 관련 사진, 회사이름의 정보들을 가져올것이다.
출력 결과는 .txt로 저장하여 확인할 수 있다.


[결과]




1.첫번째 결과



2.두번쨰 결과



3.세번째 결과



[소스코드]


import sys
from bs4 import BeautifulSoup
from urllib.request import urlopen

original_stdout = sys.stdout
file = open('file_171026_1.txt', 'w', encoding='UTF-8') # encoding='UTF-8' 넣었더니 UnicodeEncodeError 에러 사라짐
sys.stdout = file


soup = BeautifulSoup(url, "lxml")

title = soup.find_all("div", {"id": "news_title02"}) #기사제목
contents = soup.find_all("div", {"id": "news_content"}) #기사내용(기사이름이 내용에 포함됨)
date = soup.find_all("div", {"id": "news_util01"}) #기사 작성 날짜
photos = soup.find_all("div", {"class": "news_image"}) #기사 관련 사진
newsCompany = soup.find_all("div", {"id": "top_logo"}) #회사 이름


#print(soup) #페이지 전체 html
print(title)
print(contents)
print(date)
print(photos)
print(newsCompany)

sys.stdout = original_stdout
file.close()


Comments