IT한다옹의 미니별
보안뉴스 기사 크롤링하기 - Python 본문
* 해당글은 개인공부자료 이거나 작업일지 입니다. * 내용은 주로 에러, 해결사항 등 입니다. ** 혹시나 저와 같은 에러사항이 발생해서 오셨다면 도움이 되었으면 좋겠습니다. ** * 질문에 대한 답변이 없을 수 도 있습니다. * |
17-10-26 작업일지
[보안뉴스 기사 크롤링하기]
[개발 환경]
OS : win10
Python 3.5.1
[설명]
보안뉴스 페이지에 있는 기사 아무거나 url을 가져온다.
해당 기사 페이지에서 기사제목, 내용, 작성날짜, 기사 관련 사진, 회사이름의 정보들을 가져올것이다.
출력 결과는 .txt로 저장하여 확인할 수 있다.
[결과]
1.첫번째 결과
2.두번쨰 결과
3.세번째 결과
[소스코드]
import sys from bs4 import BeautifulSoup from urllib.request import urlopen original_stdout = sys.stdout file = open('file_171026_1.txt', 'w', encoding='UTF-8') # encoding='UTF-8' 넣었더니 UnicodeEncodeError 에러 사라짐 sys.stdout = file soup = BeautifulSoup(url, "lxml") title = soup.find_all("div", {"id": "news_title02"}) #기사제목 contents = soup.find_all("div", {"id": "news_content"}) #기사내용(기사이름이 내용에 포함됨) date = soup.find_all("div", {"id": "news_util01"}) #기사 작성 날짜 photos = soup.find_all("div", {"class": "news_image"}) #기사 관련 사진 newsCompany = soup.find_all("div", {"id": "top_logo"}) #회사 이름 #print(soup) #페이지 전체 html print(title) print(contents) print(date) print(photos) print(newsCompany) sys.stdout = original_stdout file.close() |
'IT > Python' 카테고리의 다른 글
해당 디렉터리에서 수정된 시간 별로 파일 나열하기 - Python (0) | 2017.11.02 |
---|
Comments