보안뉴스 기사 크롤링하기

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

IT한다옹의 미니별

보안뉴스 기사 크롤링하기 - Python 본문

IT/Python

보안뉴스 기사 크롤링하기 - Python

IT한다옹 2017. 10. 26. 03:01

* 해당글은 개인공부자료 이거나 작업일지 입니다.

* 내용은 주로 에러, 해결사항 등 입니다.

** 혹시나 저와 같은 에러사항이 발생해서 오셨다면 도움이 되었으면 좋겠습니다. **

* 질문에 대한 답변이 없을 수 도 있습니다. *

17-10-26 작업일지

[보안뉴스 기사 크롤링하기]

[개발 환경]

OS : win10

Python 3.5.1

[설명]

보안뉴스 페이지에 있는 기사 아무거나 url을 가져온다.

해당 기사 페이지에서 기사제목, 내용, 작성날짜, 기사 관련 사진, 회사이름의 정보들을 가져올것이다.

출력 결과는 .txt로 저장하여 확인할 수 있다.

[결과]

1.첫번째 결과

2.두번쨰 결과

3.세번째 결과

[소스코드]

#http://www.boannews.com/media/view.asp?idx=57628&skind=O

#http://www.boannews.com/media/view.asp?idx=57680&kind=1

#http://www.boannews.com/media/view.asp?idx=57594&skind=O

import sys

from bs4 import BeautifulSoup

from urllib.request import urlopen

original_stdout = sys.stdout

file = open('file_171026_1.txt', 'w', encoding='UTF-8') # encoding='UTF-8' 넣었더니 UnicodeEncodeError 에러 사라짐

sys.stdout = file

url = urlopen('http://www.boannews.com/media/view.asp?idx=57628&skind=O';)

soup = BeautifulSoup(url, "lxml")

title = soup.find_all("div", {"id": "news_title02"}) #기사제목

contents = soup.find_all("div", {"id": "news_content"}) #기사내용(기사이름이 내용에 포함됨)

date = soup.find_all("div", {"id": "news_util01"}) #기사 작성 날짜

photos = soup.find_all("div", {"class": "news_image"}) #기사 관련 사진

newsCompany = soup.find_all("div", {"id": "top_logo"}) #회사 이름

#print(soup) #페이지 전체 html

print(title)

print(contents)

print(date)

print(photos)

print(newsCompany)

sys.stdout = original_stdout

file.close()

저작자표시

'IT > Python' 카테고리의 다른 글

해당 디렉터리에서 수정된 시간 별로 파일 나열하기 - Python (0)	2017.11.02

공유하기 링크

페이스북
카카오스토리
트위터

'IT/Python' Related Articles

해당 디렉터리에서 수정된 시간 별로 파일 나열하기 - Python 2017.11.02

Comments

IT한다옹의 미니별

보안뉴스 기사 크롤링하기 - Python 본문

보안뉴스 기사 크롤링하기 - Python

'IT > Python' 카테고리의 다른 글

티스토리툴바