오늘이라도

36. 외부 API ② : Jericho HTML Parser 이용하기 본문

취업성공패키지 SW 개발자 교육/Java

36. 외부 API ② : Jericho HTML Parser 이용하기

upcake_ 2020. 4. 8. 19:07
반응형

https://github.com/upcake/Class_Examples

교육 중에 작성한 예제들은 깃허브에 올려두고 있습니다. 

gif 파일은 클릭해서 보는 것이 정확합니다.


 - Jericho HTML Parser를 이용하려면 먼저 API를 다운로드를 해야 한다.

 - https://sourceforge.net/projects/jerichohtml/

 - 다운로드한 API를 프로젝트에 등록해준다.

 

 

▲예제 1. 특정 홈페이지에서 매일 갱신되는 데이터 가져오기

① 데이터를 가져오고자 하는 url을 String 타입 변수 address에 담는다.

② try - catch문을 작성하고 address를 매개 변수로 받는 URL 클래스 객체를 생성한다.

③ url을 매개 변수로 받는 Source 클래스 객체를 생성한다. Source 클래스는 jericho html parser에서 제공하는 클래스이다.

④ source객체에서 해당하는 HTML element를 모두 가져오는 getAllElements 메서드를 이용해서 가져오고자 하는 데이터의 상위 태그를 지정한 뒤 Element를 제네릭스로 갖는 list에 담는다.

⑤ list에 담긴 내용을 담을 문자열 변수를 만든다.

⑥ list의 크기만큼 반복하는 for문을 작성한다.

⑦ list의 i번지 값마다 getContent() 메서드를 적용하고 문자열로 바꾼 뒤 이것을 String 타입 변수 data에 담는다. getContent() 메서드는 jericho html parser에서 제공하는 메서드이다.

⑧ contains() 메서드를 이용해 찾는 데이터를 포함하는 데이터를 가져오고 이것을 ⑤에서 만든 문자열 변수에 담는다.

⑨ indexOf() 메서드와 substring() 메서드로 필요한 부분만 필터링한다.

⑩ 원하는 양식에 맞춰 출력한다.

※ 데이터를 가져와서 변수에 담은 뒤에는 출력문을 이용해서 맞게 가져왔는지 틈틈이 확인한다.

 

 

▲문제. 다음 인기 검색어 가져오기

 

반응형

'취업성공패키지 SW 개발자 교육 > Java' 카테고리의 다른 글

38. JDBC ②  (0) 2020.04.14
37. JDBC ①  (0) 2020.04.14
35. 외부 API ①  (0) 2020.04.07
34. Networking ②  (0) 2020.04.03
33. Networking ①  (0) 2020.04.02