김도훈 님이 쓰신 글 :
: 안녕하세요, 김도훈이라고 합니다.
: 제가 프로그램을 짤려고 하는데, 목적은 html, xml 문서를 읽어들여서 원하는 스트링만 추출한 뒤, DB에 저장하는 프로그램을 짤려고 합니다.
: 사실 학교에서 쉬운 프로그램만, 생각해야 하는 프로그램만 구현을 하다가 막상 여러가지 skill이 필요하니깐, 무엇을 알아야 하는지도 잘 모르겠군요.
:
: 제 생각에는 문서를 읽어들여 텍스트 파일로 저장한 뒤, 파일에서 스트링을 처리하는 프로그램을 짜서 DB에 저장하면 되지 않을까, 하거든요(실 문서를 읽어들이는 법도 모르고, DB에 저장하는 법도 모릅니다. 책 보고 공부해야지요).
:
:
: 제가 무엇을 알아야 하는지에 대해 조언 부탁드립니다.
: 웬만하면 C++상에서 구현할려고 하구요, vc++과 같은 툴은 사용하지 않으려고 하거든요.
: 하지만 무엇이든 좋으니, 조언 기다리겠습니다.
: 그리고 친구가 문서를 파싱해야 한다고 하는데, 꼭 파싱을 해야 하는지도 알려주십시요, 하면 편하단건지 아니면 꼭 해야 하는지...
안녕하세요 만해입니다.
흐 이런 질문은 BCB쪽에 하는게 더 나은것 같은데
우선 몇가지만 애기 드리면요
XML의 경우에는 파싱이 너무 쉽습니다. 왜냐면 파서가 있거든요 그것도 몇개나
그래서 그냥 쓰면 되요
그리고 빌더 6에도 파서가 있고요
그런데 HTML은 좀 파싱이 어렵습니다.
HTML문서를 어느정도 문법에 맞춰서 코딩이 되어진 사이트도 많지만,~
전혀 문법이란걸 무시하고 만들어 놓은 사이트도 있어서
HTML 문서의 경우에는 직접 스트링으로 연산을 해야 합니다.
좀 빡세요
저도 이걸 정규표현식이나 Lex 같은걸로 해결해 볼려고 했는데
HTML이 워낙 이상하게 만든데가 많아서
포기 했고요
그냥 스트링으로 연산 했답니다. 좀 느리지만
인터넷에서 HTML문서를 받아 오는 부분은
여기 BCB 팁란에 있는 임프님의 GetHTTP 부분을 이용 하시면 됩니다.
그리고 조금 허접 하지만 제가 만든 프로그램 소스를 여기 올렸거든요
참고 하세요
http://www.borlandforum.com/impboard/impboard.dll?action=read&db=free&no=5987
그럼 이만~