DRAFT‎ > ‎

국회의원 활동 통계 자동화

http://watch.peoplepower21.org/ 에서 보여주는 통계들을 자동화하는 계획.

정치 사안에 대한 국회의원들의 발언이나 행동이 있을 때 이전이나 이후의 행적에 대해 잘 알지 못하고 해당 사안에 대해서만 논란이 되는 경우가 많다. 그리고 금새 사그라든다. 이것은 국회의원의 활동에 대한 지속적인 감시가 부족하기 때문이며 단순히 다양한 정보를 공개하는 데 그치지 않고 능동적으로 해석을 제공할 필요가 있다.

국회의원의 활동은 모두 국회 사이트에서 PDF 등으로 공개되고 있으므로 PDF를 역으로 해석해 텍스트를 추출한다면 적절한 인덱싱 과정을 통해 각 국회의원이 어떠한 의안을 내고 어떤 법률을 두는지 추적하고 나아가 국회 의안공동발의 경향 같은 것도 확인할 수 있을 것이다.

요구사항

  • 국회의원별로 상정법안 정리하고, 해당법안에 대한 성향 분리, 분석 등
  • 법안 상정 의원 명단이나 회의록에 등장하는 빈도
  • 지역별로 의원의 활동및 출석현황
  • 단, 선거와 관련될 수 있는 공약 등에 대한 추적은 관련법에 저촉될 여지가 있으므로 재고할 필요가 있다.

방법

  1. PDF 입수 : likms.assembly.go.kr 에서 국회 활동 전반에 대한 기록을 제공한다. (법률, 예.결산, 국감, 의안, 회의록 중에서 법률은 의안의 결과물이라서 제외해도 될 것 같다.)
    1. PDF 입수를 위해 사이트 페이지를 정기적으로 확인, 갱신됐을 경우 웹페이지를 가져와 파일을 확보한다.
    2. 의안의 경우 처리의안과 계류의안으로 나뉘어서 최신목록이 제공되므로 따로 처리해야 할 것이다. 왜 그렇게 나뉘는지는 정확히 모르겠다.
  2. 텍스트 추출 : xpdf, poppler 등 사용. reportlab은 생성 전용. iText-Jython?
  3. 추출 시에는 pdftotext의 결과물을 사용하는 방법도 가능하겠으나 일부 문서에서 서식이 깨지면서 문장 순서가 헝크러져 문맥을 따라 발언자를 특정하는 등의 동작이 불가능한 경우가 있어 가급적 API 수준에서 바로 접근해 문맥을 유지할 필요가 있다.
  4. 처리
    1. 각 국회의원의 등장 빈도
    2. 동시등장 빈도
    3. 동시등장 빈도에 따른 군집화 및 군집분석
    4. 의안 등의 내용에 따른 성향 파악 : 자연어처리를 통해 어휘를 파악하고 각 어휘의 성향 점수(미리 구축 필요)를 통해 성향지도의 어디에 속하는지 파악.

Comments