키노트
공공데이터의 가치 – 5년의 회고
데이터는 4차산업혁명, 인공지능을 위한 필수요소이다. 누구나 데이터의 중요성을 알고 있으며, 사회 전반에서 데이터 생태계의 중요성을 강조한다.
공공데이터는 정부가 보유하고 있는 데이터를 개방한 것이다. 우리가 생활하는 사회 전반에서 수집된 정보가 활용 가능한 데이터로 공유된다는 점에서 공공데이터의 가치는 매우 높다. 그러나, 공공데이터의 개방과 활용에 있어 비판적인 의견이 많이 있고, 경제적 가치를 만들어내는 것이 현실적인 것인지 의문이 남아 있다.
본 발표는 공공데이터에 대한 소개, 지난 5년동안 국내에서 진행된 다양한 활동, 그리고 미래 지향점에 대해 논의한다.
발표자 소개
시맨틱 웹과 기계학습과 같은 공학적 관점과 네트워크 이론, 통계학 등 인문사회 관점을 융합해 연구하는 지식공학자. 2000년 초부터 웹사이언스 워크그룹, 온톨로지 공학 연구 그룹을 통해 시맨틱 웹과 온톨로지와 관련된 다양한 활동을 했고, 오픈 날리지 코리아 (Open Knowledge Korea)를 통해 오픈 데이터 생태계를 확산하는데 노력하고 있다. 현재 한국과학기술정보연구원에 근무하고 있으며, 한국데이터사이언스학회의 회장이다.
rOpenSci: Empowering through community, software, and Peer Review
Writing code and creating software is a great way to create positive change. Learning how to write good code and software comes with many challenges: people are often learning and writing the code by themselves, they might not know where to start, or are not connected to help and resources. A positive community can provide the right support to help people overcome these challenges, so they can create positive change. In this talk, I will talk about the rOpenSci collective, a group who foster a culture and community that values open and reproducible research, shared data, and reusable software. I will discuss the vision of rOpenSci, how to engage with them, and reflect on my own experience in running rOpenSci events in Australia.
발표자 소개
Dr. Nick Tierney received his PhD in Statistics from the Queensland University of Technology, in Australia. Nick is a research fellow in statistics at Monash University, where he works with Professors Di Cook, and Rob Hyndman. Nick is passionate about getting people using the R programming language to solve real problems. His research focuses on making it easier to think about and perform analysis on difficult problems, and has created R packages naniar, and visdat to make it easier to work with missing values and explore data.
Nick is an active community member of rOpenSci, a community that develops ecosystems of open source tools, runs annual unconferences, and reviews community developed software. Nick organised the first rOpenSci unconference to held outside of Australia, the “ozunconf”, first held in 2017. The “ozunconf” is now an annual event in Australia, the third one will be held in November, 2019.
Nick is excited about teaching people R and programming, and is a software carpentry instructor trainer, and an RStudio certified Tidyverse instructor. Outside of R and statistics, Nick is a frequent rock climber, occasional guitar player, and is always up for karaoke.
안정준
서울시청 정보기획관
서울시 빅데이터 정책 및 서비스 소개
서울시의 빅데이터와 관련한 정책(개방, 분석, 활용을 위한 생태계 구축)과 실제 사례를 소개합니다. 2012년 데이터 개방 서비스를 시작했고, 2013년 빅데이터 융합/분석에 기반한 심야버스 서비스는 서울시의 대표 사례입니다. 이외에도 최근에 진행된 시스템 구축과 데이터 분석 프로젝트 사례를 공유하여 서울시가 빅데이터를 사용하여 어떤 신기술 여정(ICT Journey)을 진행해왔는지 알려드리려 합니다.
발표자 소개
지금까지 경력의 90%를 기업에서 보내왔습니다. 이후 어공(어쩌다 공무원. 늘공의 반댓말)이 되어, 서울시에서 통계데이터 담당관으로 근무하고 있습니다. 통계데이터 담당관 업무를 수행하는 저의 DNA속에는 기업의 존재 의미와 우리 삶에서 어떤 쓸모가 있는지의 고민이 깔려 있고, 그 고민의 인식 방법으로는 SCM(공급망관리)와 성과관리를 기반으로 삼고 있습니다. 현재는 내년도부터 가져갈 초대형 프로젝트의 사전 계획과 공공의 차세대 빅데이터 방향성을 고민중입니다.
데이터 분석 및 이슈
네트워크 분석 기법을 활용한 게임 데이터 분석
네트워크 분석이란 개체 간의 관계를 그래프로 표현하고 그래프의 구조적 특징을 분석하는 기법이다. 따라서 개체가 갖는 내재적 속성에 집중하는 환원주의적인 분석에서는 발견하기 힘든 특성을 파악하기에 좋은 방법이다. 네트워크 분석은 수학 분야에서 그래프의 특징을 연구하면서 시작하여, 사회 과학, 금융/경제 및 생물학 등의 학술 분야 등으로 점차 확대해 나갔으며, 1990년대 후반부터는 fraud detection 이나 텍스트 분석 및 웹 검색과 같은 실용 분야로까지 활용 범위를 크게 넓혀가고 있다.
게임 분야는 네트워크 분석의 활용성이 큰 분야 중 하나이다. 특히 가상 세계에서 전투, 사냥, 거래 등의 다양한 상호 작용과 친구, 길드, 파티 등의 사회 관계를 제공하는 ‘대규모 다중 접속 역할 수행 게임 (Massively Multiple Online Role Playing Game, MMORPG)’ 분야는 다양한 네트워크 분석 기법을 적용하기에 최적의 환경과 데이터를 제공하고 있다. 따라서 이런 정보들은 모두 네트워크 분석을 통해 유저의 행동 유형을 모델링하거나 악성 행위를 탐지하는 등에 활용되고 있다.
본 발표에서는 엔씨소프트에서 수행한 몇 가지 게임 데이터 분석 사례를 통해 어떤 네트워크 분석 기법들이 있고 이것들이 어떤 식으로 활용될 수 있는지 소개한다.
발표자 소개
엔씨소프트에서 데이터분석팀 팀장을 맡고 있으며 고려대학교 정보보보대학원에서 박사 과정을 병행하고 있다. 주로 행위 기반 유저 모델링, 이상 탐지, 악성 유저 탐지 등의 업무를 수행하고 있으며 게임 데이터가 경제 및 사회 과학 분야와 같은 현실 세계를 더 잘 이해하는데 활용되는 세상을 꿈꾸고 있다. 분석팀 기술 블로그 (https://danbi-ncsoft.github.io/)와 개인 블로그 (https://brunch.co.kr/@gimmesilver)를 운영하고 있다.
김영진
SK텔레콤
데이터 시각화 ggplot 뛰어넘기
데이터 분석 및 결과 공유 과정에서 데이터를 효과적으로 표현하고, 전달하는 것은 참 중요하다. R에 익숙한 사용자라면 ggplot2 package를 활용하여 다양한 시각화를 경험해봤을 것이다. 이 발표에서는 ggplot2 패키지의 편리함을 넘어서, 데이터의 특성에 맞는 시각화 방식을 고민하고 효과적인 다양한 시각화 방법을 전달하고자 한다.
발표자 소개
김영진은 2015년 연세대학교에서 사회학 박사학위를 취득하고, 현재 SK텔레콤에서 Data Scientist로 재직 중이다. 모바일 기술 생태계 진화, 모바일 기술 발전으로 인한 개인들의 삶과 사회의 변화 등에 관심을 갖고 다양한 분석 과제를 진행하고 있다. 저서로는 사회연결망분석(박영사, 김용학 공저)이 있다.
박민정
통계청 통계개발원
연구기획실
대용량 빈도표 제공을 위한 통계적 비밀보호 기법
통계청은 인구주택총조사 등, 몇몇 전수 자료의 빈도표를 지도위에 제공하는 통계지리정보서비스(SGIS) 시스템을 운영하고 있다. 미국 센서스국은 OnTheMap이라는 플랫폼을 통해 유사한 서비스를 제공한다. 이러한 서비스는 사용자 친화적인 방식으로 모집단 정보를 직접 파악할 수 있게 하므로 유용성이 크지만, 제공되는 빈도표 자체도 대용량으로 상세한 정보를 담고 있어 개별정보 노출위험이 높아질 수도 있다.
자료를 제공할 때 자료 유용성과 개별정보 노출위험은 서로 충돌하는 관계에 있다. 때문에 이를 극복하고 유용하면서도 노출위험이 낮은 자료를 제공하기 위한 기법 연구가 진행되어 왔다. (이를 통계적 비밀보호/노출제어 방법론이라고 부른다.) 더불어 자료 제공 방식에 있어 사용자 친화성을 확보하기 위한 노력도 활발히 이루어져 왔다. 이번 발표에서는 이러한 자료 유용성, 개별정보 노출, 사용자 친화성의 상충관계를 논의하고, 대용량 빈도표를 제공할 때 발생할 수 있는 개별정보 노출의 유형, 비밀보호 방안, 제공 범위의 한계 등을 설명한다.
대용량 빈도표 제공을 위한 구체적인 비밀보호 방안으로 BSCA 알고리즘과 OnTheMap 사례를 소개한다. 전통적인 비밀보호 방식을 매스킹(masking)이라고 부르며, 매스킹의 대안으로 최근 재현자료(synthetic data)와 차등정보보호(differential privacy)가 활발히 연구되고 있다. BSCA 알고리즘은 최근 통계청 통계개발원에서 개발한 것으로, 매스킹에 속하는 SCA(small cell adjustments)라는 일종의 반올림 기법을 활용해 만들어졌다. 이는 대용량 빈도표를 non-interactive 방식으로 제공할 때 사용하기 위한 것이다. 이를 이해하기 위해 정보손실-노출위험 패러다임의 전환도 논의한다. 한편 OnTheMap 사례에서는 LEHD 자료를 이용해 지역별 출퇴근 현황을 제공하기 위해, 재현자료와 차등정보보호를 활용하는 방법을 다룬다. 본 발표에서는 이 두 방안을 설명하고 장단점과 향후 연구 방향을 논의하도록 한다. 참고로, BSCA 알고리즘은 현재 R패키지로 개발되었고, 관련 내용은 R 패키지 개발 사례 세션에서 발표할 예정이다.
발표자 소개
박민정은 서울대학교 통계학과에서 ‘다중척도 방법론을 활용한 시계열 자료의 시간-빈도 분석’을 주제로 박사학위를 취득한 후, 통계청 통계개발원에서 통계사무관으로 근무 중이다. 현재의 주된 관심 연구 분야는 통계적 비밀보호 방안, 재현자료(Synthetic Data), 차등정보보호(differential privacy), 기타 자료 제공 관련 기법 및 시스템 구축 등이다.
R 패키지 및 서비스 개발
R 패키지 BSCA 개발 및 활용 방안
정보제공을 목적으로 대량의 빈도표를 작성해서 공개할 때, 빈도표에 나타나는 작은 빈도수로 인하여 개인정보가 노출되는 상황이 발생할 수 있다. 이런 방식의 개인정보 노출을 방지하기 위해 영국 통계청 등에서 Small Cell Adjustment (SCA) 라는 기법을 사용한 바 있다. 한편, 최근 통계청 통계개발원에서는 SCA의 단점을 보완한 Bounded Small Cell Adjustment (BSCA) 라는 알고리즘을 PSD218에서 제안했다.
본 발표에서는 BSCA 알고리즘과 이를 R패키지로 구현한 과정에 관해 소개한다. 또한, BSCA 패키지를 이용하여 빈도표를 제공할 때, 어느 정도의 개인정보보호가 이루어지며, 정보손실은 얼마나 초래하는지 여러가지 예시를 통하여 소개하고자 한다. 끝으로 개인정보보호와 정보손실을 동시에 감안했을 때, BSCA 패키지의 장점을 설명하고, BSCA를 이용해 빈도표를 제공할 수 있는 자료제공 환경에 대해 논의한다.
발표자 소개
성균관대학교에서 통계학 학사를 취득하고 현재 서울대학교 통계학과에서 석사 과정을 이수하고 있다. 현재 nonlinear dimension reduction을 이용한 추천 시스템 개발에 관하여 학위논문을 준비중이다.
module화를 통한 shiny app 개발
Shiny 는 R을 이용하여 interactive web application 을 제작할 수 있게 해주는 툴이다. 하지만 큰 규모의 shiny app을 개발하기 위해서는 shiny app의 모듈화가 필요하다. 발표자는 수년전부터 웹에서 하는 R통계(Web-r.org)를 운영하면서 shiny app을 개발해 온 경험을 바탕으로 module화를 통한 shiny app개발에 관한 강의를 할 예정이다. 강의자료는 github을 통해 공개되어 있다.(github.com/cardiomoon/shinyLecture2)
발표자 소개
문건웅은 가톨릭대학교 의과대학에서 의학박사학위를 받았으며 현재 성빈센트병원 순환기내과 교수로 근무하고 있다. R과 통계분석에 관심이 많고 2005년 “의학논문작성을 위한 R통계와 그래프”(한나래, 2015년 대한민국학술원 우수학술독서), “웹에서 클릭만으로 하는 R 통계분석”(한나래) 두 권의 책을 저술하였다. 2005년 4월부터 웹에서 하는 R 통계분석(Web-r.org) 서버를 만들어 직접 운영하고 있다. 2017년에는 Springer출판사에서 “Learn ggplot2 Using Shiny App” 을 출간하였다. 2014년부터 여러 개의 R 패키지를 만들어 CRAN과 github을 통해 배포하고 있다. CRAN에 등록된 패키지는 mycor, moonBook, ztable, ggiraphExtra, dplyrAssist, editData, ggplotAssist, webr, rrtable 등이 있으며 R과 shiny를 이용한 web application 제작에 힘쓰고 있다.
김진섭
ANPANMAN Co.,Ltd
맞춤형 의학통계 앱 제작을 위한 개발환경 구축
맞춤형 의학통계 앱 제작을 위해 (1) 도커 스웜(Docker swarm)기반의 Rstudio & shiny server 를 구축하고, (2) 의학통계 앱에 필요한 R 패키지와 shiny app. 들을 만들었습니다. 미리 Rstudio와 shiny server가 설치된 도커(docker) 이미지를 만들고 이것을 도커 스웜을 이용해 배포함으로써 서버의 종류와 갯수에 구애받지 않는 마이크로서비스 아키텍처(microservice architecture)를 구축하였으며, 동적 프록시 서버(dynamic proxy server) 프로그램인 Traefik(https://traefik.io/) 을 이용하여 서비스가 추가될 때 마다(ex: 홈페이지, Jupyter) 이에 맞추어 https 보안이 적용된 서브도메인(subdomain) 주소를 부여하였습니다. 흔히 이용되는 의학통계 방법들을 shiny app.으로 만들어 위의 환경에 배포하였으며 DT, tableone, epiDisplay, svglite 등의 기존 패키지와 자체적으로 개발한 패키지를 이용, 데이터 라벨(label) 정보가 적용된 논문용 테이블과 그림을 보여줄 수 있었습니다. 이번 발표에서는 이러한 개발 환경 구축 경험을 공유합니다.
발표자 소개
의사로서 다양한 건강 데이터를 다뤄본 경험을 바탕으로, 의학연구 활성화를 이끌고 싶습니다. 성균관의대를 졸업하고 서울대학교 보건대학원 유전체역학 연구실에서 박사과정을 수료한 예방의학 전문의로, 삼성전자 무선사업부 헬스서비스그룹에서 소프트웨어 엔지니어로 근무하며 삼성헬스앱과 갤럭시기어의 건강데이터를 분석하였습니다. 이를 통해 얻은 임상의학, 유전체, 모바일/웨어러블 데이터 분석 경험을 바탕으로 의사 등 연구자들에게 200회 이상의 통계컨설팅을 제공하였고, 18년 8월 의학연구 지원기업 Anpanman을 설립하였습니다. 18년 중소벤처기업부 주관 “창업선도대학 (예비)창업팀” 으로 선정되었으며, 심평원과 보험공단이 주최하는 “보건의료빅데이터를 활용한 창업아이디어 공모전” 에 선정되어 빅데이터 이용에 대한 지원을 받게 되었습니다.
도메인에서의 활용
데이터저널리즘이 R을 만났을 때
정보공개청구, 공공데이터를 통해 정보(데이터)의 접근 장벽이 낮아짐에 따라 데이터저널리즘의 역할이 커지고 있습니다. 기존 엑셀을 벗어나 저널리즘이 R을 만났을 때, 저널리즘은 어떻게 진화했을까요? 일례로 PDF로 제공한 고위공직자들의 재산을 CSV로 변환시켜 분석을 하거나 정보공개청구로 받은 지방의회의 방만한 업무추진비 사용 데이터를 정제하고 분석해서 불법 사용 내역을 잡아내기도 합니다. 언론사에서 많이 사용되는 차트는 어떨까요? R은 데이터에 기반한 정확한 시각화를 제공하여 독자를 왜곡시키지 않고 친절한 시각적 커뮤니케이션을가능하게 해줬습니다.
발표에서는 중앙일보 데이터저널리즘팀이 어떻게 R을 활용해 데이터저널리즘 기사를 제작하는지 그리고 어떻게 친절한 설명 중심적 차트(explanation visualization)를 만드는지 등을 소개합니다.
발표자 소개
배여운은 현재 중앙일보 데이터저널리즘팀에서 데이터를 분석하고 기사를 쓰고 있다. 현재 주된 관심사는 투명한 국회 및 지방의회를 위한 데이터저널리즘 방법론이며 데이터시각화와 디자인의 접점을 찾고 있다.
raster 패키지 등 R을 이용한 야생동물 보호구역의 기후 네트워크 변화 분석
공간정보의 증가에 따라 분석의 자동화를 위해서 R을 이용한 경험과 공간정보의 특성을 소개하고 R의 대표적인 gis 패키지 중 하나인 ‘raster’ 패키지에 대해 소개합니다. 또한 기후변화에 따른 야생동물 보호구역의 관리 방안 연구를 위해서 이용한 자료들과 분석 과정에 대해 발표하고 분석결과의 시각화를 위해서 어떠한 방법을 적용하였는지 소개하고자 합니다.
발표자 소개
우리나라와 아시아를 포함한 전지구적 단위의 환경생태보전계획을 연구하며 서울대학교 조경학과에서 학사 (2008년)와 석사 (2010년) 학위를 받고 University of California, Davis의 지리학과에서 박사 (2015년) 학위를 받았다. 2018년 9월부터 강원대학교 생태조경디자인학과에서 조교수로 재직중이며, 빅데이터와 대조적으로 공간데이터가 충분하게 구축되지 않은 지역의 생태보전계획을 위한 다각적인 방법을 모색하고 있다.
후원사 트랙
원유복
서울시청 정보기획관
통계데이터담당관
서울 생활인구 데이터 분석 사례
본 자료는 서울특별시와 주식회사 케이티 간 공동연구 결과로 서울 전역의 0~23시 매 시각별 실재 서울에서 생활하는 인구의 이동과 분포를 추정한 ‘서울 생활인구’ 작성에 관한 것.
발표자 소개
서울시 통계데이터담당관 빅데이터분석팀에서 근무하고 있는 통계, 데이터분야 전문가
R 모델을 서비스로 구성하기 위한 몇 가지 방안
R로 개발한 데이터 가공 및 분석모델을 실 시스템과 연계하기 위해서는 확장가능한 형태의 API 서버 구성이 적절할 수 있다. API를 직접 구성할 경우 확장성, 가용성, 보안성에 대한 고려가 필요하다. 본 세션에서는 서버용 솔루션인 Microsoft ML Server와 클라우드용 솔루션인 AzureML 패키지를 이용해 빠르게 API 서버를 구성하는 방법에 대해 알아본다.
발표자 소개
마이크로소프트에서 고급분석 및 인공지능 솔루션 및 플랫폼 전문가로서, 데이터 파이프라이닝, 분석모델의 개발, 그리고 서비스화를 위한 기술 플랫폼 전반에 대한 컨설팅을 수행하고 있다. 그 전에는 LG CNS에서 데이터 웨어하우징, 관리회계, 기술솔루션 벤치마킹 등을 담당하였다. 일하지 않을 때는 책을 읽거나, 아이들과 함께 하거나, 무술 수련을 즐겨한다. 주요 관심사를 Facebook Page에 공유하고 있다.
신입 분석가가 스타트업에서 살아남기 위한 노오오력
다른 분들의 발표는 “R을 활용한~”, 혹은 “통계적 ~” 이라는 수식이 붙지만 이 발표는 그렇지않다. 이 발표는 학교졸업하자마자 데이터 분석가로써 혹은 머신러닝 및 딥러닝 연구자 등으로 취업을 하게 된 분들에게 조금이나마 힘이 됐으면 하는 마음에, 그동안 어떻게 스타트업에서 살아남기위한 노력을 했는지 공유담을 발표한다. 물론 회사생활을 남들보다 잘하는 것은 아니다. 하지만 살아남기 위한 노력에는 여러가지가 있는데 그 중 어떤 마음가짐을 하고 각각의 여러가지 상황에 처했을때, 어떻게 대처했는지 참고했으면 하는 생각에 이 발표를 구성해보았다. 오랜 직장생활을 해오셨던 분들은 재미없고 감흥이 없을 것이다. 하지만 이제 막 취업을 앞둔 학생들, 그리고 현재 회사에 들어가서 고생하고 계신 여러 신입사원분들에게 작게나마 도움이 되지않을까 생각한다.
발표자 소개
2017년 1월부터 (주)애자일소다에 취업한 새내기 신입사원. 1992년 부산에서 태어났고 어렸을 때 남원으로 이사를 하였다. 수학을 좋아했고 친척이 보험계리사를 하면 어떠냐고 추천해줘서 한국외국어대학교 통계학과에 입학했다.(2011년). 하지만 한국에서 보험계리사 자격증을 따기 너무 어려웠었고 군대를 다녀오고 나서 거의 다 잊은 상태에서 학교전공만은 놓치고 싶지않아서 통계학을 계속 공부했으며, 4학년 때 학부 연구생으로써 1년을 지냈다(2016년). 졸업하기 전 최대우 교수의 제의를 받아 (주)애자일소다로 들어와서 알고리즘 개발 및 데이터 분석가로써 지내고 있다. 최근 “R과 H2O로 시작하는 머신러닝” 강의를 했었고, 현재는 판교에서 기업평가에 관련된 데이터 분석 및 모델링 프로젝트를 수행중이다.