대회 설명
🎇 AI SPARK 챌린지란?
‘연구개발특구 인공지능 경진대회 AI SPARK 챌린지’는 데이터 활용 및 인공지능 기술에 관심있는 전국민을 대상으로 특구기업의 문제 해결을 지원하고자 마련된 사업으로, SPARK는 “사회현안 및 스타트업(Social & Startup)의 문제(Problem)를 인공지능 기술(AI) 기반으로 풀어내(Resolve) 해결책(Key)을 찾는다”는 뜻과 산·학·연 전문가들의 집단지성이 불꽃(SPARK)을 일으켜 새로운 혁신을 창출한다는 의미를 가지고 있습니다.
이번 3회 챌린지에서는 특별히 연구개발특구 내의 정부출연연구기관에서 공개하고 있는 다양한 데이터들을 활용하여 사회 전반에 걸친 문제들을 발굴하고 해결하는 기회의 장을 제공하고자 합니다 🙂
1. 참가접수 및 예선
- 본 대회에서 제공되는 정부출연연구기관들(출연연)의 데이터를 살펴본다.
- 제시된 데이터 중 최소 1개 이상의 기관 데이터를 활용하여 사회적으로 해결할 만한 가치가 있는 문제를 발굴한다. (2개 이상의 기관 데이터를 융합하여 활용하면 가산점)
- 문제와 더불어 해당 문제를 해결할 수 있는 독창적인 아이디어를 녹인 AI 기반 서비스 기획안을 아래 서식에 설득력있게 작성하여 아래 메일로 제출하면 참가접수 완료!
2. 서류심사 결과 발표
- 접수된 참가지원서 중 심사평가위원에 의해 본선에 진출할 15개 팀 선발
3. 본선
- 작성한 기획안을 토대로 각 팀이 발굴한 문제를 해결할 수 있는 방법에 대한 기획안 발표자료 작성
- 문제 해결 방법 중 하나로 AI 알고리즘을 개발하는 경우, 알고리즘에 대한 평가 메트릭과 알고리즘을 개발하면 가산점 부여. 이 경우 y값을 설정한 이유와 평가 메트릭을 설정한 이유를 반드시 발표평가에서 제시 및 설명할 수 있어야 함. (단, 코드는 심사 외의 용도로 외부에 노출되지 않음)
- 평가 메트릭 구현: 2점
- 알고리즘 개발: 2점
- 리더보드 제출 1회 이상: 2점
- 단, 스코어가 없거나 0점인 경우 불인정
- 예선 통과팀에게는 알고리즘 성능 테스트가 가능한 인공지능팩토리 리더보드 플랫폼을 제공함. 리더보드 활용 가이드는 본선 진출팀 발표 후 제공함
- 기획안 제시 시 참가팀이 추가로 제출하는 알고리즘은 다음 조건에 부합해야 함
- 머신러닝, 딥러닝 등 데이터 학습 기반의 알고리즘 탑재
- 제공되는 범주 내에 데이터를 학습에 사용되어야 함 (단순한 활용이 아닌, 모델 개발에 직접적인 input 필요)
4. 발표평가
- 실시간 온라인 발표평가 방식으로 진행 (구글밋으로 진행 예정)
- 발표평가 및 질의응답 시간을 포함하여 최대 20분 동안 진행
- 데이터 분석력, 데이터 활용성, 문제해결력, 독창성, 구현 가능성 등을 고려하여 각 데이터 유관부서 전문가 및 기획 전문가 등으로 구성된 심사위원단의 정성평가로 최종 입상팀 선발
내 역할
맡은 역할: 팀장
[핵심내용]
배달 리뷰에 대한 분석 후 자영업자에게 피드백을 제공하고 날씨 데이터와 연동해 예상 매출, 사업 방향성을 제공한다. 또한, wordcloud를 통해 리뷰의 가시성을 높인다.
[상세내용]
ㅇ 활용 데이터 및 AI 모델 :
-
etri 나눔 AI 플랫폼 내 ‘카페 배달 리뷰 데이터셋’을 활용한 자영업자를 위한 사업 방향성을 제공하는 모델을 개발한다. etri 나눔 AI 플랫폼 내 ‘챗봇-대화 데이터셋’ 중 AiHub 한국어 대화 데이터를 활용한다. 대화 데이터 중 소상공인의 데이터 중 적합한 데이터와 크롤링한 요기요 데이터셋의 리뷰를 조합해 pre-trained model을 만든다. 이후 카페 배달리뷰 데이터셋으로 fine tuning을 하여 높은 정확도의 모델을 구현한다.
-
배달 리뷰 데이터를 기반으로 긍정적인 리뷰와 부정적인 리뷰를 분류해 word cloud를 통해 시각화하여 어떤 방향으로 사업을 추진하면 좋을지 한 눈에 제공한다.
-
etri 나눔 AI 플랫폼 내 ‘카페 배달 매출데이터 (코로나 현황과 날씨 데이터)’ 와 요기요 앱에서 크롤링한 데이터를 전처리한 후 날씨와 매출률의 관계를 도출한다. 높은 매출을 보인 음식의 정보를 제공하여 해당 날짜의 식재료 준비를 도와준다.
-
‘카페 배달 리뷰 데이터셋’과 ‘카페 배달 매출데이터’를 merge하여 해당 음식에 대한 리뷰와 매출 정보를 동시에 사용한다. 해당 데이터들은 날짜 인덱스를 기준으로 일치하는 값끼리 묶어 활용한다.
ㅇ 세부내용
- 사업 추천 모델을 구현하기 위해 먼저 사용자의 사업 분야를 입력받는다. 해당 분야에 맞는 구체적인 추천 모델을 제공한다.
- 사업 분야 선택에 따라 기존에 분석한 데이터의 결과를 보여준다. 첫 번째 모델은 개선점과 칭찬할 점을 추천한다. 리뷰 데이터를 통해 긍정적인 리뷰와 부정적인 리뷰를 분류해 소비자들의 만족도를 한눈에 보여준다. 두 번째 모델은 날씨에 따른 식재료 준비를 도와준다. 앞서 선택한 사업분 야에 초점을 맞추어 해당 날씨에 높은 매출을 기록한 카테고리의 음식명을 추출한다.
PT: 발표평가
발표 질문
발표 후 아래와 같은 실시간 질문들이 들어왔다.
❔ 기상청 데이터셋 어느식으로 merge했는지
요소에따라 sum,평균내는 등 적절한 매트릭 사용
❔ 기상청 데이터셋의 시간대 어떻게 조정했는지
etri를 기중으로 일별로 merge
❔ 긍부정으로 이진분류한이유
목적이 부적키워드 추출을통한 개선점 도출이기 때문에 굳이 다중분류할핑료 없다고 생각했다
답변: 오 그런가요 그럼 긍부정도 12345가 있으니 가중치를 부여해주면 좋겠네요
❔ 더 필요한 데이터셋?
매출데이터에서 메유가 자세히 안나와있어 메뉴를 구체적으로 추천해주지못했가 메뉴데이터셋까지 추가해주면 좋을것같다
그리고 긍부정 데이터셋에서 부정데이터가 너무 없었다 데이터 불균형 해결해줬으면 좋겠다