(2022-2) 빅분활 팀 프로젝트
·
PROJECT
기후변화에 따른 산림 면적 예측 1. 데이터 수집 산림면적 변화에 영향을 주는 요인 데이터 수집 데이터명 갱신연도 활용 목적 출처 국가 온실가스 배출량 주요 지표 2020년 1인당 온실가스 배출량 파악 국가통계포털 강수량 추이 2021년 연도별 강수량 파악 기상청 기상자료개방포털 기온 추이 2021년 연도별 기온 파악 기상청 기상자료개방포털 연도별 임상별 산림면적 및 임목축적 2020년 연도별 산림 면적 파악 산림청 산림임업통계플랫폼 산림 병해충 발생 및 방제 현황 2021년 연도별 산림병해충 피해 파악 산림청 산림임업통계플랫폼 산불피해현황 2021년 연도별 산불 피해 파악 산림청 「산불통계연보」 산사태피해현황 2021년 연도별 산사태 피해 파악 중앙재난대책본부 피해복구계획서 지진발생 빈도 2021년 연..
002 통계데이터센터 AI 활용대회
·
PROJECT
train data header 중 text_(something) 부분을 text라는 하나의 열로 합쳤다. text 열에서 불용어를 지우고 corpus를 만들어서 분석하여 digit_3 열을 정답으로 설정하여 model을 학습시키려고 함 이때 사용할 알고리즘을 정하지 못한 상태 NLP 자연어 분석 잠깐 읽어본 것이지만 NLP사용시 정답 레이블들의 데이터 개수가 비슷해야 좋다는 글을 봄 그래서 digit_1 과 digit_3의 histogram을 그려봄 정답별 개수의 차이가 큼 때문에 추가적인 데이터 전처리 과정이 필요하지 않을까 싶음 . . . 다른 자연어 처리 방법은 차차 찾아볼 예정 . . . test data train data에서 digit_1/2/3 부분만 없는 상태 지금까지 생각한 것으로는 t..
001 통계데이터센터 AI 활용대회
·
PROJECT
text similarity 측정을 위한 라이브러리 pip install tersorflow #텐서플로우 pip install sklearn #사이킷런 유사성 측정 방법 유클리디안 거리 변수값들의 차이를 제곱하여 합산한 거리, 다차원 공간에서 직선 최단 거리 import numpy as np #numpy사용 H = np.array([170, 65, 54, 1]) K = np.array([180, 67, 49, 0]) D = {H - K} D = D**2 D = np.sqrt(np.sum(D)) print(D) from sklearn.metrics.pairwise import euclidean_distances #sklearn사용1 # 정규화 tfidf_normalized = tfidf_matrix/np...