본문 바로가기

CODE97

[3조 NLP 보고서] 영화 리뷰 감성 분석 3조: 김도균 김예원 정원준 0. 분석 배경https://dacon.io/competitions/official/235864/data 데이콘 [영화 리뷰 감성분석 AI해커톤] 1. 분석 목적긍정 혹은 부정으로 분류되는 네이버 리뷰 데이터를 통해 영화 리뷰의 감성(긍정/부정)을 분류 2. 데이터 설명(1) ratings_train.csv: 영화 리뷰 데이터id: 각 리뷰를 구분하는 고유 IDreview: 영화 리뷰 텍스트label: 리뷰의 감성 라벨0: 부정적 리뷰1: 긍정적 리뷰(네이버 영화 리뷰 데이터는 실제 네이버 영화에 사용자들이 남긴 리뷰를 가공한 데이터입니다.)데이터 출처 : https://github.com/e9t e9t - Overviewdata hacker; loves geeks, smil.. 2024. 12. 8.
[1조] 엑소브레인 데이터셋을 활용한 글로벌 역사 및 대중 문화 MRC 모델 개발 1조: 남유한, 오소민,임현우.최민슬1. 주제엑소브레인(Exobrain) 데이터셋을 활용한 글로벌 역사 및 대중 문화 MRC 모델 개발※ 본 티스토리 프로젝트 내용은 ETRI API 인증을 받아 학습 목적으로 사용되었으며, 동아리 활동 중 MRC 프로젝트 학습을 위해 작성되었고, 상업적 용도로 사용되지 않음을 명확히 밝힘. 코딩 파일    2. 주제 선정 배경선정한 엑소브레인 데이터셋은 한국의 역사와 문화뿐만 아니라 다양한 나라의 정보도 포함하고 있어, 글로벌 상식을 포괄하는 모델을 만들 수 있는 귀중한 자료였다. 따라서, 이 자료를 활용해서 글로벌화된 현대 사회에서 한국뿐만 아니라  전 세계 역사, 대중문화, 사회적 사건에 대한 포괄적이고 정확한 이해를 구현하는 MRC 모델을 구축하고자 했다. 엑소브레.. 2024. 12. 8.
2조 NLP 자유주제 프로젝트(MRC) 2조 : 박세연, 오현정, 임규민, 최준헌 1. 주제 : 주제: 행정 문서에 대한 기계독해 모델 개발1-1. 주제 선정 배경행정 문서는 복잡한 용어와 형식 때문에 일반 시민들이 이해하기 어려운 경우가 많습니다. 정부와 시민 간의 원활한 의사소통은 행정 문서의 이해를 기반으로 하며, 이를 통해 복지 혜택 신청, 민원 처리, 세금 신고 등의 행정 서비스 이용이 원활해집니다. 하지만 행정 문서의 내용이 시민들에게 친숙하지 않으면 행정 서비스의 이용이 어렵고, 불필요한 시간과 비용이 발생하게 됩니다. 이 프로젝트에서는 행정 문서 데이터를 기반으로 MRC 모델을 학습시키고, 사용자가 행정 문서에 대해 보다 정확하고 빠르게 이해할 수 있도록 돕는 솔루션을 개발하고자 합니다. 2. 분석 과정import jsonimp.. 2024. 12. 4.
[2조] 자연어처리 강의 1~4주차 정리 보고서 기존의 자연어 처리 기법Bag-of Words-딥러닝 기술이 적용되기 이전 많이 사용되던 기법으로, 문장 내 단어들을 하나의 원소로 이해하여 정리하는 방법이다.-워드별로 가방을 준비하고, 특정 문장에서의 워드들을 순차적으로 해당하는 가방에 넣어준 후, 각 가방들의 워드의 수를 세서 벡터로 나타낸 것이라고 보면 된다.-Bag of Words는 NaiveBayes Classifier로 정리할 수 있다. Bag-of Words에 필요한 사전 정리, One-hot 벡터 -카테고리들을 one-hot 벡터로 정리 -단어가 3개면 3개의 one hot 벡터로 정의하며, 모든 단어가 동일한 관계로 이루어진다. Bag-of Words 예시'CODE is Good Good' One-hot vectors: CODE=[1 0.. 2024. 11. 4.