개발 공부 4

평가지표(1) - Accuracy, Recall, Precision, F1 Score, F beta Score

인공지능에서 Metrics는 해당 모델의 성능을 판단하는 평가 지표를 말한다. 이를 계산하는 방법이 꽤 다양한데, 그렇기 때문에 어떤 모델이냐, 어떤 문제냐에 따라 적절한 metrics를 사용해야 한다. 그 중 대표적인 Metrics 몇가지를 정리해 보려고 한다. 우선 비가 오는지 안오는지를 맞추는 경우를 생각해 보자. 비가 오면1 오지 않으면 0이다. Confusion Matrix Predicted Positive (1) Negative (0) Actual Positive (1) True Positive (TP) False Negative (FN) Negative (1) False Positive (FP) True Negative (TN) TP : 실제로 비가 왔고 (Actual Positive) 모델..

[Selenium] 셀레니움으로 네이버 뉴스 크롤링 하기

전체 코드는 아래 깃헙 사이트에 올려두었습니다. https://github.com/chaehyun29/myRepository/blob/main/DmcProject/Crawling/crawling_naver_news GitHub - chaehyun29/myRepository Contribute to chaehyun29/myRepository development by creating an account on GitHub. github.com 프로젝트 중 필요한 데이터를 모으기 위해 Selenium을 이용하여 네이버 뉴스를 크롤링 하기로 했다. 가지고 있는 기본 기업 리스트 데이터 중 기업 명을 네이버 뉴스에 검색하여 뜨는 뉴스 중, 네이버 뉴스로 연결 되는 링크만 들어가서 뉴스 제목, 시간, 본문, 해당 ..

분류와 회귀 (Classification & Regression) 그리고 최적화 알고리즘 Optimizer

이곳은 제가 개인적으로 공부한 내용을 올리는 공간입니다. 글의 정보가 정확하지 않을 수 있습니다. 틀린 점을 알려주신다면 정말 감사하겠습니다. 머신러닝을 활용하는 문제는 크게 두가지다. 분류문제와 회귀문제. 예측하려는 값이 어떤 카테고리 안에 들어가는 값이면 분류(Classification)이고, 연속되는 값이면 회귀문제이다. 쉽게 말해 티셔츠를 보여주고 흰색인지 검정색인지 파란색인지를 맞추는 거라면 분류, 내년 1분기 코스피 지수를 예측하라고 하면 회귀문제이다. 내년 1분기 코스피 지수를 예측하라는 문제를 가정해보자면,(정말 예측한 것이 아니고 바램을 담았다.) 4312.76 과 같은 값, 즉 연속값이 나오게 되는 게 회귀문제라 할 수 있다. 분류 Classification 티셔츠 색을 맞추는 문제를 ..

CNN을 이용한 텍스트 분류

개인적으로 공부한 내용을 정리하여 작성하는 글입니다. 내용이 틀릴 수 있으니 참고 바랍니다. 수정할 오류가 있다면 알려주시면 정말 감사하겠습니다! 전체 코드는 아래 Github주소에서 확인할 수 있습니다. https://github.com/chaehyun29/MLDL/blob/main/rnn_text_classification.ipynb GitHub - chaehyun29/MLDL Contribute to chaehyun29/MLDL development by creating an account on GitHub. github.com 데이터 셋 작업 전 우선 어휘 사전의 크기 와 임베딩 사이즈를 지정해준다. VOCA_SIZE = 10000 # 어휘 사전의 크기 EMBEDDING_SIZE = 64 # 단어..

반응형