분류 전체보기
-
내 데스크탑(windows) 외부에서 원격 접속 가능한 서버로 만들기 ( open ssh 설정, 포트포워딩 설정, 공유기 설정, 원격 접속 방화벽 )환경설정 2022. 9. 23. 01:08
1. 내 ip 확인 우선 외부에서 보이는 내 ip를 확인합니다. 1-1. Naver에 내 ip 확인 검색하면 쉽게 확인가능합니다. 1-2. 혹시 불안하시면 공유기 설정 화면에서도 확인가능합니다. (u+ 기준 공유기 설정 주소는 인터넷 창 주소에 "http://192.168.219.1/web/intro.html" 를 입력하면 됩니다) 2. 서버가 될 windows 컴퓨터에 open-ssh 설정 windows "앱 및 기능" > "선택적 기능" 선택 "open-ssh server" 설치 확인 관리자 권한 powershell 실행 $ Start-Service sshd $ Set-Service -Name sshd -StartupType 'Automatic' 위 두 명령어 실행 $ netstat -an | fin..
-
excel, csv, data frame으로 torch dataloader 만들기(BERT용)Deep learning 구현 2022. 9. 22. 00:07
1. 통으로 바꾸기 csv, excel, parquet로 된 data를 data frame 으로 읽어오기 data_train = pd.read_parquet(train_file_path)[[source_var, target_var]] lab_encoder로 label column의 데이터를 숫자화 시킴 lab_encoder.fit(data_all[target_var]) data_train[target_var] = lab_encoder.transform(data_train[target_var]) dataset의 from_pandas 이용해서 위에서 만든 data frame으로 dataset 만들기 raw_train = Dataset.from_pandas(data_train) tokenizer 사용해서 da..
-
[딥러닝] imbalanced data 학습Deep learning 2022. 9. 21. 23:38
Imbalanced data 학습 방법 기계학습 알고리즘들은 각 클래스의 비율이 비슷한 상황을 가정하기 때문에, 클래스가 불균형한 dataset의 경우 전체적인 데이터에 대해 제대로 학습하지 못하고 큰 비중을 차지하는 클래스에 편향되어 학습한다. 그 결과 정확도는 높으나 정작 원하는 항목에 대해서는 분류해내지 못하는 클래스 불균형 현상이 발생된다. 예를 들면 병원에서 암 진단검사를 받는 환자, 네트워크의 침입탐지, 은행에서의 사기 탐지와 같은 dataset에서 클래스 불균형 현상이 발생한다. 클래스의 불균형을 해소하기 위한 기법으로는 Data Resampling, K-fold cross validation, Weight balancing등이 있다. Resample the training set 불균형한 ..
-
[딥러닝] continual learning ( incremental learning, lifelong learning ) : EWC, VCL, AGS-CL, GEM, A-GEM, ER, PNN, DEN, Piggyback, CPGDeep learning 2022. 9. 21. 15:12
continual learning, incremental learning, lifelong learning 은 기술적으로 목표가 같은 learning 방법들입니다. 단어 그대로 조금씩 차이는 있지만 같은 learning 방식이라고 이해해도 괜찮아 보입니다. 이들은 공통적으로 dataset 여러 개를 순차적으로 학습하는데 (sequential learning) 학습을 진행할수록 성능이 좋아지는 good forward tranfer와 학습이 진행되더라도 이전 dataset 을 기억하는 forgetting 방지를 목표로 합니다 meta learning이나 transfer learning 과 같은 다른 learning 기법들과 혼동된다면 아래 글을 참고하면 좋습니다 https://u-b-h.tistory.com..
-
[딥러닝 vision] NeRFDeep learning 2022. 9. 21. 10:12
'NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis' 2020년 ECCV virtual object를 만들어 내는 방법 3D 물체를 보는 시점에 따라 물체를 잘 표현시켜주기 위한 방법 우리가 움직일 때마다 우리의 시점이 바뀌게 됩니다. 우리의 눈 혹은 카메라가 움직일 때마다 물체가 보이는 면이 달라지고 색도 달라기게 됩니다. 이를 잘 모델링하는 것이 어려운 문제인데 이를 하고자 시도한 것이 NERF이고 좋은 성능으로 최근 가장 핫한 모델입니다. 한 카메라 위치와 방향에서 물체가 있는 모든 pixel로 ( ex 1024x1024 pixel)로 ray를 쏩니다. 하나의 ray를 들여다보면 ray가 지나가는 곳에서 sample poi..
-
[딥러닝 경량화] 모델, 네트워크 경량화 : Quantization - PTQ, QATDeep learning 2022. 9. 3. 08:25
DNN model 크기가 커지는 것을 연산기 성능 향상이 따라가지 못하고 있습니다. 이렇게 빠르게 model이 커짐에 따라 inference, training cost가 너무 커지고 있어 이를 해결하기 위해 모델 경량화 기법들을 사용하고 있습니다. 모델 경량화 기법은 크게는 4가지로 볼 수 있습니다 pruning 0에 가까운 애들 다 지워버리자. fine grained pruning할 떄는 unstructural pruning하면 연산에서 이득이 적음.. 그래서 structural pruning을 많이 사용함 ( good for SIMD ) quantization symmetrics vs assymetric quantization ( symmetrics 이 연산이 간단 ) 극단적으로가면 BNN quant..
-
[딥러닝 NLP] 언어 표현, text embedding, representation 기존 방법 : word representation, word embedding, sentence(~document) embedding, sentence(~document) representation 에 대한 이해NLP 2022. 8. 20. 14:00
자연어 처리는 사람들이 사용하는 언어를 컴퓨터로 처리한다는 것입니다. 컴퓨터로 처리하기 위해서는 입력인 언어를 숫자로 바꾸어야 합니다. 사람들이 쓰는 언어를 컴퓨터에서 처리할 수 있는 숫자로 바꾸는 것, 더 나아가 언어를 숫자로 잘 표현해 실제 언어의 세계를 한 숫자 공간에 잘 나타내는 것을 text embedding 혹은 text representation 이라고 이해하고 있습니다. word representation one-hot encoding 우선 언어의 기본이 되는 word 표현(word embedding)에 대해서부터 설명하고자 합니다. ( 여기서는 단어보다 더 작은 의미를 갖는 단위가 될 수 있습니다. 설명하기 쉽게 word로 표현합니다. ) 단어를 가장 간단하게 숫자로 바꾸는 방법은 모든 ..
-
[딥러닝 NLP] QA system : open domain QA, close domain QA, MRC + passage retrievalNLP 2022. 8. 17. 23:14
* KAIST 서민준교수님 강의자료의 QA 부분을 공부하고, 제가 이해한대로 적었습니다. https://seominjoon.github.io/kaist-ai605/ https://u-b-h.tistory.com/9 에서 설명했던 MRC 모델과 https://u-b-h.tistory.com/10에서 설명했던 passage retrieval 모델을 합쳐 open domain QA 시스템을 만들수 있습니다. open-domain QA 모델을 만들 때 다양한 문제가 있다고 합니다. passage retriever가 reader(MRC)에게 query(question)에 가장 가까운 K개의 passage를 후보로 줄 때 문제가 있습니다. passage는 어떤 단위인지 정해야 합니다. passage를 article..