본문 바로가기

AI 및 Data Analysis66

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unlaarxiv.org  IntroductionBERT 이.. 2025. 1. 31.
InstructPix2Pix: Learning to Follow Image Editing Instructions https://arxiv.org/abs/2211.09800 InstructPix2Pix: Learning to Follow Image Editing InstructionsWe propose a method for editing images from human instructions: given an input image and a written instruction that tells the model what to do, our model follows these instructions to edit the image. To obtain training data for this problem, we combine thearxiv.orgBackgroundDiffusion Model,Conditional .. 2025. 1. 31.
Language Models are Few-Shot Learners https://arxiv.org/abs/2005.14165 Language Models are Few-Shot LearnersRecent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fiarxiv.org 2020년도에 출현한, GPT-3 버전이 담고 있다.파라미터와 모델이 점점 커지기에, 이를 막고 효율적인 성능을.. 2025. 1. 31.
[Reinforcement] Temporal-Difference RL (Bootstrapping Approaches) Target Value인 Gt는 R(t+1) + γV(S(t+1)) 로 된다. episode를 모두 다 처음에 생성하는 것이 아니라, S0에서 시작하여,A0를 뽑고 그에 대한 R(t+1)과 S(t+1)을 받고, 그 다음 V를 예측한다.이 과정을 반복하며, 전체 V를 알아나가게 된다. 즉, Monte Carlo는 모든 과정을 다 받아오고 시작하고,Temporal-Difference Learning은 예측값을 갱신하며 한 스텝씩 나아간다.SARSA : 상태(St), 행동(At), 보상(R_{t+1}), 다음 상태(St+1), 다음 행동(At+1) 2025. 1. 25.
[Off-Policy Learning] 개념 Off-Policy LearningOn-policy ⇒ ExploitationLearning fastBut may miss the best policy in a long run결과가 잘 나온 곳 근처만 계속 판다.Off-policy ⇒ ExplorationLearning slowExplore diverse actions for finding the best policy.다양한 곳을 다 판다.E [x^2] Following Laplace Distribution1. 중심 극한 정리 : 가우시안 분포를 따르는 샘플을 추출.2. 이후, 해당 값x는 우리가 원하는 분포(빨간색 그래프) y값 만큼의 가중치를 준다.3. 그럼, 빨간색 분포를 다르는 샘플을 얻을 수 있다.비교적 안정적이고 정확한 Policy가 나온다. 2025. 1. 24.
[PDFMathTranslate] 영어 논문 번역하는 방법 PDFMathTranslate는 (수학) 논문 PDF를 번역하고, 원본 문서와 번역된 문서를 비교할 수 있는 기능을 제공합니다. 특히 수식, 차트, 목차, 주석 등 원본의 구조를 유지하면서 번역 결과를 제공하고 있어 수학 분야를 비롯한 자연 과학 분야의 논문들을 번역하기에 좋습니다. 다양한 언어 및 외부 번역 서비스 등을 지원하며, 명령줄 도구, GUI, Docker 환경 등 다양한 방식으로 활용할 수 있습니다. https://github.com/Byaidu/PDFMathTranslate GitHub - Byaidu/PDFMathTranslate: PDF scientific paper translation with preserved formats - 基于 AI 完整保留排版的 PDFPDF scientifi.. 2025. 1. 24.