연구/papers (8) 썸네일형 리스트형 [논문 리뷰] End-to-end object detection with transformers 빠르게 이해하기(DETR 리뷰) Contribution 1.Transformer를 object detection에 최초로 적용 2.기존의 object detection 모델들과 달리 direct prediction이 가능하여 hand-crafted process 가 없어도 된다. 배경설명 기존의 object detection 기법들 region proposal 물체가 있을법한 영역에 bounding box를 생성하고 이후 network에서 해당 부분의 image를 분석한다. R-CNN이후 연구들에선 region proposal도 network 로 학습하는 연구를 하고있다. anchor object detection의 고질적인 문제로 1개의 grid에 여러 object가 겹쳐있을 때 해당 grid에서 여러 object를 탐지하기 어렵다는.. [논문정리] GAN의 목적함수 읽는법 GAN관련 논문들을 읽다보면 항상 나오는 수식이 있다. 다음과 같이 E와 함께 쓰인 식인데 우선 살펴보도록 하자. 논문에서 직접 말하겠지만 참고로 (1)번 수식은 loss function이 아닌 objective function이다. 손실함수와 목적함수는 비슷하지만 분명히 다른데, 손실함수가 목적함수의 특별한 케이스라고 보면 된다. 간단하게 설명하자면 손실함수는 무조건 작을 수록 좋은것이지만 목적함수는 최소화를 목표로 할 수 도있고, 최대화를 목표로 할 수도 있다. 그러나 마찬가지로 목적함수로 학습의 최적화를 위해서 존재하는 함수라는 점에서 loss function과 비슷한 부분이 있다. 다시 논문내용으로 돌아가서 (1)은 loss function이 아니기 때문에 log(D(x,y))와 log(1-D(x.. [논문정리] (AlexNet) ImageNet Classification with Deep ConvolutionalNeural Networks 이 포스트는 현재 수정중입니다. 요약 내용정리 눈여겨볼점: 1. ReLU 사용 2. GPU병렬 사용 3. Normalization 기법 4. overlapping pooling 5. overfitting을 피하기 위한 dropout 사용 [ResNet] resenet이 degradation에 robust한 이유 고찰 이 글에서는 gradient vanishing문제와 resnet이 gradient vanishing문제에 robust한 이유에 대해서 고찰하였다. plain net 일반적인 plain net에서 backpropagation문제는 다음과 같이 수식으로 나타낼 수 있다. 그리고 위 그림과 수식을 참고하면 gradient는 앞 layer에 의존적이라는 것을 직관적으로 이해할 수 있다. gradient vanishing문제는 이렇게 설명할 수 있다. 앞 layer에서의 backpropagation 결과가 0이 가깝다면 그 뒤는 자연스럽게 모두 0에 가까워질 수 밖에 없다. 만약 위의 수식에서 dx4/dz3 가 0에 가깝다면 수식 전체는 반드시 0으로 수렴한다. 그러나 resnet에서는 다음과 같이 network.. [논문 정리] Pose Machines: Articulated Pose Estimation via Inference Machines 이전까지는 graphical models에 근간하여 사람의 pose estimator를 만들었으나 카네기멜론에서 제안하는 새로운 방식은 이전의 방식에서 벗어나 새로운 method를 제안한다. Introduction 사람 관절 추정의 어려움, 기존 모델 설명, 이 논문에서 사용하는 모델의 특징 간단 소개 사람의 관절 추정이 어려운 가장 큰 두가지 이유는 다음과 같다. 사람 관절의 자유도가 높다. 거의 20자유도 가까이 된다. 이미지에 찍힌 사람에 대한 변수가 많다.(사람의 자세, 이미지의 상태 등) 기존의 graphical model의 단점은 간단히 말하자면 데이터의 complexity와 tractability of inference의 관계가 trade off 관계라는 것이다. 사람이 다양한 자세를 취하더.. [CPM 논문 정리] Convolutional Pose Machines abstract 요약 belief map, 즉 confidence map에 동작시키는 convolutional networks를 기존의 구조(pose machine)에서 추가하였고, 이로 인해 각 part 좌표를 탐지하는 성능이 좋아졌다고 한다. 또한 기울기 소멸 문제에 대해 설명하는데 중간 지도자의 역할을 하는 natural learning objective function을 제공함으로 써 기울기 소멸문제를 해결했는데 이에 대한 설명이 주를 이룰 것으로 보인다. 정리하기 전에 일단 이해한 내용들 적어놓기 1. 찾기 쉬운 영역을 찾고 그 part가 제공하는 spatial context으로 인해서 찾기 어려운 part를 쉽게 찾을 수 있게된다. 예) 목, 어깨, 머리를 찾으면 ==> 오른쪽 팔꿈치를 찾기 .. [논문 정리] openpose 이해를 위한 개념 간단 정리 openpose의 전체적인 system architecture 전체 시스템 개요를 보도록 하자. 이미지파일을 VGG망의 input으로 넣는다. 여기서는 stage들어가기 전에 F라고 표현된 것이 VGG망의 일부이다. VGG망을 거치면 이미지 파일에서 features가 강조되어 나오는데 이 output을 2개로 분할하여 stage에 있는 각각의 branch에 input으로 넣는다. 여기서 branch1은 confidence map을 예측하는 망을 의미하고 branch2는 affinity field를 예측하는 망을 의미한다. 각각이 의미하는 바는 아래에서 설명하도록 한다. 각각의 branch를 거쳐서 나온 결과물들은 합쳐서 이전에 만든 features와 함께 다음 stage로 분기되어 들어간다. 이 과정을 .. [논문정리] Efficient Online Multi-Person 2D Pose Tracking withRecurrent Spatio-Temporal Affinity Fields 본 논문은 2d카메라를 통해 사람의 skeleton을 따는, 즉 3d pose와 motion을 잡아내는법에 대한 논문이다. online tracking 에서 충족되어야 하는 3가지 사항이 있다. occlusion, proximity, contact 문제를 극복해야 한다. 즉, 사람간의 근접, 접촉문제와 사람으로 인한 관절 가려짐 현상에 대한 극복을 말한다. 사람 수가 늘어도 런타임에 문제가 안생기고 실시간성이 보장되어야 한다. 즉, 연산량이 적어야한다는 뜻 카메라의 큰 모션, frame간의 동작흐림효과에 대해서도 강한 성능을 보여야 한다. TAF, PAF개념 이 논문은 TAF(Temporal Affinity Fields)방식를 제안하는데 TAF는 PAF방식에 근간한다. PAF란 Part affinity .. 이전 1 다음