| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
Tags
- cpp
- 다이나믹 프로그래밍
- 컴퓨터비전
- 2018 KAKAO BLIND RECRUITMENT
- 백준
- 동적계획법
- level2
- 그리디
- java
- Stack
- lv2
- 임베디드
- kotlin
- 최적화
- level3
- 누적합
- 이분탐색
- 코틀린
- 다이나믹프로그래밍
- 컴퓨터 비전
- 자바
- 우선순위큐
- dp
- BFS
- c++
- dfs
- JavaScript
- 프로그래머스
- C
- 구현
Archives
- Today
- Total
코드를 느껴바라
컴퓨터 비전 : 인식 (Recognition) 본문
1. 인식이란?
인식은 컴퓨터 비전의 핵심 과제로, 영상 속 객체가 무엇인지 판단하는 과정을 의미한다.
이는 카메라 앞의 사람이 누구인지, 어떤 사물이 보이는지, 어떤 동작을 하고 있는지를 자동으로 판별하는 것을 포함한다.
2. 인식의 분류
| 유형 | 설명 | 예시 |
|---|---|---|
| 사례 인식 (Instance Recognition) | 특정 개체를 인식 | 내 지갑 찾기, 특정 건물 탐지 |
| 범주 인식 (Category Recognition) | 객체의 속한 그룹 판별 | 고양이/개/의자 분류 |
| 사람 인식 (Human Recognition) | 사람 고유 정보 인식 | 얼굴, 제스처, 나이 등 |
3. 주요 인식 대회
다양한 인식 시스템을 비교하고 평가하기 위한 국제 대회들이 존재한다:
- PASCAL VOC: 객체 분류, 검출, 행동 인식 등 종합
- ImageNet ILSVRC: 대규모 1000개 범주 분류
- ICDAR RRC: 문서 및 문자 인식 중심
이러한 대회는 공통된 데이터셋과 평가 지표를 통해 성능을 수치화해 비교할 수 있도록 해준다.
4. 사례 인식 방법
4.1 기하 정렬 (Geometric Alignment)
- 매칭된 특징점들의 위치 관계(기하 정합) 를 활용해 인식
- RANSAC, Hough Transform 등이 쓰임
4.2 Bag of Visual Words
- SIFT 등의 지역 특징을 ‘시각 단어’로 변환해 히스토그램으로 표현
- 순서 정보는 무시되지만, 효율적이고 확장성 있음
4.3 별자리 모델 (Star Model)
- 객체의 구성 요소가 중심점(중심 특징점) 을 기준으로 위치한 구조
- 각 부위가 중심점 기준으로 상대적인 위치를 유지
- 여러 부위가 부분적으로 가려져 있어도 인식이 가능함
5. 범주 인식 방법
5.1 부품 기반 모델 (Part-based Model)
- 객체를 여러 부위(예: 고양이의 눈, 귀, 꼬리)로 분할하여 각각 인식
- DPM(Deformable Part-based Model)은 각 부위를 약간 변형 가능한 형태로 모델링
5.2 CNN (Convolutional Neural Network)
- 특징 추출 + 분류기를 통합한 딥러닝 구조
- 학습을 통해 복잡한 범주도 높은 정확도로 분류 가능
- 대규모 데이터셋에서 압도적인 성능
6. 사람 인식 기술
| 인식 대상 | 설명 |
|---|---|
| 얼굴 인식 | 입력된 얼굴이 누구인지 판별 |
| 제스처 인식 | 손이나 몸의 움직임을 통해 명령 해석 |
| 나이 인식 | 얼굴 사진으로부터 연령대 예측 |
활용 예: 보안 시스템, 감정 분석, 인터랙티브 광고 등
7. 모바일 기반 인식
스마트폰, IoT 기기 등에서 활용 가능한 인식 기술의 특징:
- 문자 인식 (OCR), 음식 인식, 얼굴 로그인, 사진 기반 번역 등
- 실시간 처리, 에너지 효율, 경량화된 모델이 핵심
8. 요약
| 항목 | 설명 |
|---|---|
| 사례 인식 | 특정 개체 찾기 (e.g. 내 지갑) |
| 범주 인식 | 클래스 분류 (e.g. 고양이 vs 개) |
| CNN | 특징 추출기 + 분류기 통합 구조 |
| 기하 정렬 | 위치 정보로 매칭 정합 |
| Bag of Visual Words | 특징 히스토그램 기반 표현 |
| 별자리 모델 | 중심점 기준으로 부위를 정렬 |
| 부품 모델 | 객체를 구성 요소별로 나눠 학습 |
| 사람 인식 | 얼굴, 제스처, 나이 등 포함 |
| 모바일 인식 | 속도, 전력, 반응성 중심 최적화 필요 |
출처: 컴퓨터비전 (저자 : 오일석)
반응형
'CS > 컴퓨터 비전(Computer Vision)' 카테고리의 다른 글
| 컴퓨터 비전 : 3차원 비전 (1) | 2025.06.21 |
|---|---|
| 컴퓨터 비전 : 모션 (Motion) (0) | 2025.06.21 |
| 컴퓨터 비전 : 기계학습 (Machine Learning) (0) | 2025.06.20 |
| 컴퓨터 비전 : 매칭 (Matching) (0) | 2025.06.20 |
| 컴퓨터 비전 : Lucas-Kanade와 Horn-Schunck 완전 정리 (0) | 2025.06.16 |