Video Classification

오늘은 전에 들었던

https://www.youtube.com/watch?v=ryHvvWLVH9w

강의 내용 중 일부를 정리해봤다!

Video Classification이란?

주어진 비디오 클립을 일련의 라벨로 분류

- 라벨은 '행동'에 중점을 둠!

이미지 분류 라벨 > 대부분 시각적으로 식별 가능한 객체(object)

비디오 분류 라벨 > 객체(objects) + 행동(actions)

비디오 태스크의 문제점

1. High Storage & Computationcal Cost

가공되지 않은 비디오를 저장하려면 엄청난 저장 비용이 필요

- Video preprocessing

압축 해제(Decompression)

프레임 수 만큼의 추론 비용(pre-trained model을 사용한다고 해도)

더욱 복잡한 모델링을 요구

2. Difficulty of Creating Standard Benchmark

- Higher labeling cost

비디오 라벨링은 비디오를 시청하면서 수행되어야 함(실제 재생 시간 + 라벨링 시간)

- Hard to scale

비디오의 수 , 길이, 해상도 등으로 인해 데이터 처리 및 모델 학습에 어려움이 있음

높은 저장 비용

- Copyright

대부분의 올라인 플랫폼(ex) Youtube)에 있는 비디오는 공개 영상일지라도 업로드한 사람에게 저작권이 있음

많은 대규모 비디오 데이터셋은 video features만 제공. 업로드된 비디오가 삭제된 경우 기존 픽셀(원본 비디오) 복구 불가

3. Increased Complexity

- Additional (time) dimension

다양한 공간-시간 모델링(spatio-temporal modeling)이 사용

카메라의 움직임도 고려

- Capturing long context

주제가 모든 부분에서 동일하지 않을 수 있음

특히, 긴 영상이라면 영상 내부에 특정 구조가 있을 수 있음(ex) 서론 - 본론 - 결론)

- 해상도(프레임 속도) 차이

Single Frame을 이용한다면?

하나의 프레임만 추출하여 CNN을 이용하기

장점 : 간단함

단점 : 비디오(영상)으로부터 얻는 이점(benefit)이 없음 (motion 정보를 이용할 수 없음)

Multi Frame을 이용한다면?

하나의 프레임만 이용하지 말고 여러 프레임들을 이용한 뒤 모델에 따로따로 넣기

Temporal Pooling

프레임 수준 features에서 비디오 수준 features로 매핑하는 방법에는 무엇이 있을까?

- Score fusion

전체 원래 CNN 모델을 프레임마다 사용하여 클래스별 점수를 출력

각각의 프레임 수준의 score vector를 max pooling 혹은 average pooling을 이용하여 비디오 수준으로 집계

- Feature fusion

프레임 수준의 features는 어떤 층에서 비디오 수준의 features로 결합

결합된 후 비디오 수준의 layer가 single score vector 출력

(features 합친 후 몇 개의 layer 통해 비디오 단계의 features로 매핑될 수 있도록 하는 방법)

프레임 수준의 features를 어떻게 합칠까?

- Max fusion

입력된 프레임 수준의 features에서 요소별 최댓값을 선택

- Average fusion

입력된 프레임 수준의 features의 산술 평균을 계산

- Concatenation fusion

입력된 프레임 수준의 features를 쌓음(옆에 붙임)

입력이 항상 동일한 길이(L)을 가질 때만 의미 있음

- Concatenation + 1x1 Conv

여러 프레임 수준의 features를 쌓으면 크기가 L배로 증가.

1x1 conv layer를 통해 차원을 축소할 수 있음

프레임 수준의 features를 어떤 단계에서 결합해야 할까?

- Late Fusion

- Early Fusion

(맨 처음이나 마지막이 아닌 가운데에서 결합하는 것도 가능)

- Slow Fusion

모든 프레임을 한 번에 fusion하는 대신 중간 segment level의 표현을 유지할 수 있음

'AI' 카테고리의 다른 글

BlazePalm 모델 정리 (0)	2024.12.26
[논문 리뷰] Neural Feedback Text Clustering with BiLSTM-CNN-Kmeans (3)	2024.12.05
[추천시스템] 행렬 분해 정리 (0)	2024.11.15
규제_Lasso, Ridge, Elastic-Net (1)	2024.09.26
이미지 데이터 증강 : CutMix (0)	2024.09.19

boa_log

Video Classification

Video Classification이란?

비디오 태스크의 문제점

1. High Storage & Computationcal Cost

2. Difficulty of Creating Standard Benchmark

3. Increased Complexity

Single Frame을 이용한다면?

Multi Frame을 이용한다면?

Temporal Pooling

프레임 수준의 features를 어떻게 합칠까?

프레임 수준의 features를 어떤 단계에서 결합해야 할까?

'AI' 카테고리의 다른 글

티스토리툴바

Video Classification

Video Classification이란?

비디오 태스크의 문제점

1. High Storage & Computationcal Cost

2. Difficulty of Creating Standard Benchmark

3. Increased Complexity

Single Frame을 이용한다면?

Multi Frame을 이용한다면?

Temporal Pooling

프레임 수준의 features를 어떻게 합칠까?

프레임 수준의 features를 어떤 단계에서 결합해야 할까?

'AI' 카테고리의 다른 글

'AI' Related Articles

티스토리툴바