논문 번역 블로그
논문 번역 블로그
  • 블로그
  • 전체 글
  • 태그
  • 블로그
  • 블로그

    • 홈
    • 전체 글
    • 태그 목록
  • 인기 태그

    #Large Language Model#Video Moment Retrieval#Transformer#Video Retrieval#LLM#Language Model
    모든 태그 보기 →

Segmentation

1개의 포스트

2025. 10. 15.
Depth EstimationSegmentation

SHED: Segmentation-based Hierarchical Encoder-Decoder for Depth Estimation

SHED는 단일 이미지로부터 깊이를 추정하는 Monocular depth estimation 작업을 위한 새로운 encoder-decoder 아키텍처입니다. 기존 모델들이 픽셀 단위로 깊이를 예측하여 발생하는 구조적 불일치 문제를 해결하기 위해, SHED는 Vision Transformer(ViT)의 고정된 패치 토큰을 계층적 세그먼트 토큰으로 대체하여 segmentation을 깊이 추정에 통합합니다. 이 모델은 encoder에서 세밀한 superpixel을 점차 거친 세그먼트로 병합하고, decoder에서는 이를 역으로 재구성하여 구조적으로 일관된 깊이 맵을 생성합니다. 이를 통해 깊이 경계와 세그먼트 일관성을 향상시키고, 3D 재구성 성능을 높이며, 교차 도메인 일반화에서도 강건한 성능을 보입니다. 논문 제목: SHED Light on Segmentation for Depth Estimation

모든 태그 보기

© 2025 junhan.blog