이미지의 고주파 부분과 저주파 부분은 무엇이고, 이미지를 완성하는 방법은 무엇인가요?
이미지의 빈도: 평면 공간에서 회색의 그라데이션인 회색 값의 변화 강도를 나타내는 지표입니다.
주파수가 낮다는 것은 색상이 천천히 변하는 것, 즉 그레이 스케일이 천천히 변하는 것을 의미하며, 이는 연속적인 그라데이션의 영역을 의미합니다. 이미지의 경우 이 부분이 저주파입니다. 고주파는 저주파, 즉 에지 내의 내용은 저주파이고, 에지 내의 내용은 이미지의 정보, 즉 이미지의 일반적인 개요와 윤곽이 대부분인 것입니다. 이미지의 대략적인 정보입니다.
반대로 빈도가 높다는 것은 주파수가 빠르게 변한다는 것을 의미하며, 이미지에서 그레이 스케일이 빠르게 변한다는 것은 인접한 영역 간의 그레이 스케일 차이가 매우 크다는 것을 의미하며, 이는 이미지에서 변화가 빠르다는 것을 의미합니다. , 이미지 및 배경 가장자리에는 일반적으로 뚜렷한 차이가 있습니다. 즉, 해당 가장자리, 즉 변경 빈도가 높은 부분에서 회색조가 빠르게 변경됩니다. 따라서 배경 가장자리의 회색조 값은 다음과 같습니다. 이미지가 빠르게 변경됩니다. 이는 주파수가 높습니다. 즉, 이미지 가장자리가 높은 주파수로 표시됩니다. 이미지의 디테일 역시 그레이 값이 급격하게 변하는 영역이기 때문에 디테일이 나타나는 것입니다.
또한, 노이즈(즉, 노이즈 포인트)의 경우에도 마찬가지입니다. 픽셀의 위치에서 노이즈 포인트인 이유는 일반적인 포인트 색상과 다르기 때문입니다. 즉, 픽셀 포인트의 그레이 값이 확연히 다르다는 것입니다. 즉, 그레이 스케일이 급격하게 변했기 때문에 고주파수 부분이므로 고주파수에서 노이즈가 발생한다는 것입니다.
이미지 완성 방법:
첫 번째: 예시 기반 이미지 인페인팅을 통한 영역 채우기 및 객체 제거
알고리즘의 일반적인 과정:
1) 완성 우선순위(priority)는 완성할 영역의 경계에 있는 픽셀들을 순차적으로 계산합니다. 이 우선순위는 주로 두 가지 요소를 고려합니다. 하나는 주변 픽셀의 신뢰도가 높은 위치를 먼저 채워야 하고, 다른 하나는 이미지의 그라데이션이 크게 변하는 위치를 먼저 채워야 한다는 것입니다. 두 가지를 결합하여 우선순위를 모두 얻은 후 우선순위가 가장 높은 픽셀을 선택하여 완료
2) 이전 단계에서 찾은 완성할 픽셀에 대해 작은 패치(예: 3*3 ) 주변에 있습니다. 이미지의 알려진 부분에서 모든 패치를 검색하고 가장 유사한 패치를 찾습니다.
3) 찾은 가장 일치하는 부분을 사용하여 알려지지 않은 부분을 완성하고 관련 값을 업데이트합니다.
그러나 우리는 그렇지 않습니다. 이 방법에서는 문제를 찾기가 어렵습니다. 이미지의 알려진 부분에서 유사한 패치를 찾을 수 없으면 알고리즘이 작동하지 않습니다. 이 방법은 배경이 저주파 정보에 의해 지배되고 반복적인 이미지에만 적합합니다. 텍스처 검색, 유사한 패치 검색 계산 복잡도가 매우 높으며 알고리즘 작동 효율성이 낮습니다.
두 번째 유형: 수백만 장의 사진을 사용한 장면 완성
알고리즘의 일반적인 프로세스:
1) Flickr에서 200만 장의 사진을 다운로드하여 데이터베이스를 구축하고, "풍경", "도시", "공원" 등의 키워드로 야외 장면이 담긴 사진을 검색해 보세요.
2) 완성할 이미지를 위해 데이터베이스에서 가장 유사한 장면 200개를 선택합니다. 여기서는 Gist 장면 설명자와 이미지 다운샘플링을 4*4로 사용하여 일치하는 특징 벡터로 만듭니다.
3) 완성 영역 경계 밖의 80픽셀을 컨텍스트로 사용하세요. 일치하는 각 이미지에 대해 모든 번역 공간과 3개의 스케일 공간을 검색하고 컨텍스트 부분의 일치 오류를 기반으로 최상의 완성 위치를 선택한 다음 그래프 컷 알고리즘을 사용하여 최상의 융합 경계를 해결합니다.
4) 표준 포아송 융합을 사용하여 융합 경계를 처리합니다.
5) 이전 단계의 매칭 비용과 그래프 컷 비용을 더해 사용자가 선택한 비용이 가장 작은 20개의 결과를 반환합니다.
컨텍스트 인코더: 인페인팅을 통한 기능 학습
기사에서 제안하는 네트워크 구조는 다음과 같습니다. 인코더, 채널별 완전 연결 레이어, 디코더의 3개 부분을 포함합니다. Encoder의 구조는 AlexNet의 처음 5개 레이어의 컨벌루션 레이어 구조를 직접 활용합니다. 구체적인 구조는 다음과 같습니다. 입력 크롭 크기는 227×227이고 컨볼루션 후 얻은 특징 맵 구조는 256 레이어 6×6입니다. 모든 가중치는 무작위로 초기화됩니다.
채널별 완전 연결 레이어는 일반 FC 레이어를 개선한 것입니다. fc 레이어를 추가하는 이유는 Feature Map의 각 레이어 정보를 내부적으로 전달할 수 있도록 하기 위함입니다. 그러나 기존의 fc 레이어에는 매개변수가 너무 많기 때문에 저자는 피처맵 레이어 간의 정보 교환을 fc에서 제거하여 매개변수 규모를 줄일 수 있다고 제안했습니다. fc 이후에는 stride가 1인 컨벌루션 레이어를 연결하여 레이어 간 정보 교환을 구현합니다.