이디스커버리 용어사전 II (기술용어편)

프론테오코리아
2020-07-08

이디스커버리 용어사전 두 번째로 이디스커버리 데이터 처리 및 분석 과정에서 사용되는 기술 용어들에 대해 다뤄보도록 하겠습니다. 소송담당자로서 이디스커버리 진행을 콘트롤 하는 경우, 전문가들과의 커뮤니케이션 과정에 알아두면 도움이 되는 핵심 키워드만 선별했습니다. 이번에도 알파벳 순으로 되어 있으니 스크롤을 내려 확인해보세요.  




Bates Number
일련번호
지정된 형식으로 변환된 문서들의 고유 식별 번호다. 법률, 의료 등 특정 비즈니스 분야에서 사용된다.


Chain of Custody 관리 연속성 
전자문서 등 기록이 생산된 이래 그것을 보유한 개인 또는 기관들의 연속적 승계와 관리의 단절이 없음을 보여주는 것으로 기록의 진본성을 판정하는 중요한 기준 중 하나이다. 제출된 데이터가 대상 컴퓨터의 하드디스크로부터 포렌식 카피 등으로 증거 보전되어 법적 절차에 따라 연속적으로 관리되었음을 나타내는 기록으로, 전자 데이터를 증거로 제출할 때는 CoC 시트를 첨부해 자료의 신뢰성을 증명해야 한다.


Clustering 클러스터링
데이터 유사성 등을 근거로 데이터를 몇몇의 그룹으로 나눠 분류하는 방법이다.


Culling 컬링
본격적인 프로세싱 전 불필요한 파일(시스템 파일, 소송과 관련이 없음이 명확한 파일) 등을 제외하는 작업이다. 파일 형식이나 날짜 범위 지정과 같이 객관적인 기준 또는 주관적인 기준(예: 키워드 검색)에 따라 처리해 프로세싱 및 리뷰 대상 문서의 수를 줄인다.


Custodian 소송 관련자
소송과 잠재적으로 관련이 있는 데이터들을 보유하고 있거나, 해당 데이터에 액세스가 가능한 사람이다.

 
DAT File 
이디스커버리 소프트웨어는 다양한 형식의 확장자를 가진 데이터들을 하나의 플랫폼에서 처리 및 검토할 수 있게 한다. DAT 및 Opticon(OPT) 파일은 이러한 데이터베이스 검토 플랫폼의 표준 로드 파일로, 이디스커버리 프로젝트 관련 메타데이터, 텍스트, 이미지 등 모든 데이터 필드를 포함하고 있다.


Data Collection Sheet 
수집된 데이터들의 목록을 정리한 표다. .


De-duplication or De-dup
전자 문서 또는 ESI를 서로 비교해 중복 항목을 제거하는 프로세스로, 우선순위에 따라 하나의 파일만 남기고 나머지는 삭제한다. Global Dedup은 전체 수집된 자료 대상으로 중복을 제거하는 방법이고, Custodian Dedup은 개별 Custodian이 보유하고 있는 자료 범위 내에서 중복 항목을 제거한다.


DD(Data Duplicate) file format
디스크 이미지 파일이며, 수집된 하드디스크 드라이브의 복제본이다.


Digital Forensics / Computer forensics 디지털 포렌식
사고 대응과 법적 분쟁 및 소송에 대한 전자적 기록을 수집 및 보전, 때로는 복원하고, 조사 · 분석을 실시하는 과학적 조사 방법이다. 컴퓨터 포렌식에 한정한다면, 조사 대상이 되는 디스크에 대해 위조, 변경이 되지 않는 형태의 사본을 생성한 후 해당 자료를 보전하고, 보전한 데이터를 조사 및 분석하는 것을 의미한다.


DII(Document Image Information) File 문서 이미지 정보 파일
이미지가 포함된 자료들의 요약 정보를 데이터베이스에서 로드 할 수 있도록 작성된 데이터 파일이다.


Directory 디렉토리
디스크에 축적된 파일들의 이름, 크기, 위치 등이 기록되어 있는 파일 목록으로 대량의 파일을 정리 및 관리하기 위해 고안되었다. 계층 구조로 되어 있으며, 파일은 디렉토리의 하위에 놓인다.


E01(Encase Image File Format) file Format 
인케이스를 통해 수집된 드라이브의 사본 데이터(이미징) 파일의 형식이다.


EDRM(Electronic Discovery Reference Model)
이디스커버리 수행 과정의 국제 표준 워크플로우다. 실제로 디스커버리 수행 시에는 전 단계가 아닌 일부 단계만으로도 진행하며, 다른 순서 및 과정으로 진행되는 경우도 있다.


▼Information Management 정보관리
정보 관리는 평상시 사내에서 생성 및 폐기되는 전자적 자료의 효율적인 관리 및 보전을 통해 향후 발생 가능성이 있는 법률적인 문제에 대비하는 것이다. 정보관리가 잘 되어 있는 기업들은 법적 분쟁 발생시 보다 신속하고 정확하게 관련 전자문서를 산출할 수 있으며, 해당 자료를 바탕으로 합리적으로 대응 방안을 수립할 수 있다.


▼Identification 식별
본격적인 이디스커버리 수행 전, 소송 관련 부서 및 관계자 등을 파악하고 자료 수집의 대상이 되는 기기 및 데이터를 구체적으로 확인 및 정리해 작업의 범위를 확정하는 작업이다.


▼Preservation 보전
위의 식별 과정을 통해 이디스커버리 대상으로 선정된 ESI의 훼손을 방지하는 절차로, 수집(Collection) 전에 선행되는 조치이다. 보통 기업에서는 식별된 ESI의 훼손을 방지하기 위해 데이터의 수정 및 삭제와 관련된 모든 작업을 중단하는 Litigation Hold(Legal Hold) 등의 조치 등을 한다.


▼Collection 수집
식별 및 보존된 ESI를 본격적으로 수집하는 과정이다. 디지털 증거 로서의 능력을 인정받을 수 있는 온전하고 적절한 방식(Forensically Sound)으로 수집되는 것이 일반적이다.


▼Processing 처리
Collection 과정을 통해 수집된 ESI를 처리해 분석 및 검색 가능하도록 만드는 작업이다. 컬링(Culling), 색인화(Indexing), 검색(Search) 단계 등을 거친다.


▼Review and Analysis 검토 및 분석
Processing이 완료된 데이터를 변호사 등 법률가들이 실질적으로 검토해 외부에 개시할 증거와 그렇지 않은 증거(관련성이 없는 증거, 면책증거 등)들을 구별해내는 작업이다. EDRM 과정 중에 가장 많은 시간이 투입되며, 직접적으로 사람의 영향을 많이 받기 때문에 일반적으로 작업의 정확성과 경험이 풍부한 법무대리인이 이 과정에 참여하게 된다.

▼Production 생산
검토와 분석이 끝난 데이터 중 최종적으로 법정에 제출할 증거들을 최종 산출물로 만드는 작업이다. 파일의 형식에 대해서는 미리 협의를 거친다.


▼Presentation 개시
프로덕션이 완료된 산출된 자료들을 최종적으로 법정에 제출하거나, 실제 증언이나 심리, 재판 과정 등에서 보여주는 과정이다. 최근에는 문서가 아닌 다른 형식의 증거 제출도 가능하기 때문에, 청중들을 고려해 전략적으로 준비하는 것이 일반적으로 인식되고 있다.


Encase 인케이스 
포렌식 소프트웨어의 글로벌 표준 제품으로, Forensically Sound(법의학적으로 타당한 방법)에 따라 데이터의 수집 및 조사를 지원하는 소프트웨어이다. 데이터 수집을 위한 디스크 이미징, 데이터 복구 및 보전, 데이터 분석 등 다양하게 활용할 수 있다. 미국의 Guidance Software가 개발, 판매하고 있다.


ESI(Electronically Stored Information) 전자문서

전자적으로 수집된 정보를 의미하는 용어로 2006년 미국 연방 민사소송 규칙 개정 과정에서 처음 도입되었다. 이메일, 웹페이지, 워드파일, 스프레드시트 파일, 데이터베이스, 서버, 캘린더, 비디오, 오디오 등 다양한 형태의 소송 및 조사와 관련된 전자문서를 지칭하는 말이다. 소송에서 ESI의 수집 대상 및 범위는 소송 당사자들간 사전 협의해 결정한다. FRCP(미국 연방 민사 소송 규칙)에서는 ESI 데이터 수집에 있어 과잉 조치를 제한하는 규정을 두고 있으며, 과하다고 판단될 경우 비용을 분담하거나 범위를 제한하는 등의 규제를 가할 수 있기 때문에 상호 합리적인 수준에서 합의하게 된다.  


FTK Imager
드라이브를 획득하고, 사본 데이터(이미징) 생성을 위한 전문 포렌식 소프트웨어다. 미국의 AccessData사에 의해 개발 및 판매되고 있다.


Hash Value 해시값
사람의 지문과 같은 디지털 지문으로 각 파일은 고유한 해시값을 갖게 된다. 이러한 속성을 통해 파일 또는 사본 데이터(이미징)를 확인하고 인증하는데 사용한다.


Hosting

소송 관련 핵심 데이터를 소송이 종료될 때까지 안전하게 보관하기 위해 전문 업체 등에서 공급하는 물리적 위치에 저장하는 것이다.


Indexing 색인
프로세싱을 통해 모든 데이터에서 텍스트들을 추출(Text Extraction)한 후, 단어, 용어 및 파일 이름 등을 기준으로 마스터 인덱스를 작성하는 것이다. 키워드 검색(Search)을 원활히 하기 위한 필수 작업이다.


Language Detection 언어 구분
문서에 사용되는 언어를 특정하는 기능이다. 여러 언어가 혼용되어 있는 경우 비율이 높은 언어로 특정할 수 있다.


Loose File 
메일 아카이브나 zip, alz, egg 등 압축파일처럼 하나의 파일에 여러가지 문서가 있는 형태가 아닌, 단일 파일이나 단일 메일 상태로 보관되고 있는 것이다.  


Mail Archive 메일 아카이브
이메일 메시지와 포함된 첨부파일을 별도의 공간에 저장하는 것으로, 하나의 아카이브에 여러 개여 메시지를 저장할 수 있으며 저장된 데이터에 신속하게 액세스 할 수 있다. Outlook pst와 Outlook Express의 dbx 등이 있다.


Mail Family 메일 패밀리

이메일의 본문과 첨부파일의 묶음이다. 프로세싱 단계에서 메일 본문과 첨부파일, 메일이나 파일 내의 임베디드 오브젝트가 각각 분리되는데, 분리된 문서들의 소스는 ‘패밀리’로 유지되며, 원본문서는 ‘Parents,’ 분리된 개체는 ‘Child’로 관리된다.


Mail Thread 메일 스레드
전자 메일 메시지 원본과 관련 응답 메시지 등의 실행 목록을 시간 순서대로 나타낸 것으로 대화의 흐름을 파악하기 용이하다.


Meta Data 메타 데이터
파일 또는 파일 속성을 설명하는 데이터로 생성 날짜, 작성자, 데이터 형식, 액세스 날짜 등이 포함될 수 있다.


Near Duplicate
일반적으로 "거의 동일한" 문서들을 함께 그룹화하는 것이다. 문서 간의 유사성이 매우 강한 클러스터링으로, 이 경우 일반적으로 리뷰에 투입되는 시간 및 비용을 줄일 수 있으며 일관된 코딩을 어느정도 보장할 수 있다.


Network Forensic 네트워크 포렌식
보안 공격 또는 기타 네트워크 관련 문제의 원인을 찾기 위해 네트워크 상에서 발생한 이벤트들을 포렌식하고 분석하는 작업이다.


OCR(Optical Character Recognition) 광학 문자 인식
손으로 작성한 텍스트, 하드카피 문서의 텍스트, 인쇄물 등을 스캔한 이미지를 전자적으로 분석 및 검색 가능한 형태로 가공하는 작업이다.  


OPT file 
이디스커버리 소프트웨어는 다양한 형식의 확장자를 가진 데이터들을 하나의 플랫폼에서 처리 및 검토할 수 있게 돕는다. Opticon(OPT) 파일은 이러한 데이터베이스 검토 플랫폼의 표준 로드 파일로, 데이터 베이스 소프트웨어에서 파일을 로드 하는데 사용된다.


Predictive Coding
예측 코딩
예측 코딩은 키워드 검색, 필터링 및 샘플링 등의 기능을 사용해 이디스커버리 리뷰의 일부 과정을 자동화하는 방법이다. 소송과 관련이 있는 문서와 그렇지 않은 문서를 분류해 코딩하고, 이를 바탕으로 전체 대상 문서를 분석해 관련도가 높은 문서들 위주로 리뷰한다. 이를 통해 검토 대상 문서의 수를 줄여 리뷰의 속도를 높일 수 있다.
<!--[if !supportLineBreakNewLine]-->


PoC(Proof of Concept) 개념 증명 
본격적인 솔루션의 도입 전, 도입 회사 내에서 해당 솔루션을 활용해 제품의 효과를 검증하는 작업이다. 특정 방식이나 아이디어의 타당성을 증명하기 위한 것으로, 아직 시장에 출시되지 않은 신제품에 대한 검증에 활용된다.


Redaction 
비밀 유지가 필요한 내용, 기밀 정보, 개인 정보 등을 보호하는 방법으로, 해당 식별정보를 식별 불가능한 패턴으로 변환하는 것이다. 검게 칠하거나 XXX로 표시하는 등 인지할 수 없는 문자열로 변환한다.


Review Protocol 리뷰 프로토콜
리뷰의 기준이 되는 태그 및 판단기준을 정립한 것으로, 리뷰어들이 자료를 리뷰하는데 있어 지침으로 삼는다.

 

Review Manager 리뷰 매니저
1차 리뷰를 전체를 관리하는 관리자로, 변호사 등 자격을 갖춘 법률전문가가 수행한다.

System file 
시스템 자체의 운영을 위해 사용되는 주요 파일로, 운영체제가 동작하는데 필요한 프로그램이나 데이터 등을 의미한다.


TAR(Technology Assisted Review)
Predictive Coding이나 클러스터링, 이메일 스레딩 등 효율적인 문서 검토를 위한  기술들을 활용해 리뷰하는 것을 의미한다.

 

Text Extraction 텍스트 추출
프로세싱 과정에서 수행되는 작업으로 키워드 검색을 수행할 수 있도록 데이터 내에 존재하는 모든 텍스트를 추출하는 과정이다.





프론테오코리아

FRONTEO Korea, Inc.


전화 : 02-350-3000

문의 : koreainfo@fronteo.com

주소 : 서울시 강남구 테헤란로 142 아크플레이스

(구 캐피탈타워) 11층 (06236)

Copyright © FRONTEO Korea, Inc. All Rights Reserved.

프론테오코리아 (FRONTEO Korea, Inc.)


전화 : 02-350-3000

문의 : koreainfo@fronteo.com

주소 : 서울시 강남구 테헤란로 142 아크플레이스 (구 캐피탈타워) 11층 (06236)


Copyright © FRONTEO Korea, Inc. All Rights Reserved.