사람 데이터 지도

https://whimsical.com/Uj4Akfqq6NuJqEHyBYtDej

사람 식별의 어려움

국가는 사람에 대한 식별자(예, 주민등록번호 등)를 부여하여 운영하고 있지만, 이러한 식별자는 개인 정보로 공개되지 않습니다. 이에 따라, 데이터에서 표현되는 사람의 이름만으로, 사람의 고유성을 식별하는 것은 거의 불가능에 가깝습니다.

사람 식별에는 i) 동명 이인(이름 표기는 같은데, 실제로는 다른 사람), ii) 2개 언어에서는 이름 표기의 상이성(특히, middle name) 등과 같은 어려운 난제가 있습니다.

PatentPia에서의 사람 식별

특허 데이터 내 발명자 식별

PatentPia에서는 발명자 식별 단위는 ‘출원인 & 발명자 표기’입니다. 동일 출원 내에서는 동명 이인은 없다고 가정하고, 이름 표기가 같더라도 출원인이 다르면 다른 발명자라고 가정합니다. 주소 등을 통해서 보정하는 방법도 고려될 수 있지만, 이사(주소 이전) 등의 부수되는 문제로 주소 데이터를 사용하는 사람 식별/구별도 득보다는 실이 많습니다. LinkedIn 등에 있는 Experience(소속 조직 이동 경력)을 통해서 보충할 수도 있지만, 이 또한 여러가지 문제점을 가지고 있습니다.

특허 vs. 논문 간 사람 동일성 맵핑

PatentPia는 특허 데이터에서 표기되는 발명자와 논문 저자 간의 매칭을 연구하고 있습니다.

사람 데이터 처리 프로세스

https://whimsical.com/AVMZzkhDrcArCtchxW1LLh