Journal Archive

Journal of the East Asian Society of Dietary Life - Vol. 33 , No. 3

[ Article ]
Journal of the East Asian Society of Dietary Life - Vol. 33, No. 3, pp. 241-250
Abbreviation: J East Asian Soc Diet Life
ISSN: 1225-6781 (Print) 2288-8802 (Online)
Print publication date 30 Jun 2023
Received 08 Jun 2023 Revised 20 Jun 2023 Accepted 28 Jun 2023
DOI: https://doi.org/10.17495/easdl.2023.6.33.3.241

한국형 농식품 시소러스 지식표현 모형의 개발
송하나1 ; 신유나1 ; 장보윤1 ; 강민숙2 ; 김행란3 ; 이헌주4,
1켐아이넷㈜ 식의약융합연구팀 연구원
2국립농업과학원 농식품자원부 식생활영양과 농업연구사
3국립농업과학원 농식품자원부 식생활영양과 농업연구관
4켐아이넷㈜ 대표이사

Development of Korean Agro-food Thesaurus Knowledge Representation Model
Hana Song1 ; Yuna Shin1 ; Bo Youn Jang1 ; Min-Sook Kang2 ; Haeng-Ran Kim3 ; Hunjoo Lee4,
1Researcher, Dept. of Food and Drug Informatics Research, Chem.I.Net Ltd., Seoul 07964, Republic of Korea
2Researcher, Food and Nutrition Division, Dept. of Agro-food Resources, National Institute of Agricultural Sciences, RDA, Wanju 55365, Republic of Korea
3Senior Researcher, Food and Nutrition Division, Dept. of Agro-food Resources, National Institute of Agricultural Sciences, RDA, Wanju 55365, Republic of Korea
4Chief Executive Officer, Chem.I.Net Ltd., Seoul 07964, Republic of Korea
Correspondence to : Hunjoo Lee, Tel: +82-2-2647-4930, Fax: +82-2-2647-4932, E-mail: adstar@cheminet.kr

Funding Information ▼

Abstract

To improve complete retrieval and rapid hyper-connection of agro-food information systematically, we developed a thesaurus-based Korean knowledge representation model for agro-food terms. The LanguaLTM, an international thesaurus-based knowledge representation model, was benchmarked in depth by eliciting and analyzing the entity-relationship model from its physical access database to ensure data exchangeability and compatibility with multilingual global agro-food databases. The model comprised two term groups, viz., related food and derived samples. The former was composed of synonymous, broader, narrow, and related terms corresponding to target agro-food terms. The latter were samples derived from the former; structurally, it indexed 14 food facets proposed by LanguaLTM for food description. According to the architectural components of this model, a total of 7,062 Korean knowledge contents was conducted for 697 agro-food items. This model can be considered a Korean agro-food terminology standard. It can be applied to construct a new computer-based database and support semantic-based intelligent search of digital food information expressed in various terms.


Keywords: food terms, thesaurus, knowledge representation model, semantics

서 론

식품 용어를 명확하게 기술하는 것은 신품종 개발, 식생활 조사, 새로운 가공식품 혹은 건강기능식품의 개발, 맞춤형 식단의 개발, 식품 안전성의 평가 등 식품이 인간에게 미치는 영향을 정확하고 정밀하게 이해하기 위해 매우 중요하다. 그러나, 식품의 특성상 매트릭스(예, 부위, 형태, 상태 등)가 매우 복잡하고, 동일한 식품이라 하더라도 국가마다 언어가 다르고, 지역마다 서로 다른 명칭(예, 방언, 이명)이 존재하기 때문에, 하나의 식품 용어를 정확히 표현하는 것은 물론, 연관된 의미를 가지는 식품 용어들을 체계적으로 기술하는 것은 매우 어렵다.

현재 국내·외 국가기관에서는 산업체 지원, 국민건강 보호 등 공공 목적의 다양한 식품의 영양, 안전, 농업 분야 등 온라인 지식베이스(Gilbetic M 등 2011; Lee HJ 등 2017; Lee HJ 등 2018; Rural Development Administration(RDA) 2021; Mckillop K 등 2021)를 구축하여 서비스하고 있다. 그러나, 지식베이스 구축의 주체 및 목적에 따라 서로 다른 식품의 표기 방식·수준으로 제공하고 있어, 1) 컴퓨터를 통한 식품 정보의 검색 시 불완전한 수집의 문제, 2) 서로 다른 식품 지식 간 통합을 위한 식품 명칭 등의 수작업 가공 절차 등 다양한 사회·경제적 비용이 산업체, 학계 등 민간부문에서 발생하고 있다. 이와 같은 문제점을 해결하고자, 학문영역(예, 법률, 한의학 등)별로 사용되는 어휘들을 표준화하고, 의미 기반의 지식표현 모형(semantic based knowledge representation model; S-KRM)을 구축하여 컴퓨터 기반 지식베이스 구축 및 지능형 검색에 활용하고 있다(Chang IH 2011; Oh JH 2022). 방법론적 측면에서, 식품 분야에서 사용되고 있는 S-KRM에는 시소러스(thesaurus)와 온톨로지(ontology) 지식 표현 모형(Moreira A 등 2004)이 있다. 상기 2가지 지식 모형은 특정 정의 대상 어휘와 의미상 연관된 어휘들에 대하여 관계속성(예, 동의어, 상위/하위어 등)을 부여하여 지식을 구조화하는 방법론으로, 각각 전자는 관계속성의 개수를 고정하여 콘텐츠 개발의 부하가 적은 반면, 후자는 개수의 제한없이 정교하게 지식을 표현할 수 있다.

식품 분야에서 국제적인 대표적으로 사용되는 S-KRM으로는 ‘LanguaLTM’(Pennington JAT 등 1994; Moller A & Ireland J 2015)과 ‘FoodOn’(Dooley DM 등 2018)이 있다. ‘LanguaLTM’은 다국어 시소러스 기반의 지식모형으로 1970대 미국 식품의약품안전국(Food and Drug Administration)에서 최초로 제안되어, 미국 국립암연구소(National Cancer Institute), 유럽연합 국가들이 차례로 참여하여 협업 하에 고도화되었고, 세계보건기구(World Health Organization)의 글로벌 환경 모니터링 시스템/식품(Global Environment Monitoring System/Food Contamination Monitoring and Assessment Program; GEMS/food)의 식품오염물질의 데이터베이스, 미국 농무부(Department of Agriculture)의 표준성분표(Standard Reference; SR), 유럽연합의 식품정보자원(European food information resource; EuroFIR) 웹 서비스 등에 식품을 기술하는 표준으로 활용되고 있다(LanguaLTM 2017). 한편, ‘FoodOn’은 온톨로지 기반의 지식모형으로 2018년 민간 커뮤니티 주도의 이니셔티브인 개방형 생물의학 온톨로지(Open Biomedical Ontologies) 파운드리를 중심으로 개발 및 운영되고 있으며, ‘LanguaLTM’ 시소러스 지식모형을 모두 모두 수용하고, 식품뿐만 아니라 농장부터 식탁까지의 식품공급망에서 식품과 관련된 환경, 농장, 건강 등 다양한 분야의 어휘들 간의 의미관계망을 구축한 모형(FoodOn 2018)으로, 현재 진행중인 ‘LanguaLTM’의 차세대 지식모형이다.

‘LanguaLTM’과 ‘FoodOn’ 모두 다국어를 지원할 수 있는 아키텍처로 구성되어 미국과 스페인 등 유럽국가가 참여하고 있으나, 아직 우리나라는 지식 모형 도입 및 콘텐츠 개발이 되어있지 않은 실정이다. 따라서, 본 연구의 목적은 국제적인 지식 모형 중 현재 상용화된 S-KRM인 ‘LanguaLTM’ 시소러스 모형과의 호환성을 가지면서, 한글로 된 식품 정보를 지능적으로 검색·통합할 수 있는 기반이 되는 한국형 식품 시소러스 지식표현 모형을 도출하고 해당 지식표현 모형 기반의 콘텐츠를 제시하고자 한다.


연구방법
1. 국제적 식품 시소러스 지식 모형의 아키텍처 분석

LanguaLTM 공식 웹사이트로부터 가장 최근에 업데이트된 LanguaLTM 2017 버전의 시소러스에 대한 마이크소프트 액세스 형식의 데이터베이스를 다운로드 한 후, 논리 및 물리적 개체-관계(entity-relationship) 모형 관점에서 구조적 특성을 파악하였다. 또한, 엑세스 데이터베이스관리시스템에서 지원하는 구조적 질의 언어(structured query language)를 활용하여 수록되어 있는 콘텐츠를 내용적 측면에서 파악함으로써, LanguaLTM 시소러스 모형의 지식표현 원리 및 요소 등 지식 모형의 아키텍처를 미시적으로 분석하였다.

2. 농식품 시소러스 지식 모형 설계

농식품 시소러스의 지식 모형은 다음의 3가지 원칙에 따라 설계하였다. 첫째, 일반적인 시소러스가 가지는 4대 지식표현 요소를 수용하였다. 대표 명칭을 중심으로 동등관계(used for; UF), 상위용어(broader term; BT), 하위용어(narrow term; NT) 및 연관용어(related term; RT)의 개념을 포함하였다. 둘째, 향후 본 지식 모형을 활용한 검색 시, 어휘 간 의미 관계 기반의 추론능력을 강화하기 위하여 지식표현 요소의 정교화 과정을 실시하였다. 셋째, 서로 다른 국가 및 언어의 식품 정보 데이터베이스들과의 연계성을 확보를 위해, LanguaLTM 시소러스 모형과의 호환성 유지 방안을 고려하였다.

3. 한국형 농식품 시소러스 지식 콘텐츠 개발

시소러스 지식 콘텐츠의 구축 대상 농식품 품목은 농촌진흥청에서 발간한 국가표준식품성분표에 존재하는 총 3,270종, 국립수산과학원에서 발간 수산물성분표 총 315종의 품목 명칭 텍스트를 이용하였다. 그러나, 두 성분표의 발간 주체와 목적이 다르다 보니 표기방법이 상이하여 별도의 데이터 가공 프로세스(Fig. 1)를 확립하고, 이에 따라 전처리 및 합성 프로세스를 통하여 대상 농식품을 도출하였다. 이후, 해당 농식품에 대하여 본 연구를 통하여 도출된 농식품 시소러스 지식 모형에 따라, 한글 시소러스 지식콘텐츠를 개발하였다.


Fig. 1. 
Data processing procedure for selecting target agro-foods items to develop the Korean knowledge contents.

또한, LanguaLTM 시소러스 콘텐츠에 수록되어 있는 구성 요소에 대한 한글 지식 콘텐츠를 개발하였다. 지식 콘텐츠는 최신 발간된 식품 용어사전(Table 1)을 확보한 후 우선순위에 따라 단계적으로 적용하여 번역작업을 실시하였으며, 근거를 명확히 하기 위해 출처를 병기하였다. 또한, 용어사전에 존재하지 않는 식품 콘텐츠는 영역별 전문가에 의하여 추가적 번역작업을 실시하고, 해당 분야 전문가 감수를 통하여 콘텐츠 개발을 완료하였다. 이후, LanguaLTM 시소러스 모형의 메타데이터(식별 코드 등)를 부여하여 최종적인 콘텐츠를 생산하였다.

Table 1. 
List of term dictionaries used to develop Korean knowledge contents
Priorities References Institution Publication
year
1 Korean food composition table National Institute of Agricultural Sciences 2021
2 Food Science Terminology Dictionary Korean Society of Food Science and Technology 2015
3 Composition table of marine products in Korea National Institute of Fisheries Science 2018
4 Food classification code Ministry of Food and Drug Safety 2019
5 Investigation of Food Additives and Hazardous Substances in Major Export Destinations (Malaysia Edition) Korea Agro-Fisheries & Food Trade Corporation 2018


결 과
1. 국제적 식품 시소러스 지식 모형의 아키텍처 분석 결과

WHO/FAO에서 개발되어 운영되고 있는 LanguaLTM 시소러스 모형은 특정한 식품 용어를 정확히 기술하기 위해 식품 세부특성인 식품패싯(food facet)을 범주화하여, 텍소노미 형식으로 제공하고 있으며, 다국어로된 식품 어휘 체계를 지원한다. LanguaLTM 시소러스 모형은 14종의 식품패싯에 대하여 총 12,674건의 패싯 콘텐츠가 수록되어 있었다(Table 2). 식품패싯은 특정 식품품목을 설명하기 위한 특성정보로 품목 유형(product type), 식품원(food source), 동·식물 부위(part of plant or animal), 물리적 상태 및 성상(physical state, shape or form), 가열 처리 정도(extent of heat treatment), 조리방법(cooking method), 적용된 처리(treatment applied), 보관방법(preservation method), 포장재(packaging medium), 용기 혹은 포장(container or wrapping), 식품접촉면(food contact surface), 소비자 집단·식이용도·표시기준(consumer group/dietary use/label claim), 지리적 위치·지역(geographic places and regions), 식품의 부가적 특성(adjunct characteristics of food)으로 카테고리화하고, 각 카테고리 별로 텍소노미(taxonomy) 기반의 계층적 분류체계를 제시하고 있다. 마이크로소트사의 엑세스 데이터베이스 파일형식으로 제공되고 있는 LanguaLTM 시소러스의 수록된 개체, 속성 및 관계성을 확인하기 위해, 개체-관계 모형을 생성하여 제시하였다(Fig. 2). 주요 구성 테이블은, ‘국가’(country), ‘언어’(language), ‘식품 패싯’(terms), ‘식품패싯 분류’(tree), ‘식품패싯 언어’(terms_language), ‘식품패싯 동의어’(synonym), ‘식품패싯 법적분류’(LegalAfathers, LegalA), ‘식품’(foods) 및 ‘식품별 식품패싯’(factors) 테이블로 구성되어 있다. 중심이 되는 테이블은 ‘식품패싯’ 테이블로써, 영어로 된 대표 용어를 중심으로 적용범위(scope), 설명(information) 변수 등으로 구성되어 있다. ‘식품패싯’ 테이블은 ‘언어’ 테이블과 연계되어 언어별 대표어를 ‘식품패싯 언어’ 테이블에 저장할 수 있으며, 다양한 언어별 동의어를 ‘식품패싯 동의어’에 저장하도록 구성되어 있다. 또한, 특정 식품패싯을 계층적인 텍소노미 구조로 표현하기 위해 ‘식품패싯 분류’ 테이블과 연계되도록 하였다. ‘언어’ 테이블은 ‘국가’ 테이블과 연관되어, 특정 국가에서 여러 언어를 사용하는 경우를 고려하여 동일 언어라 하더라도 국가별로 다른 용어의 사용 가능성을 고려하였다. 최종적으로 시소러스 구축의 대상이 되는 식품은 ‘식품’ 테이블에 저장되며, 식품별로 부여된 식품패싯은 ‘식품별 식품패싯’ 테이블에 저장되는 구조로 모형이 구성되어 있다.

Table 2. 
List of 14 food facets proposed by the thesaurus knowledge model of LanguaLTM
Food
facet
Descriptor Description Numbers
A Product type Used to characterize a food product based on the combination of consumption, functional, manufacturing, and legal characteristics 6,123
B Food source Individual plant or animal from which the food product or its major ingredient is derived; also a chemical food source 4,057
C Part of plant or animal Anatomical part of the plant or animal from which the food product or its major ingredient is derived 191
E Physical state, shape, or form The physical state of the food product (liquid, semiliquid, semisolid, or solid) 70
F Extent of heat treatment Used to broadly characterize a food product based on the extent of heat applied 7
G Cooking method Used to specifically characterize and categorize a food product by providing information about the how they are cooked or prepared 47
H Treatment applied Used to specifically characterize a food product based on the treatment or processes applied to the product or any indexed ingredient 761
J Preservation method The methods contributing to the prevention or retardation of microbial, enzymatic or oxidative spoilage and thus to the extension of shelf life 82
K Packing medium The medium in which the food is packed for preservation and handling or the medium surrounding homemade foods, e.g., peaches cooked in sugar syrup 40
M Container or wrapping Type of container or wrapping defined by the main container material, the container form, and the material of the liner lids or ends 286
N Food contact surface The specific container or coating materials in direct contact with the food 51
P Consumer group/dietary use/label claim Consumer group, human or animal, for which the food product is produced and marketed; dietary use, where the food has special characteristics, claims or uses or is intended for individuals with particular dietary needs; and label or labeling claims, used when special dietary use factor terms were derived from actual food labels 248
R Geographic places and regions Contains names of the continents, regions and countries of the world, as well as worldwide fishing regions and geopolitical designations 426
Z Adjunct characteristics of food Additional groups of descriptors of a miscellaneous nature 285
Total 12,674


Fig. 2. 
Entity-relationship model of LanguaLTM thesaurus.

2. 한국형 농식품 시소러스 지식 모형 개발

일반적인 시소러스가 가지는 4대 지식표현 요소의 개념을 수용한 농식품 시소러스 지식 모형을 개발하였다(Fig. 3). 농식품 시소러스 지식 모형은 대표 한글 농식품 명칭(representative Korean food name, 이하 대표식품), 식품 고유 식별자(food identifier)를 기본 변수로 가지고 있고, 1) UF, BT, RT, NT로 구성된 ‘연관 식품어’(associative food terms) 그룹, 2) 해당 식품에서 유래된 ‘파생 시료’(derived samples) 그룹으로 구성하였다. ‘연관 식품어’ 그룹은 BT와 NT는 각각 대표식품의 상위 분류, 하위 식품 명칭을 나타내며, RT는 관련된 식품명을 의미하며, 의미관계망을 품종(race)과 파생 식품(derived foods)으로 세분화하여 관련 식품을 연계하도록 모형을 구성하였다. 동의어인 UF는 의미 관계망 한글명, 영문명, 학명 및 방언 4가지로 세분화하여 지식을 표현하도록 하였다. ‘파생 시료’ 그룹은 대표식품을 식품원으로 하되, 영양학적 특성 등이 변화되는 부위, 상태 등의 특성을 가진 식품을 나타내며, 대표식품의 식품식별자를 참조하도록 하여 연관관계를 부여하고, 파생 시료의 명칭과 함께 LanguaLTM 시소러스 모형에서 제시하고 있는 14종의 식품패싯을 할당하는 개념으로 지식 모형을 도출하였다(Fig. 4).


Fig. 3. 
The architectural design for a group of associative food terms in the Korean agro-food thesaurus knowledge representation model.


Fig. 4. 
The architectural design for a group of derived samples represented by indexing 14 food facets proposed by the LanguaLTM in the Korean agro-food thesaurus knowledge representation model.

3. 한국형 농식품 시소러스 지식 콘텐츠 개발

앞서 기술한 농식품 시소러스 지식모형에 의거하여, 한글 지식콘텐츠를 개발하였다. ‘옥수수’와 ‘시리얼, 옥수수’ 품목을 각각 ‘연관 식품어’, ‘파생 시료’의 한글 지식콘텐츠 구축의 예시로써 제시하였다(Figs. 5, 6). 식품 ‘옥수수’를 이용한 ‘연관 식품어’ 그룹을 살펴보면, UF에 설정된 식품명칭으로 ‘옥수수’를 식별할 수 있으며, BT, NT를 통하여 ‘옥수수’의 상위 분류인 곡류에 속한 식품목록이나, 하위 식품들을 쉽게 추적할 수 있다. 또한, RT를 통하여 품종을 확인할 수 있으며, 파생 식품인 ‘옥수수’가 재료로써 활용되는 샐러드, 팝콘, 식빵, 스프 등 ‘옥수수’ 키워드만으로는 검색할 수 없는 다양한 가공식품 및 조리음식에 대하여 추론 검색하는 데에 활용할 수 있다. ‘옥수수’의 ‘파생 시료’인 ‘시리얼, 옥수수’를 예로써 ‘파생 시료’ 그룹을 살펴보면, 14종의 식품패싯 범주의 코드를 하나 이상을 할당하는 구조로 향후 식품 ‘옥수수’는 물론 ‘파생 시료’에 설정된 식품패싯의 각각의 설정 값(예, C0155 씨) 혹은 상하위 분류를 이용하더라도 정보 추적이 가능하다. 또한, ‘파생 시료’를 기술하기 위한 14종의 식품패싯 자체에 대한 총 12,674건의 한글 지식콘텐츠를 개발하였다(Table 2). LanguaLTM 지식 모형이 가지는 식품패싯의 코딩체계를 기초로 국가-언어 조합의 텍소노미 구조를 준수함으로써, 한글화된 지식 콘텐츠를 생산하였다.


Fig. 5. 
Example of constructing Korean agro-food knowledge contents for a group of associative food terms in the knowledge representation models.

* Food ID represents the unique food identifier assigned by the Rural Development Administration.




Fig. 6. 
Example of knowledge contents indexed fully for breakfast cereal, corn as derived sample in the Korean agro-food knowledge model.

* Food ID represents the parent food identifier for the derived sample.



최종적으로, 국가식품성분표와 수산물성분표에 수록된 식품을 대상으로 데이터 가공프로세스에 따라 처리한 결과 도출된 품목은 총 697품목이었으며, 농식품 시소러스 지식모형에 입각한 총 7,062건의 항목의 한글 지식콘텐츠를 확보하였다(Table 3).

Table 3. 
Statistics of conducted Korean agro-food knowledge contents by terms
Groups Descriptor Numbers
Foods Representative food 697
Potatoes and starches 12
Nuts and seeds 28
Cereals and their products 18
Fruits 67
Eggs 5
Sugars 3
Legumes 16
Mushrooms 26
Milk and dairy products 1
Meat and meat products 15
Cooked and processed foods 3
Seasonings 19
Vegetables 156
Seaweeds 2
Fish and seafood products 314
Others 12
Broader term 697
Narrow term 57
Used for Korean synonyms 395
English synonyms 803
Dialects 454
Scientific name 839
Related term Race/Part 618
Related foods 2,502
Total 7,062


고 찰

서로 다른 방식의 식품 용어로 표현된 디지털 식품정보에 대하여 검색의 효율성을 제고하고, 정밀한 식품의 기술을 위하여 시소러스 기반의 농식품 지식 표현 모형 및 한글 지식콘텐츠를 개발하였다. 국문의 식품과 음식 명칭을 대상으로 동의어에 대한 지식 콘텐츠를 구축하고, 웹사이트를 검색하고자 하는 국내의 연구가 진행된 바 있다(Hong SM 등 2009). 그러나, 본 연구를 통해 개발된 지식표현 모형은 농장에서 식탁까지 연결된 식품의 특성을 고려하여, 원료성 식품 그 자체는 물론 원료성 식품에서 파생된 시료 및 식품들에 대한 의미 관계망을 부여함으로써, 가공식품·조리음식 등 식품공급사슬 단계에 존재하는 다양한 식품 명칭을 포함하여 각각의 식품의 이명, 상위 및 하위 식품을 통하여도 동의어 검색이 아닌 의미 기반의 추론 검색이 가능하도록 고도화하여 설계하였다. 또한, 국문의 식품정보와 다른 언어로 기술된 식품정보와의 연계성 확보를 위해서, WHO/FAO에서 개발되어 운영되고 있는 LanguaLTM 시소러스 모형을 면밀히 분석하고, 전체 식품 패싯들의 그룹 및 세부 항목들에 대한 한글 지식 콘텐츠를 생산하였고, 코드체계 등 메타데이터의 호환성을 확보하였다. 특히, LanguaLTM 내의 패싯의 분류 및 항목 등 농식품 용어에 대한 한글 용어 콘텐츠 선정 시 대표성 및 공신력 확보를 위하여 국가기관 및 식품관련 학회에서 발행한 용어 자료원(Table 1)을 확보하여 적용하고, 부재 시, 관련 분야를 전공한 자문위원들의 자문을 통하여 한글 용어를 개발하였다. 그러나, 일부 용어는 국내 전문가 그룹 차원에서의 합의 등 대표성 측면에서는 제한점을 가지고 있다.

본 연구를 통하여 도출된 식품패싯의 한글 지식콘텐츠는 일종의 식품기술의 표준체계로 국내에 신규로 생산되는 식품정보의 식품용어에 대하여 해당 식품이 가지는 특성인 식품패싯들을 정밀하게 태깅(tagging)함으로써, 설정된 식품패싯을 활용하여 국내식품 정보는 물론 국외 식품 정보까지 연결하여 의미 기반의 지능적인 식품정보 검색(Ireland JD & Moller A 2010)을 지원한다. 또한, 본 연구를 통한 농식품 시소러스 모형은 언어와 표기방식을 초월한 비정형 자연어를 처리할 수 있는 핵심 도구로써(So HS 등 2016; Youn J 등 2020) 산업체의 식품 소재 발굴 지원, 식품 영양-안전 정보 융합 등 다양한 분야의 통섭적 지식정보 수집, 구조화 및 통합에 활용될 수 있을 것으로 생각된다.

다만, 2017년에 ‘LanguaLTM’ 시소러스 모형이 보다 상위 S-KRM모형인 온톨로지 기반의 ‘FoodOn’ 모델로 이관 및 전환된 상태(LanguaLTM 2017)이므로 ‘FoodOn’ 기반의 모형을 본 연구의 대상으로 하는 것이 시의적으로 적절하다. 그러나, 본 연구에서는 하위 모형인 ‘LanguaLTM’ 모형을 채택하였다. 그 이유는 1) 제한된 관계망을 가지므로 구축의 복잡도가 상대적으로 낮으며, 2) 현재까지, FoodOn 모델은 개발 중으로, 글로벌 수준에서 활용도가 높은 식품데이터베이스인 SR, GEMS/FOOD, EuroFIR 등이 아직 ‘LanguaLTM’ 모형을 사용하고 있는 점, 3) 온톨로지 모형이 시소러스의 상위 모형이므로 시소러스로부터 온톨로지 모형으로 자동 전환이 가능하고, 관계된 스크립트가 존재하는 점(IC-FOODS 2017) 때문이다.

마지막으로, 향후 한국형 농식품 시소러스 지식표현 모형의 활용성을 보다 증진하기 위해서는 기존에 생산된 식품 데이터베이스 등 식품정보의 모형의 적용과 함께 향후 해당 지식모형 기반의 데이터베이스 축적을 위한 개방형 API(application programming interface) 등 모형의 민간 보급 체계 마련이 필요하며, 차세대 S-KRM 모형인 온톨로지 기반의 ‘FoodOn’ 모형으로의 전환 작업이 이루어져야 할 것으로 생각된다.


요약 및 결론

농업, 식품 제조·가공, 식생활 영양·안전, 정밀 의료 분야의 연구 대상이자 핵심요소인 식품 용어가 목적에 따라 다양한 유의어, 서로 다른 언어로 기술되고 있어, 학술문헌, 식생활 데이터베이스, 보고서, 언론 기사 등 디지털 채널로부터 식품 정보의 수집 시, 제한적인 정보검색 결과가 획득되며, 식품정보의 통합을 위한 반복적인 수작업 가공이 요구되고 있다. 따라서, 본 연구에서는 농장부터 식탁까지 다양하게 서비스되고 있는 농식품 디지털 정보를 완전하고, 신속하게 초연결하고 의미 기반의 검색을 목적으로 농식품 시소러스 지식표현 모형을 확립하고, 해당 모형에 입각한 한글 지식콘텐츠를 생산하였다. 농식품 시소러스 지식표현 모형은 ‘연관 식품어’, ‘파생 시료’ 그룹으로 구획화하고, ‘연관 식품어’ 그룹은 시소러스가 가지는 핵심 특성인 동의어, 상·하위어 및 관련어의 프레임워크를 기반으로, 농식품 어휘가 가지는 방언, 학명, 언어, 품종, 파생 식품 등의 세부특성을 반영 모형을 제시하였다. 또한, ‘파생 시료’ 그룹은 상태, 부위, 조리방법 등 식품의 상세 특성을 제안한 LanguaLTM 식품패싯을 도입하고, ‘파생 시료’별 할당하는 방식으로 식품을 기술하는 모형을 개발하였다.

최종적으로 해당 모형을 적용하여, 총 697품목의 식품에 대한 총 7,062건의 ‘연관 식품어’를 개발하고, 기반이 되는 LanguaLTM 식품패싯에 대한 총 12,674건의 한글화된 지식콘텐츠을 개발함으로써 한국형 농식품 시소러스 지식표현 모형을 확립하였다. 본 연구는 일종의 통제된 용어 표준으로써, 공공·민간 식품 데이터베이스 등 새로운 컴퓨터 기반의 식품지식베이스 구축 및 기존의 다양한 용어로 표현되어 구축된 디지털 식품 정보에 대하여 의미 기반의 지능적 검색에 효과적으로 활용될 수 있을 것으로 생각된다.


Acknowledgments

본 성과물은 농촌진흥청 연구사업(과제번호:PJ01704701)의 지원에 의해 이루어졌으며, 이에 감사드립니다.


References
1. Chang IH (2011) Developing and evaluating an ontology-based legal retrieval system. Journal of the Korean Society for Library and Information Science 45(2): 345-366.
2. Dooley DM, Griffiths EJ, Gosal GS, Buttigieg PL, Hoehndorf R, Lange MC, Schriml LM, Brinkman FSL, Hsiao WWL (2018) FoodOn: A harmonized food ontology to increase global food traceability, quality control and data integration. NPJ Sci Food 2(23): 1-10.
3. FoodOn (2018) A Farm to Fork Ontology. https://foodon.org (accessed on 31. 5. 2023).
4. Gilbetic M, Kadvan A, Tepsic J, Martacic JD, Djekic-lvankovic M, Gurinovic M (2011) Management of food composition database harmonized with EuroFIR criteria using a web application. J Food Compos Anal 24(4-5): 741-743.
5. Hong SM, Cho JY, Park YJ, Kim MC, Kim G (2009) NutriSyn: Knowledge based synonym retrieval service for food and dishes on the web. J Korean Diet Assoc 15(3): 286-297.
6. IC-FOODS (2017) IC-FOODS/Foodon-Langual. https://github.com (accessed on 31. 5. 2023).
7. Ireland JD, Moller A (2010) LanguaL food description: A learning process. Eur J Clin Nutr 64(3): S44-S48.
8. Korean Agro-Fisheries & Food Trade Corporation (2018). Investigation of Food Additives and Hazardous Substances in Major Export Destinations (Malaysia Edition). https://m.kati.net (accessed on 31. 5. 2023).
9. Korean Society of Food Science and Technology (2015). Food Science Terminology Dictionary. Gyomoonsa, Korea. pp 1-723.
10. LangualTM (2017) The International Framework for Food Description. https://www.langual.org (accessed on 31. 5. 2023).
11. Lee HJ, Han EY, Kwon NJ, Kim YS, Kim SN, Kim HR, Min SG (2017) Korean Rural Development Administration’s web based food and nutrient database management and validation system (NutriManager) -A report. J Food Compos Anal 62: 231-238.
12. Lee HJ, Kwon NJ, Kim YS, Han EY (2018) Development of nutritional risk assessment platform in Korea. Regul Toxicol Pharmacol 98: 9-17.
13. Mckillop K, Harnly J, Pehrsson P, Fukagawa N, Finle J (2021) FoodData Central, USDA’s Updated approach to food composition data systems. Curr Dev Nutr 5(2): 596.
14. Ministry of Food and Drug Safety (2019). Food Classification Code. https://www.foodsafetykorea.go.kr (accessed on 31. 5. 2023).
15. Moller A, Ireland J (2015) LanguaLTM 2017. The LanguaLTM Thesaurus Technical Report. Danish Food Informatics, Roskilde, Denmark. pp 7-18.
16. Moreira A, Alvarenga L, Oliveira AP (2004) “Thesaurus” and “Ontology:” A study of the definitions found in the computer and information science literature, by means of an analytical synthetic method. Knowl Org 31(4): 231-244.
17. National Institue of Fisehries Science (2018). Composition Table of Marine Products in Korea. https://www.sejong.nl.go.kr (accessed on 31. 5. 2023).
18. Oh JH (2022) A strategy for constructing the thesaurus of traditional east Asian medicine (TEAM) terms with machine learning. JKMC 35(1): 93-102.
19. Pennington JAT, Smith EC, Chatfield MR, Hendricks TC (1994) LANGUAL: A food-description language. Terminology 1(2): 277-289.
20. Rural Development Administration (2021) Korean Food Composition Database. Koreanfood. https://www.rda.go.kr (accessed on 31. 5. 2023).
21. Rural Development Administration (2021). National Institute of Agricultural Sciences. Standard Food Composition Table. http://koreanfood.rda.go.kr (accessed on 31. 5. 2023).
22. So HS, Kang SS, Oh SW (2016) Building a knowledge base on food safety for artificial intelligence. Safe Food 11(4): 36-42.
23. Youn J, Naravane T, Tagkopoulos I (2020) Using word embeddings to learn a better food ontology. Front Artif Intell 3: 584784.