- 두 가지 이상 질병이 있는 경우 정확성 크게 떨어져
- 신뢰할 수 있는 출처 인용하는 웹사이트 이용 권장
챗GPT 유행에 편승했다면 이를 사용해 소셜 미디어 게시물, 연인을 위한 시 또는 법률 문서를 작성할 수 있다. 하지만 영양에 대한 조언을 위해 챗GPT를 사용해야 할까하는 의문에 대한 대답은 '그렇지 않다'라는 것이다.
미국의 식품 전문 매체 '이팅웰(EatingWell)'은 2024년 2월 6일 학술지 뉴트리언츠(Nutrients)에 발표된 챗GPT에서 생성된 영양 조언이 국제 식이 지침의 권장 사항과 일치하는지 여부를 평가하는 연구 결과를 보도했다.
이 연구는 지난 2023년 11월 3일 두 개의 실험으로 나누어 진행됐다. 연구 저자는 △이상지질혈증(고콜레스테롤혈증 및 고중성지방혈증) △동맥성 고혈압 △제2형 당뇨병(T2DM) △비만 △비알코올성 지방간 질환(NAFLD) △만성 신장 질환(CKD) △근육감소증 등을 포함해 특정 식이 요법이 필요한 여러 가지 의학적 상태에 중점을 두었다.
흥미로운 점은, 비알코올성 지방간 질환(NAFLD)은 최근 이름과 정의 모두에서 일종의 브랜드를 변경했으며, 현재는 대사 기능 장애 관련 지방간 질환(MASLD)이다. 그러나 연구 당시 챗GPT의 지식 기반은 2022년 1월까지의 업데이트로 제한되어 있었기 때문에 연구자가 대사 장애 관련 지방간 질환을 입력했을 때 응답을 제공할 수 없었다. 따라서 NAFLD를 기본으로 답변했다.
의사 및 등록 영양사(RD) 패널과 함께 연구원들은 환자가 의료 전문가에게 자신의 상태에 관해 질문하는 방식을 복제하는 언어를 사용해 챗GPT에 입력할 메시지를 개발했다.
메시지는 △"[질병] 관리를 위한 최적의 식단 계획에 대한 지침을 제공해 주실 수 있나요?" △"[질병]에 대한 식이 요법 권장 사항은 무엇입니까?" △"[질병]이 있는데, 무엇을 먹어야 하나요?" 등이었다.
실험 1의 경우 챗GPT와의 각 대화에서는 각 프롬프트에 대해 별도의 채팅 세션을 사용했다. 챗GPT는 상황과 대화 기록에 따라 동일한 프롬프트에 대해 서로 다른 응답을 생성할 수 있으므로 이는 연구의 타당성을 높이는 데 도움이 됐다.
각 질문은 세 번 제기되었으며, 모델의 기억과 관련된 잠재적인 편향을 방지하기 위해 세 가지 질문 각각은 새로운 채팅 세션 내에서 수행됐다. 응답은 프롬프트에 따라 약간의 차이를 보였지만 나열된 권장 사항은 거의 변동 없이 일관되게 유지했지만, 결과적으로 가장 포괄적인 답변, 즉 가이드라인에 맞춰 가장 많은 정보를 제시한 답변이 고려됐다.
챗GPT의 응답은 서로의 평가에 대해 '블라인드'인 두 명의 등록 영양사가 독립적으로 평가하고 분류했다. 두 RD는 연구에 포함된 의학적 상태에 대한 32년의 임상 경험을 결합하여 높은 자격을 갖추고 있었다. 평가에 논란이 있는 경우 세 번째 검토자(의사)가 참여했다.
챗GPT의 조언은 현재 국제 영양 지침과 일치하면 '적절', 조언이 지침을 벗어나면 '지원되지 않음', 챗GPT 조언 중 일부가 현재 지침과 일치하지만 전부는 일치하지 않으면 '완전히 일치하지 않음'으로 판단했다.
또한 챗GPT 조언이 일반화되었고 요청된 특정 조건을 대상으로 하지 않은 경우 '일반 조언'으로 지정되었으며, 챗봇의 응답에 식이 권장 사항이 누락된 경우 '누락'으로 표시됐다.
실험 2의 경우, 연구자들은 두 가지 이상의 조건을 포함하는 더 복잡한 시나리오를 만들어서 수준을 높였다. 예를 들어, 그들은 제2형 당뇨병, 비만, 만성 신장 질환을 앓고 있는 가상의 환자를 만들었다. 그 반응들은 다시 전문가 패널에 의해 평가됐다.
전반적으로, 챗GPT의 실험 1에 대한 적합성 비율은 조건에 따라 55.5%에서 73.3%에 달했다. 연구원들은 일반적으로 챗GPT에서 제공되는 정보의 대부분이 정확하지만, 챗GPT가 제공하는 조언과 국제 지침 사이에는 몇 가지 불일치가 있다는 점을 발견했다.
예를 들어, 국립신장재단(National Kidney Foundation)은 질병 진행 단계가 5단계인 만성 콩팥병 환자의 단백질 섭취에 대해 국제 지침에서 단계별 권장 사항을 제시한다고 밝혔다. 챗GPT는 단지 전반적으로 비특이적인 단백질 제한을 제시했다.
챗GPT의 응답에는 수분을 잘 유지하고 가공식품을 피하는 것과 같은 일반적인 영양 조언도 많이 포함되어 있다. 연구 저자는 전반적으로 "챗GPT 조언은 식단에 포함될 식품의 실용적인 예를 제공하는 일반적인 것이었고 후자의 정보는 지침에 자주 보고되지 않았다"라고 말했다.
실험 2의 경우 실제 상황에서 흔히 발생하는 조건을 결합하면 챗GPT의 정확도가 크게 떨어졌다. 제2형 당뇨병, 비만, 만성신장질환을 앓고 있는 가상 환자를 제시했을 때 챗봇을 혼란스럽게 하여 상충되거나 부적절한 조언을 제공하는 것으로 나타났다.
그런 다음 연구원들은 범위를 좁혀 만성 신장 질환의 특정 단계를 프롬프트에 제공했으며, 그 결과 챗GPT는 당뇨병, 신장 질환 및 비만 등 각 개별 상태를 대상으로 하는 조언을 통합하는 대신 분리했다.
그렇기는 하지만, 챗봇은 맞춤형 식사 계획을 위해 등록 영양사와 상담하는 것이 중요하다는 점을 거듭 강조했다.
사람들이 의료 및 영양 조언을 포함한 정보를 얻기 위해 인터넷을 이용하는 것이 점점 더 일반화되고 있다. 그러나 사용자는 자신이 받는 정보의 정확성에 관해 운에 맡기는 경향이 있다.
예를 들어, 뉴트리언츠의 2020년 연구에 따르면 소셜 미디어의 음식 및 영양 관련 정보 게시물 중 5%만이 등록된 영양사와 같은 영양 전문가가 작성한 것으로 나타났으며, 공중보건영약학(Public Health Nutrition)의 2023년 리뷰에 따르면 온라인에서 제공되는 영양 정보의 약 절반이 품질이 낮거나 정확도가 낮은 것으로 조사됐다.
이 현재 연구에 따르면 챗GPT는 영양 정보를 얻을 수 있는 가장 정확한 원천이 아니라는 것을 시사한다.
챗GPT는 일반적인 영양 조언을 제공할 수 있지만, 관련된 질병이 있는 경우, 특히 두 가지 이상의 질병이 있는 경우 정확성이 부족한 것으로 확인됐다. 또한 전반적인 건강과 웰빙의 중요한 구성 요소인 식사와 건강의 정서적 측면을 통합할 수 없다.
이에 따라 영양 정보를 찾는 사람은 이상적으로는 등록된 영양사와 일대일로 상담하는 것이 좋다. 그러나 이것이 모든 사람에게 가능한 것은 아니므로, 차선책은 RD가 콘텐츠를 작성 및 검토하고 신뢰할 수 있는 출처를 인용하는 웹사이트를 찾는 것을 권장한다.