doc/BPM/AI/LLM_wikipedia.md
2025-03-09 14:14:09 +03:00

6.5 KiB
Raw Blame History

Wikipedia vs. LLM (1 из 4) 2025-03-06=

источник https://t.me/dkkru/716

Детали

  • Wikipedia и LLM (Большая лингвистическая модель) представляют собой сопоставимые по значимости феномены XXI века.

  • Как Wikipedia, так и LLM базируются на одних и тех же многочисленных корпусах текстов.

  • В LLM нет встроенного логического блока. Тем не менее, эссе, получаемые с помощью LLM, несут в себе “человеческую” логику и, чаще всего, содержат правдоподобные причинно-следственные связи.

  • В полученных из LLM эссе нет ссылок на первоисточники. Каждый новый идентичный запрос к LLM будет порождать не эквивалентный текст. Поэтому сделать ссылку на полученный ответ от LLM нельзя, но можно приложить текст конкретного ответа.

  • Особенностью LLM является то, что она дает самый обобщенный ответ по теме, пытаясь выразить конкретный фрагмент общей “картины мира”.

  • Обычно тема “картины мира” является сферой философской науки. Многие философы старались создать цельное учение о “картине мира”. Хотя определенные части философских учений и великолепны, но, тем не менее, в полном объеме они не имеют статуса “истинных”.

  • В конце XX века по многим причинам вместо поиска “истинного” философского учения о “картине мира” философская мысль сосредоточилась на теме “дискурса”.

  • В самой простой интерпретации дискурс - это поток сознания (речи, текста), который отражает действительность. При этом совокупность дискурсов опосредованно должна порождать адекватную “картину мира”.

  • В этом контексте феномен LLM заключается в том, что LLM содержит все существующие в мире дискурсы.

  • Wikipedia представляет собой феномен другого рода.

  • По способу реализации Wikipedia является социальной сетью, созданной в пространстве интернета.

  • Каждая статья Wikipedia редактируется профильными специалистами, содержит ссылки на первоисточники и имеет постоянный адрес хранения. Изменения, исправления и уточнения в каждой конкретной статье отражаются в соответствующих комментариях.

  • Каждая статья Wikipedia ограничена по объему и посвящена достаточно узкой теме или является кратким обзором широкой темы.

  • Как правило (если это не реферат), информации, содержащейся в одной статье, недостаточно. Поэтому необходимо пройти по приведенным в статье ссылкам и изучить соответствующие материалы.

  • Каждая новая статья содержит собственные ссылки. Так что процесс изучения материала становится рекуррентным.

  • Еще большей проблемой являются ссылки на классические учебники, изучение которых требует слишком много времени.

  • В Wikipedia имеется API: MediaWiki, с помощью которого можно получить содержимое статей, категорий и метаданных.

  • MediaWiki использует английский язык. При этом можно получить перечень языков, на которых имеется аналогичная статья. Так для слова “Sun” в Wikipedia имеется аналогичные статьи на 301-м языке, а для слова “Moon” только на 279-и языках.

  • В синей рамке приведены первые 4 абзаца статьи “Луна”.

  • В Wikipedia применяется внутренняя система назначения статьям категорий и подкатегорий. Эта система больше ориентирована на решение внутренних технологических проблем и не всегда корректно отражает структуру соответствующей области знаний. В зеленой рамке приведен список подкатегорий категории “Chemistry”.

  • Токеном для информационных объектов Wikipedia является WikidataID.

  • Метаданные Wikipedia позволяют получать релевантные выборки из всего массива данных. В зеленой рамке приведен график количества поденных обращений со словами “зима”, ”весна”, ”лето”.
    ris
    Идеи, цели, выводы

  1. Если эссе LLM дает междисциплинарное резюме по заданному вопросу и написано преимущественно в общеупотребительных терминах, то статья Wikipedia, при освещении соответствующей темы, ориентируется на цеховую и специализированную терминологию.