6.5 KiB
Wikipedia vs. LLM (1 из 4) 2025-03-06=
источник https://t.me/dkkru/716
Детали
-
Wikipedia и LLM (Большая лингвистическая модель) представляют собой сопоставимые по значимости феномены XXI века.
-
Как Wikipedia, так и LLM базируются на одних и тех же многочисленных корпусах текстов.
-
В LLM нет встроенного логического блока. Тем не менее, эссе, получаемые с помощью LLM, несут в себе “человеческую” логику и, чаще всего, содержат правдоподобные причинно-следственные связи.
-
В полученных из LLM эссе нет ссылок на первоисточники. Каждый новый идентичный запрос к LLM будет порождать не эквивалентный текст. Поэтому сделать ссылку на полученный ответ от LLM нельзя, но можно приложить текст конкретного ответа.
-
Особенностью LLM является то, что она дает самый обобщенный ответ по теме, пытаясь выразить конкретный фрагмент общей “картины мира”.
-
Обычно тема “картины мира” является сферой философской науки. Многие философы старались создать цельное учение о “картине мира”. Хотя определенные части философских учений и великолепны, но, тем не менее, в полном объеме они не имеют статуса “истинных”.
-
В конце XX века по многим причинам вместо поиска “истинного” философского учения о “картине мира” философская мысль сосредоточилась на теме “дискурса”.
-
В самой простой интерпретации дискурс - это поток сознания (речи, текста), который отражает действительность. При этом совокупность дискурсов опосредованно должна порождать адекватную “картину мира”.
-
В этом контексте феномен LLM заключается в том, что LLM содержит все существующие в мире дискурсы.
-
Wikipedia представляет собой феномен другого рода.
-
По способу реализации Wikipedia является социальной сетью, созданной в пространстве интернета.
-
Каждая статья Wikipedia редактируется профильными специалистами, содержит ссылки на первоисточники и имеет постоянный адрес хранения. Изменения, исправления и уточнения в каждой конкретной статье отражаются в соответствующих комментариях.
-
Каждая статья Wikipedia ограничена по объему и посвящена достаточно узкой теме или является кратким обзором широкой темы.
-
Как правило (если это не реферат), информации, содержащейся в одной статье, недостаточно. Поэтому необходимо пройти по приведенным в статье ссылкам и изучить соответствующие материалы.
-
Каждая новая статья содержит собственные ссылки. Так что процесс изучения материала становится рекуррентным.
-
Еще большей проблемой являются ссылки на классические учебники, изучение которых требует слишком много времени.
-
В Wikipedia имеется API: MediaWiki, с помощью которого можно получить содержимое статей, категорий и метаданных.
-
MediaWiki использует английский язык. При этом можно получить перечень языков, на которых имеется аналогичная статья. Так для слова “Sun” в Wikipedia имеется аналогичные статьи на 301-м языке, а для слова “Moon” только на 279-и языках.
-
В синей рамке приведены первые 4 абзаца статьи “Луна”.
-
В Wikipedia применяется внутренняя система назначения статьям категорий и подкатегорий. Эта система больше ориентирована на решение внутренних технологических проблем и не всегда корректно отражает структуру соответствующей области знаний. В зеленой рамке приведен список подкатегорий категории “Chemistry”.
-
Токеном для информационных объектов Wikipedia является WikidataID.
-
Метаданные Wikipedia позволяют получать релевантные выборки из всего массива данных. В зеленой рамке приведен график количества поденных обращений со словами “зима”, ”весна”, ”лето”.

Идеи, цели, выводы
- Если эссе LLM дает междисциплинарное резюме по заданному вопросу и написано преимущественно в общеупотребительных терминах, то статья Wikipedia, при освещении соответствующей темы, ориентируется на цеховую и специализированную терминологию.