Browsing projects by Tag(s)

Select a tag to browse associated projects and drill deeper into the tag cloud.

Showing page 1 of 1

В общем, идея заключалась в создание глобального репозитория сайтов(для начала зоны СНГ), с целью последующего анализа их содержимого, при чём - совершенно ... [More] разнопланового: изображения, семантическое значение текста, сайты, на которые данный ресурс ссылается, файлы. которые на нём размещаются. Основной идей было создание полностью демократизированной системы вычисления индекса "приемлемости", с минимизацией участия субъективных мнений, при чём если они и входят в параметры вычисления оценки, то должны быть подтверждены фактами, которые предоставляются на публичное обозрение. Система вычисления индекса приемлемости (ИП) заключалась в 3-х шагах обработки: Машинная обработка информации сайта Подтверждение результатов администрацией Прибавление отдельного атрибута - мнение общественности. Первый шаг состоял из следующих подпроцедур: Лексический анализ содержимого с учётом семантики русского языка. Оценка может иметь значения: "Удовлетворительно", "Спорно", "Неудовлетворительно". Так же подразумевается анализ документов типа "ТХТ", "DOC", "PDF" в рамках данного домена. Анализ дерева отношений сайта, по отношению к другим сайтам. То есть, если сайт имеет прямые ссылки на сайты, которые имеют ИП в значении "Неудовлетворительно" либо "Спорно", то для данного сайта устанавливается соответствующее значение, в зависимости от контекста ссылки (характера ссылки на ресурс с неудовлетворительным либо спорным ИП). Проверка безопасности файлов, которые размещены в рамках данного домена путём возможностей системы вирусной проверки - Др. Веб. Анализ изображений на поиск образов, неудовлетворяющих этическим соображениям, либо содержащие элементы порнографического характера (наиболее утопических пункт). В конце проверки составляется протокол проверки, и описываются все те пункты, которые система сочла как спорные либо неприемлемые, с указанием адреса, по которому они были обнаружены на целевом сайте, и адресом на кешированную версию страницы, созданную в момент анализа. К протоколу добавляются так же результаты проверки файлов антивирусной системой. Проверка администратором была представлена следующими возможностями: Проверка протокола, и подтверждение правильности результатов системы, так как возможны ошибки во время определения контекста слов, из-за неоднозначности слов неформального языка, либо ошибок определения характера ссылок на спорные либо неприемлемые ресурсы. Ну, и безусловно, подтверждение результатов системы в плане анализа изображений. Все расхождения с системным результатом так же должны быть добавлены к протоку вычисления индекса приемлемости, и быть доступны публичному обзору. Администратор обязан подписать результаты проверки и протокол своей цифровой подписью. Ну и последний пункт заключается в следующем: Добавление новых фактов, которые возможно смогут повлиять на текущее значение ИП данного сайта. Добавление фактов, на основе которых вычисляется атрибут индекса доверия сайта, который невозможно вычислить путём машинной обработки - индекс доверия к сайту, основанный на фактах мошенничества, обмана пользователей, либо предоставления не соответствующих действительности фактов. Исходя из вышеописанного, мы получаем два фактора, которые определяют индекс доверия к сайту: Индекс Приемлемости (ИП) и Индекс Доверия (ИД). Это независимые атрибуты, при чём сайт может быть приемлемым, однако с негативным Индексом Доверия, что сообщается в отдельном порядке. При этом, в данном схеме наиболее полезным и информативным будут является не факторы ИП и ИД, но сам протокол проводки проверки, который так же является публично доступным. Зачем это нужно? Это нужно как обычным людям, которые по тем либо иным причинам хотят получать приемлемые по содержанию информационные материалы среди всего массива данных Интернет. Кроме того, эта информация может быть очень важной корпоративным клиентам, у которых есть необходимость фильтрации информационных материалов, как в плане Приемлемости, так и в плане Достоверности. Ну и, безусловно, в суперсумме двух вышеописанных пользователей мы можем упомянуть ещё одного пользователя - поисковые системы, которые, в каком-то плане, представляют и обычного человека, и корпоративного клиента, так как нуждаются в проверки и ИП и ИД ресурсов. Вот-с. Думаю, я действительно буду продолжать эту идею, сейчас пока только составил небольшие проекты и UMl-модели базовых операций. Может что-то интересное и получится :) Использование сторонних решений и библиотек: Doctrine ORM - объектно-реляционные модели БД (http://doctrine-project.org) Zend Framework - платформа функционирования (http://framework.zend.com) ExtJS - реализация пользовательского интерфейса (http://extjs.com) PHPUnit - модульное тестирование (http://phpunit.de) Статьи в Вики: Добавление ресурсов на проверку Получение информации о ресурсах (WHOIS, Meta-данные, т.д.) Система определения языка материалов Просмотр информации о ресурсе Регистрация пользователя Аутентификация на сайте Авторизация пользователя по OpenID Пользовательский интерфейс Возможность добавление фактов и данных о ресурсе со стороны общественности Поиск существующих ресурсов Система автоматической проверки и формирования отчётов Алгоритм вычисления диффиренциальной оценки приемлемости ресурса Работа с запакованными данными (архивы, PDF, т.д.) Периодическая активация процедуры повторной проверки ресурса Интеграция с Dr.Web WebGateway Лексический анализ текстов сайта Обработка внешних ссылок ресурса Просмотр истории протоколов проверки ресурса Процедура подписывания протокол проверки модераторами API-интерфейс Плагин для FireFox'а и др. Периодический бэкап данных Оповещение пользователей об обновлениях и событиях Сохранение данных для подтверждения информации Система балансировки запросов через HTTP Покрытие функциональными и модульными тестами Сжимать устаревшие данные из архива протоколов, фактов, и прочего Методы защиты от потери данных Создание статистических отчётов (включая диаграммы) о ресурсах Механизм контроля доступа к системе со стороны API Режим ручной проверки корректности изображений модераторами системы [Less]

0
 
  0 reviews  |  0 users  |  749,410 lines of code  |  0 current contributors  |  Analyzed about 2 years ago
 
 
 
 

Creative Commons License Copyright © 2013 Black Duck Software, Inc. and its contributors, Some Rights Reserved. Unless otherwise marked, this work is licensed under a Creative Commons Attribution 3.0 Unported License . Ohloh ® and the Ohloh logo are trademarks of Black Duck Software, Inc. in the United States and/or other jurisdictions. All other trademarks are the property of their respective holders.