| Представления данных для машинного обучения? |
[Jun. 23rd, 2009|02:40 pm] |
Существует ли какое-нибудь практическое руководство техник представления данных в векторный вид? В первую очередь интересует для SVM и пр. large margin алгоритмов.
Знаю о существовании A practical guide to SVM classification для LIBSVM. Хотелось что-нибудь развернутого. В частности интересует представление невекторных данных. Понятно, что представление очень сильно зависит от задачи, но хотелось бы общих принципов. И если можно - то и примеров тоже.
Что почитать? |
|
|
| Вопрос по методу SVM |
[Jun. 8th, 2009|04:52 pm] |
Вопрос к знатокам метода SVM (Support Vector Machines). Как известно, в основе метода классификации SVM лежит решение задачи квадратичного программирования относительно весов базовых объектов - ядер (kernels). Значение же свободного члена (bias) в выражении для разделяющей поверхности находится опосредованно, через условие Куна-Такера. В то же время в ряде статей это значение так или иначе меняется (уже после определения остальных параметров разделяющей гиперплоскости, т.е. весов ядер), и разделение объектов (классификация) производится уже с учетом этого нового значения bias. Насколько это правомочно - ведь при изменении bias и значения весов ядер уже не являются оптимальными с позиции исходной задачи минимизации средней ошибки? |
|
|
| RuSSIR 2009 |
[May. 27th, 2009|06:53 pm] |
Дорогие друзья!
Если вы откладывали до последнего, чтобы зарегистрироваться на Руссир 2009, то это последнее наступило. Регистрация заканчивается 1 июня, т.е. через 5 дней.
Те, кто вдруг забыл, что это такое, могут освежить память тут. Сама же регистрация происходит через объединенную форму RCDL, RuSSIR, Romip: здесь.
via elada. ___________________
UPD. До того, как идти на объединенную форму регистрации, загляните сюда. |
|
|
| последний в этом году nlp-семинар |
[May. 17th, 2009|02:24 pm] |
Последний в этом году семинар по автоматической обработке текста состоится в ближайщую среду, 20-го мая в 18-30.
Докладчик: Денис Столяров (кафедра матлингвистики)
Тема: Системы автоматического перевода: example-based translation
Аннотация: В данный момент автоматический или автоматизированный перевод на основе прецедентов представляет одно из самых экзотических направлений в области машинного перевода. Концептуальная новизна, новейшие программные технологии и парадигмы, четко расставленные приоритеты - вот его самые привлекательные черты. В докладе рассматриваются идеи, лежащие в основе автоматического перевода на основе прецедентов, их модификации и существующие на данный момент некоммерческие реализации, в том числе в рамках проекта автоматизированного перевода при кафедре математической лингвистики Филологического ф-та СПбГУ.
Адрес прежний: 10-я линия В.О., д.49, ауд. 308 Предварительной регистрации не требуется, на вахте не тушуйтесь.
|
|
|
| IR аспирантура в Мск |
[May. 5th, 2009|08:01 pm] |
Всем доброго времени суток!
У меня есть совершенно необузданное желание заниматься интересными мне вещами. Но на кафедре [вполне себе IR/CS/ML тематики], где я заканчиваю учебу, научной жизни фактически нет. Поэтому интересуюсь: куда лучше пойти в аспирантуру/где найти научного руководителя?
http://community.livejournal.com/ru_ir/67501.html читал. Хочу еще =)
Спасибо! |
|
|
| В связи с кризисом... |
[Apr. 30th, 2009|05:37 pm] |

...и продолжающимися попытками ботов использовать доброту участников сообщества в ru_ir вводится карантин.
Теперь, чтобы присоединиться к сообществу, нужно пройти фэйс-контроль. |
|
|
| RuSSIR 2009 - КМУ |
[Apr. 28th, 2009|12:01 pm] |
На конференции молодых ученых Руссир 2009 продлен срок подачи работ - до 20-го мая. Подробности на сайте школы. |
|
|
| очередной семинар |
[Apr. 21st, 2009|05:06 pm] |
29 апреля, в среду, 18.30 по адресу 10-ая линия В.О., дом 49, ауд. 308 состоится очередное заседание nlp-семинара
докладчик: Михаил Александров (Autonomous University of Barcelona)
Темы 1) Группировка суперкоротких текстов (учебная информация) ( Абстракт ) 2) Индуктивный метод самоорганизации моделей (ИМСОМ) и его применение в задачах обработки текстов ( Абстракт. ) 3) Модели представления знаний в Инете (краткое сообщение по материалам А. Трусова, IBM) ( Абстракт. ) Вход свободный, преварительной регистрации не требуется.
Напоминаю, что на нашем сайте доступны материалы предыдущих семинаров. Особенно рекомендую: Екатерина Филиппова: Современные подходы к автоматическому составлению рефератов - весьма толковый обзор на малораспространенную у нас тему.
Артем Андреев: Логический подход к синтаксическому анализу - нечто уникальное и невероятное; все, кто там был, до сих пор под впечатлением.
|
|
|
| Русские книги по поиску |
[Apr. 13th, 2009|03:09 am] |
Привет всем.
Пытаюсь составить аннотированный список литературы по информационному поиску на русском языке. Всё, что нарыл в интернете (например здесь http://www.kansas.ru/ai2006/ ) - привожу под катом. Последнее издание датировано 1983 годом.
Почти ничего из списка живьем не держал (Черный стоит в библиотеке, Солтон доступен в виде некоторый статей в интернете и сборнике "Information Retrieval", которая стоит в библиотеке Яндекса)
Буду крайне признателен за комментарии к любому из пунктов списка: читали, слышали, не слышали, "это вообще не про поиск", ваше мнения про качество материала, про качество перевода, про конвенциональность терминологии и тд.
Еще более призателен буду за указание на пропущенные издания.
Илья
( Read more... ) |
|
|
| Scientist wanted! |
[Apr. 8th, 2009|10:46 am] |
Уважаемые читатели ru_ir, я помню, где-то в окрестности моей френдоленты, была запись про юного (кажется канадского) computer science гения, который очень рано закончил университет и получил PhD. Что-то вроде цифр 15-17 лет и 20 лет. Кроме того, у него к 20 с небольшим годам было какое-то очень большое число публикаций (больше 200). Никто не напомнит мне фамилию этого "вундеркинда"? PS: у него была интересная (но исключительно теоретическая) публикация про минимально возможный размер структуры, которая по функциональности соответствует суффиксному дереву. |
|
|
| весенняя сессия семинара |
[Mar. 27th, 2009|11:38 am] |
Приглашаем всех желающих на весеннюю сессию семинара по автоматической обработке текста. Ближайшая программа:
1 апреля Артем Андреев «Логический подход к синтаксическому анализу»
15 апреля Анна Фомченко Translation Memory and CAT – мастер-класс
20 мая Денис Столяров Автоматический перевод (тема уточняется)
Возможно, между 15-м апреля и 20-м мая еще какие-то темы будут (мы ведем переговоры с докладчиками).
Семинар проходит по средам в 18.30 по адресу 10-ая линия В.О., дом 49, ауд. 308. Вход свободный предварительной регистрации не требуется.
|
|
|
| (no subject) |
[Mar. 17th, 2009|10:26 pm] |
Было бы интересно услышать мнение профессионалов поиска о качестве поиска у нас Поиск специализированный, по адобовским и вордовским документам, которые автоматически разыскиваются "веб-пауком" http://pdfdatabase.com/ |
|
|
| Интернет-математика 2009: приглашение к участию |
[Mar. 16th, 2009|03:24 pm] |
Интернет-математика 2009: ПРИГЛАШЕНИЕ К УЧАСТИЮ 04.03.2009 - 15.05.2009 http://company.yandex.ru/grant/2009/
"Интернет-математика" - это серия конкурсов, организованных Яндексом. В 2009 году конкурс проводится в третий раз, до этого проводился в 2004-05 и 2006-07 годах (http://company.yandex.ru/grant/). Конкурс этого года в основном ориентирован на молодежь - студентов, аспирантов, программистов и молодых ученых. Цель конкурса - привлечение внимания к актуальным задачам информационного поиска, стимулирование исследований в области методов анализа интернет-данных.
В рамках "Интернет-математики 2009" все участники решают одну задачу - получение функции ранжирования документов на основе обучающего множества. В рамках конкурса мы распространяем реальные данные, которые используются для подбора формулы ранжирования Яндекса. Данные содержат уже посчитанные и нормализованные признаки пар "запрос-документ", а также оценки релевантности, сделанные асессорами (оценщиками качества поиска) Яндекса. Распространяемые файлы не содержат оригинальных запросов и ссылок на оригинальные документы, не описана семантика признаков. Весь набор данных соответствует примерно 20 000 запросам и 200 000 документам и разделен на обучающее и тестовое множества.
Участники могут подавать решения в течение всего времени проведения конкурса. На основании части поданных результатов проводится предварительная публичная оценка. После окончания приема решений проводится финальная оценка и объявляются лучшие результаты. Победители награждаются денежными призами. По всем вопросам, касающимся конкурса, можно обращаться по адресу grant@yandex-team.ru
|
|
|
| Support Vector Machine |
[Mar. 15th, 2009|11:28 pm] |
Объясните пожалуйста, как можно на практике применять Support Vector Machine, например, для задач классификации. С сущностью метода все более-менее понятно, но не ясно какие именно данные брать для классификации. У нас есть документы, есть, например, обучаюшая выборка... Но по каким показателям их сравнимать и как при этом использовать SVM ? Буду очень благодарен за разъяснения... |
|
|
| (no subject) |
[Mar. 6th, 2009|11:03 pm] |
Посоветуйте, пожалуйста, русский Wordnet, который можно было бы свободно скачать и использовать для образовательных целей (примерчики разных задачек для блога), как можно более полный и в каком-нибудь разумном формате xml, rdf, database dump, sql, prolog etc
Кто знает насколько хорош вот этот? http://wordnet.ru/
|
|
|
| navigation |
| [ |
viewing |
| |
most recent entries |
] |
| [ |
go |
| |
earlier |
] |
| |
|
|