##Borrar esta linea y dejar la siguiente que permite que ésta página sea pública
#acl -All:read Jaarac:read,write,delete,revert,admin JorgeSanchez:read,write,delete,revert,admin
= Robot Vision 2012 =
Experimentos realizados para la 4º edición de la competencia ''''Robot Vision Challenge - ImageCLEF''''.
[[http://www.imageclef.org/2012/robot|Robot Vision 2012 Web Site]]
== Tareas ==
* --(experimentos con pirámides espaciales)--
* usar el detector de transiciones con NGAUSS=64, 128 y 256
* buscar implementaciones y evaluar descriptores RGBD
* ver algunos descriptores de colores
== Cosas que vamos a tener que probar ==
* --(Aumentar los conjuntos de datos con la versión espejada de las imágenes)--
* Algún pre-procesamiento para estabilizar el "motion blur" y el "flickering"
* Debluring:
* http://www.di.ens.fr/willow/research/deblurring/ (código en matlab)
* http://grail.cs.washington.edu/projects/mdf_deblurring/
* Flickering: se puede probar trabajar en aglún espacio de color que sea robusto frente a cambios afines en la iluminación
* Descriptores de colores
* J. van de Weijer, C. Schmid, J. Verbeek, D. Larlus, ''Learning Color Names for Real-World Applications'', IEEE TIP, 2009.
http://lear.inrialpes.fr/people/vandeweijer/color_names.html
* K. van de Sande, T. Gevers and C. Snoek, ''Evaluating Color Descriptors for Object and Scene Recognition'', IEEE TPAMI, 2010
http://koen.me/research/colordescriptors
== Datasets ==
El dataset está compuesto por 3 conjuntos de entrenamiento, denominados training[1,2,3], los cuales cuentan con 2667, 2532 y 1913 imágenes rgb y de profundidad respectivamente. La media de estos 3 conjuntos es 2371, este sería el máximo score a lograr en promedio cuando testeamos sobre los 3 conjuntos.
Las imágenes corresponden a las habitaciones
[[Vision/ProyectosVision/RobotVision2012/Imagenes | Comparación de los set]]
=== Imágenes de ejemplo ===
* En training1 el recorrido del robot es contrario al caso de training[23].
* Las imágenes de training3 son tomadas de noche
==== Training1 ====
[[attachment:training1_rgb_69.jpg|{{attachment:training1_rgb_69.jpg|rgb_69|width=200}}]]
[[attachment:training1_rgb_71.jpg|{{attachment:training1_rgb_71.jpg|rgb_71|width=200}}]]
[[attachment:training1_rgb_73.jpg|{{attachment:training1_rgb_73.jpg|rgb_73|width=200}}]]
[[attachment:training1_rgb_75.jpg|{{attachment:training1_rgb_75.jpg|rgb_75|width=200}}]]
==== Training2 ====
[[attachment:training2_rgb_93.jpg|{{attachment:training2_rgb_93.jpg|rgb_93|width=200}}]]
[[attachment:training2_rgb_95.jpg|{{attachment:training2_rgb_95.jpg|rgb_95|width=200}}]]
[[attachment:training2_rgb_97.jpg|{{attachment:training2_rgb_97.jpg|rgb_97|width=200}}]]
[[attachment:training2_rgb_99.jpg|{{attachment:training2_rgb_99.jpg|rgb_99|width=200}}]]
==== Training3 ====
[[attachment:training3_rgb_60.jpg|{{attachment:training3_rgb_60.jpg|rgb_60|width=200}}]]
[[attachment:training3_rgb_62.jpg|{{attachment:training3_rgb_62.jpg|rgb_62|width=200}}]]
[[attachment:training3_rgb_64.jpg|{{attachment:training3_rgb_64.jpg|rgb_64|width=200}}]]
[[attachment:training3_rgb_66.jpg|{{attachment:training3_rgb_66.jpg|rgb_66|width=200}}]]
== Repositorio con los scripts para replicar los experimentos ==
hg clone https://proyectos.ciii.frc.utn.edu.ar/hg/robot_vision_2012
== Estructura de directorios ==
RobotVision2012/DS_..._DSIFT_.../
trainingX/ <
>
trainingX.log <
>
trainingX_lr/ <
>
trainingX_lr.log <
>
_PCA_/ <
>
subspace.dat <
>
subspace.log <
>
80D/ <
>
trainingX/ <
>
trainingX.log <
>
trainingX_lr/ <
>
trainingX_lr.log <
>
_GMM_/ <
>
u64.gmm <
>
u64/ <
>
IFV.../ <
>
trainingX/ <
>
trainingX.log <
>
trainingX_lr/ <
>
trainingX_lr.log <
>
_SGD_tr12_te3_/ <
>
hinge_20_1e-4/ <
>
Corridor.lin <
>
hinge_20_1e-4.training3 <
>
hinge_20_1e-4.log <
>
== 25 abril 2012 ==
=== Experimento 1 ===
==== Configuración ====
* Descriptores: SIFT sobre grilla regular (DSIFT de vlfeat), patchs 32x32, paso=8, L2-norm., D=128, 5 escalas, factor=0.707
* PCA: subespacio aprendido sobre training1+training2+training3, D=80
* GMM: aprendido sobre training1+training2+training3, para ''N = 8, 16 y 32''
* IFV: gradientes resp. medias y varianzas, alpha=0.5, pnorm=2.0
* SGD: hinge loss, ''20, 50 y 100'' iteraciones, ''lambda = 1e-2, 1e-3 y 1e-4'', training sobre ''training1'' y testeando sobre ''training2''. La clasificación se realizo con argmax.
==== Resultados ====
|| ||||||20 iteraciones||||||||50 iteraciones||||||||100 iteraciones||
||lambda\ngauss||8||16||32||||8||16||32||||8||16||32||
||1e-3|| 1382 || 1334 || 1414 |||| 1376 || 1352 || 1426 |||| 1382 || 1356 || 1422 ||
||1e-4|| '''1462''' || '''1422''' || '''1466''' |||| 1462 || 1400 || 1478 |||| 1462 || 1396 || 1476 ||
||1e-5|| 1318 || 1402 || 1444 |||| 1358 || 1368 || 1394 |||| 1378 || 1384 || 1322 ||
/* ||1e-2|| 872 || 984 || 928 |||| 886 || 990 || 930 |||| 890 || 992 || 940 || */
[[attachment:experimento_1_25_abril_2012.txt]]
== 26 abril 2012 ==
=== Experimento 1 ===
==== Configuración ====
* Igual que el experimento anterior, pero se agrego 64 gaussianas.
* SGD: hinge loss, ''20'' iteraciones, ''lambda = 1e-4'', training sobre ''training1'' o ''training2'' y testeando siempre sobre ''training3''. La clasificación se realizo con argmax y con thr=-0.1.
==== Resultados ====
|| ||||||||20 iteraciones, argmax, train1 ||||||||||20 iteraciones, thr=-0.1, train1||||||||||20 iteraciones, argmax, train2||||||||||20 iteraciones, thr=-0.1, train2||
||l\ng||8||16||32||64||||8||16||32||64||||8||16||32||64||||8||16||32||64||
||1e-4|| -405 || -153 || -127 || -161 |||| 194 || 362 || 355 || 399 |||| -361 || -87 || 1 || 35 |||| 226 || 421 || 471 || 553 ||
[[attachment:experimento_1_train1_val3_argmax_26_abril_2012.txt]]
[[attachment:experimento_1_train1_val3_-0.1_26_abril_2012.txt]]
[[attachment:experimento_1_train2_val3_argmax_26_abril_2012.txt]]
[[attachment:experimento_1_train2_val3_-0.1_26_abril_2012.txt]]
== 3 mayo 2012 ==
=== Experimento 1 ===
Se realiza una prueba con distintos valores de DSIFT_STEP (8 y 16) y aumento el conjunto de entrenamiento haciendo un flip left-right de las imágenes antes de calcular DSIFT. Flip=0, indica sin aumentar el conjunto; Flip=1 indica aumentando el conjunto de entrenamiento con las imágenes flipeadas.
Al final de este experimento se muestra la configuración que resulta más apropiada.
==== Configuración ====
* SGD LBD=1e-4, 20 iteraciones
* Using ''argmax'' for classification
==== Resultados ====
===== Flip=0 =====
* DSIFT step=8
|||| |||||||||||||||| NGAUSS ||
|| Tr. || Te. || 8 || 16 || 32 || 64 || 128 || 256 || 512 || 1024 ||
|| 1,2 || 3 || -289 || 29 || 59 || 79 || 185 || 267 || 319 || 445 ||
|| 2,3 || 1 || 935 || 1195 || 1141 || 1173 || 1183 || 1251 || 1225 || 1293 ||
|| 3,1 || 2 || 1162 || 1374 || 1390 || 1456 || 1584 || 1658 || 1668 || 1632 ||
|||| Avg. || 603 || 866 || 863 || 903 || 984 || 1059 || 1071 || 1123 ||
* DSIFT step=16
|||| |||||||||||||||| NGAUSS ||
|| Tr. || Te. || 8 || 16 || 32 || 64 || 128 || 256 || 512 || 1024 ||
|| 1,2 || 3 || -161 || -9 || 19 || 25 || 225 || 191 || 299 || 371 ||
|| 2,3 || 1 || 897 || 1129 || 1221 || 1143 || 1101 || 1095 || 1175 || 1179 ||
|| 3,1 || 2 || 1160 || 1252 || 1392 || 1424 || 1412 || 1528 || 1552 || 1524 ||
|||| Avg. || 632 || 791 || 877 || 864 || 913 || 938 || 1009 || 1025 ||
===== Flip=1 =====
* DSIFT step=8
|||| |||||||||||||||| NGAUSS ||
|| Tr. || Te. || 8 || 16 || 32 || 64 || 128 || '''256''' || 512 || 1024 ||
|| 1,2 || 3 || -357 || -105 || 45 || 59 || 185 || '''199''' || 233 || 411 ||
|| 2,3 || 1 || 1569 || 1703 || 1787 || 1795 || 1887 || '''1949''' || 1995 || 1999 ||
|| 3,1 || 2 || 1666 || 1880 || 2018 || 2076 || 2142 || '''2182''' || 2182 || 2190 ||
|||| Avg. || 959 || 1159 || 1283 || 1310 || 1405 || '''1443''' || 1470 || 1533 ||
* DSIFT step=16
|||| |||||||||||||||| NGAUSS ||
|| Tr. || Te. || 8 || 16 || 32 || 64 || 128 || 256 || 512 || 1024 ||
|| 1,2 || 3 || -211 || 11 || 31 || -15 || 233 || 149 || 263 || 373 ||
|| 2,3 || 1 || 1447 || 1651 || 1693 || 1791 || 1857 || 1901 || 1945 || 1909 ||
|| 3,1 || 2 || 1642 || 1744 || 1944 || 2032 || 2126 || 2128 || 2150 || 2140 ||
|||| Avg. || 959 || 1135 || 1223 || 1269 || 1405 || 1393 || 1453 || 1474 ||
[[attachment:results_3_de_mayo_2012.tar.gz]]
* Configuración: 256 Gaussianas, DSIFT step=8, flip=1
== 4 mayo 2012 ==
=== Experimento 1 ===
Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento no se actualizó el modelo .gmm con los nuevos descriptores con flip y oscurecidos.
==== Configuración ====
* SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1
* Using ''argmax'' for classification
==== Resultados ====
|||| NGAUSS=256 |||||| srange ||
|| Tr. || Te. || 1.0 || 0.33 || 0.5 ||
|| 1,2 || 3 || 199 || 229 || 221 ||
|| 2,3 || 1 || 1949 || 1949 || 1945 ||
|| 3,1 || 2 || 2182 || 2180 || 2180 ||
|||| Avg. || 1443 || 1452 || 1449 ||
== 5 mayo 2012 ==
=== Experimento 1 ===
Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento si se actualizó el modelo .gmm con los nuevos descriptores generados con flip y con oscurecimiento.
==== Configuración ====
* SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1
* Using ''argmax'' for classification
==== Resultados ====
|||| NGAUSS=256 |||||| srange ||
|| Tr. || Te. || 1.0 || 0.1 || 0.33 || 0.5 ||
|| 1,2 || 3 || 199 || 187 || 195 || 171 ||
|| 2,3 || 1 || 1949 || 1975 || 1945 || 1965 ||
|| 3,1 || 2 || 2182 || 2154 || 2166 || 2180 ||
|||| Avg. || 1443 || 1439 || 1435 || 1439 ||
== 7 mayo 2012 ==
=== Experimento 1 ===
Se prueba utilizando feature augmentation. En este experimento si se actualizó el modelo .gmm con los descriptores generados con flip de las imágenes.
Con aug=1 o aug=0 se indica el uso o no de feature augmentation respectivamente.
==== Configuración ====
* SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]
* Using ''argmax'' for classification
==== Resultados ====
|||| NGAUSS=64 |||| flip=0 |||| flip=1 ||
|| Tr. || Te. || aug=0|| aug=1 || aug=0|| aug=1 ||
|| 1,2 || 3 || 77 || 87 || 257 || 33 ||
|| 2,3 || 1 || 1173 || 1207 || 1801 || 1783 ||
|| 3,1 || 2 || 1440 || 1528 || 2080 || 2014 ||
|||| Avg. || 897 || 941 || 1379 || 1277 ||
* Comparación usando en ambos casos imágenes de entrenamiento originales y flipeadas, pero en el primer caso entrenando el modelo .gmm solo en las imágenes originales (gmm_flip=0) y en el segundo caso utilizando las imágenes originales y las flipeadas (gmm_flip=1). No se usó feature augmentation.
|||| NGAUSS=64 |||| flip=1 ||
|| Tr. || Te. || gmm_flip=0 || gmm_flip=1 ||
|| 1,2 || 3 || 59 || 257 ||
|| 2,3 || 1 || 1795 || 1801 ||
|| 3,1 || 2 || 2076 || 2080 ||
|||| Avg. || 1310 || 1379 ||
== 8 mayo 2012 ==
=== Experimento 1 ===
Se prueba utilizando feature augmentation. En este experimento si se actualizó el modelo .gmm con los descriptores generados con flip de las imágenes.
Con aug=1 o aug=0 se indica el uso o no de feature augmentation respectivamente.
==== Configuración ====
* SGD LBD=1e-4, 20 iteraciones, 128 Gaussianas, DSIFT step=8, flip=[0,1]
* Using ''argmax'' for classification
==== Resultados ====
|||| NGAUSS=128 |||| flip=0 |||| flip=1 ||
|| Tr. || Te. || aug=0 || aug=1 || aug=0|| aug=1 ||
|| 1,2 || 3 || 191 || 115 || 195 || 39 ||
|| 2,3 || 1 || 1189 || 1255 || 1887 || 1905 ||
|| 3,1 || 2 || 1582 || 1618 || 2132 || 2098 ||
|||| Avg. || 987 || 996 || 1405 || 1347 ||
== 9 mayo 2012 ==
=== Experimento 1 ===
Se prueba utilizando pirámides espaciales. Las configuraciones usadas son "sp1x1,lsf=0,gsf=0" (spyr=0), "sp1x1,sp1x3,lsf=0,gsf=0" (spyr=1) y "sp1x1,sp1x3,lsf=0.33,gsf=0.33" (spyr=2).
==== Configuración ====
* SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]
* Using ''argmax'' for classification
==== Resultados ====
|||| NGAUSS=64 |||||| flip=0 |||||| flip=1 ||
|| Tr. || Te. || spyr=0 || spyr=1 || spyr=2 || spyr=0 || spyr=1 || spyr=2||
|| 1,2 || 3 || 77 || -413 || -41 || 257 || -458 || 201 ||
|| 2,3 || 1 || 1173 || 1123 || 1029 || 1801 || 1773 || 1791 ||
|| 3,1 || 2 || 1440 || 1412 || 1358 || 2080 || 2078 || 2084 ||
|||| Avg. || 897 || 707 || 782 || 1379 || 1122 || 1359 ||
== 11 mayo 2012 ==
=== Experimento 1 ===
Se prueba utilizando opponent SIFT. El software utilizado para calcular los descriptores es [[http://koen.me/research/colordescriptors|colorDescriptor]]. Estos cálculos se realizaron sobre la notebook de jaarac, por eso pueden variar con los que se calcularon antes.
==== Configuración ====
* Descriptor: OPP_SIFT, step=16, sampling_scale=1.6
* SGD LBD=1e-4; 20 iteraciones; 16, 32 y 64 Gaussianas; flip=0
* Using ''argmax'' for classification
==== Resultados ====
|||| OPPSIFT |||||| flip=0 ||
|| Tr. || Te. || 16 || 32 || 64 ||
|| 1,2 || 3 || -231 || -173 || -17 ||
|| 2,3 || 1 || 1161 || 1217 || 1221 ||
|| 3,1 || 2 || 1538 || 1598 || 1664 ||
|||| Avg. || 823 || 881 || 956 ||
=== Experimento 2 ===
Se evaluó el detector de transiciones y distintas formas de realizar la clasificación. Con el detector de transiciones no se obtuvieron mejoras, así que los datos no fueron subidos.
==== Configuración ====
* Los resultados mostrados son promedios sobre los scores obtenidos para las 3 configuraciones de conjuntos posibles para valores de 64, 128 y 256 gaussianas.
* Descriptor: DSIFT, step=8
* SGD LBD=1e-4; 20 iteraciones; Gaussianas; flip=0
==== Resultados ====
* Aplicando un umbral a la diferencia entre el mayor y el segundo mayor score para decidir si clasificamos o no. La clasificación posterior se realizó con argmax. Solamente se muestran umbrales hasta 0.9, porque para umbrales menores los scores son muy bajos. El umbral 0.0 sería el baseline, o sea siempre clasificamos.
||umbral||0.0 ||0.1 ||0.2 ||0.3 ||0.4 ||0.5 ||0.6 ||0.7 ||0.8 ||0.9 ||
||avg ||979.556||1035.44||1072||1095.78||'''1103.44'''||1102.67||1088.56||1058.56||1021.11||972.111||
* Utilizando un umbral sobre el mayor score de clasificación, para decidir cuando clasificar. Luego se elige la clase del mayor score.
||umbral||-1.0 ||-0.9 ||-0.8 ||-0.7 ||-0.6 ||-0.5 ||-0.4 ||-0.3 ||-0.2 ||-0.1 ||0.0 ||0.1 ||0.2 ||
||avg ||980.444||983.778||996.667||1019.56||1051.67||1095.89||1136.56||1172.44||'''1185'''||1166.78||1120.44||1056.67||979.444||
* Utilizando un umbral sobre abs(max_score)/(max_score - secondmax_score) para decidir cuando clasificar.
||umbral||0.6 ||0.7 ||0.8 ||0.9 ||1.0 ||1.1 ||1.2 ||1.3 ||1.4 ||1.5 ||1.6 ||1.7 ||1.8 ||1.9 ||2.0||
||avg ||1050||1123||'''1139'''||'''1139'''||1137||1131||1128||1123||1120||1118||1111.44||1107||1103||1101||1099||
== 18 mayo 2012 ==
=== Experimento 1 ===
Se prueba utilizando el detector de transiciones, pero se generan nuevos conjuntos de entrenamiento a partir de los originales (feature_packer, feature_sampler).
==== Configuración ====
* Descriptor: DSIFT, step=8, ;SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
* Entrenando cls (lbd=1e-4) y td (lbd=1e-2,1e-3,1e-4) sobre training1 y training2. Entrenando cls+td (lbd=1e-2,1e-3,1e-4) sobre los nuevos conjuntos training1 y training2 generados con probabilidad P de sacar un descriptor de la imagen original. Se usaron probabilidades P = 0.3, 0.5, 0.66, 0.75 . El detector de transiciones se uso con thr = 0.7, 0.8, 0.9 .
* Using ''argmax'' for classification
==== Resultados ====
Resultados para las condiciones que resultaron más favorables, esto es:
* cls_sgd_lbd = 1e-4
* td_sgd_lbd = 1e-2
* cls+td_sgd_lbd = 1e-2
* P = 0.75
* thr = 0.8
||||set conf |||||| BL |||||| with TD, P=0.75, thr=0.8 ||
|| Tr. || Te. || 64 || 128 || 256 || 64 || 128 || 256 ||
|| 1,2 || 3 || 77 || 191 || 253 || 51 || 175 || 241 ||
|| 2,3 || 1 || 1173 || 1189 || 1267 || 1151 || 1181 || 1271 ||
|| 3,1 || 2 || 1440 || 1582 || 1644 || 1418 || 1554 || 1632 ||
|||| Avg. || 897 || 987 || 1055 || 873 || 970 || 1048 ||
Resultados para otras condiciones:
* cls_sgd_lbd = 1e-4
* td_sgd_lbd = 1e-4
* cls+td_sgd_lbd = 1e-4
* P = 0.75
* thr = 0.8
||||set conf |||||| BL |||||| with TD, P=0.75, thr=0.8 ||
|| Tr. || Te. || 64 || 128 || 256 || 64 || 128 || 256 ||
|| 1,2 || 3 || 77 || 191 || 253 || -43 || 79 || 165 ||
|| 2,3 || 1 || 1173 || 1189 || 1267 || 1187 || 1075 || 1121 ||
|| 3,1 || 2 || 1440 || 1582 || 1644 || 1266 || 1424 || 1540 ||
|||| Avg. || 897 || 987 || 1055 || 803 || 859 || 942 ||
En el siguiente archivo están todos los resultados. Los archivos *_with_td.txt contienen los resultados usando TD y los otros archivos el baseline. Hay un archivo para cada configuración de conjuntos de training y test. Las datos están organizados de la siguiente forma:
||P||ngauss||cls_lbd||td_lbd||td_thr||cls+td_lbd||score||
[[attachment:results_18_mayo_2012.tar.gz|results_18_mayo_2012.tar.gz]]
== 29 mayo 2012 ==
=== Experimento 1 ===
Se realizan nuevamente los experimentos porque hubo errores con las etiquetas entregadas por los organizadores. También se muestran los resultados usando SIFT sobre las imágenes de profundidad.
==== Configuración ====
* Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
* Descriptor Depth: DSIFT, step=8, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
* SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
* Using ''argmax'' for classification
==== Resultados ====
||||set conf |||||| RGB |||||| Depth |||||| Late fusion w=0.5 ||
|| Tr. || Te. || 64 || 128 || 256 || 64 || 128 || 256 || 64 || 128 || 256 ||
|| 1,2 || 3 || 77 || 191 || 253 || 23 || 159 || 349 || 433 || 599 || 681 ||
|| 2,3 || 1 || 1189 || 1199 || 1285 || 431 || 465 || 541 || 1031 || 1089 || 1069 ||
|| 3,1 || 2 || 1462 || 1592 || 1648 || 1108 || 1206 || 1226 || 1772 || 1822 || 1862 ||
|||| Avg. || 909 || 994 || 1062 || 521 || 610 || 705 || 1079 || 1170 || 1204 ||
== 30 mayo 2012 ==
=== Experimento 1 ===
Resultados usando SIFT sobre las imágenes de profundidad usando image_presc=0.5 e image_presc=1.0.
==== Configuración ====
* Descriptor Depth: DSIFT, step=8, image_presc=[0.5, 1.0], dsift_fs=0.707, dsift_ns=5
* SGD LBD=1e-4, 20 iteraciones; 64, 128, 256 y 512 Gaussianas; flip=0
* Using ''argmax'' for classification
==== Resultados ====
||||set conf |||||||| image_presc=0.5 |||||||| image_presc=1.0 ||
|| Tr. || Te. || 64 || 128 || 256 || 512 || 64 || 128 || 256 || 512 ||
|| 1,2 || 3 || 23 || 159 || 349 || || -335 || 7 || 203 || 309 ||
|| 2,3 || 1 || 431 || 465 || 541 || || 465 || 571 || 609 || 617 ||
|| 3,1 || 2 || 1108 || 1206 || 1226 || || 1116 || 1194 || 1226 || 1272 ||
|||| Avg. || 521 || 610 || 705 || || 415 || 591 || 679 || 733 ||
=== Experimento 2 ===
Late fusion sobre RGB y Depth. Comparación usando image_presc=[0.5,1.0]
==== Configuración ====
* Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
* Descriptor Depth: DSIFT, step=8, image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5
* SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
* Using ''argmax'' for classification
* Late fusion: w=0.5
==== Resultados ====
||||set conf |||||||| Late fusion image_presc=0.5 w=0.5 |||||||| Late fusion image_presc=1.0 w=0.5||
|| Tr. || Te. || 64 || 128 || 256 || 512 || 64 || 128 || 256 || 512 ||
|| 1,2 || 3 || 433 || 599 || 681 || || 249 || 527 || 687 || 685 ||
|| 2,3 || 1 || 1031 || 1089 || 1069 || || 1041 || 1083 || 1103 || 1091 ||
|| 3,1 || 2 || 1772 || 1822 || 1862 || || 1766 || 1828 || 1890 || 1850 ||
|||| Avg. || 1079 || 1170 || 1204 || || 1018 || 1146 || 1227 || 1209 ||
== 31 mayo 2012 ==
=== Experimento 1 ===
Resultados usando SIFT sobre las imágenes de profundidad usando step=4 y step=8.
==== Configuración ====
* Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5
* SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0
* Using ''argmax'' for classification
==== Resultados ====
|||| set conf || step=8 || step=4 ||
|| Tr. || Te. || 256 || 256 ||
|| 1,2 || 3 || 349 || 357 ||
|| 2,3 || 1 || 541 || 573 ||
|| 3,1 || 2 || 1226 || 1266 ||
|||| Avg. || 705 || 732 ||
=== Experimento 2 ===
Late fusion sobre RGB y Depth. Comparación usando step=[4,8] para las imágenes de profundidad.
==== Configuración ====
* Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
* Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5
* SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0
* Using ''argmax'' for classification
* Late fusion: w=0.5
==== Resultados ====
|||| set conf ||Late fusion step=4||Late fusion step=8||
|| Tr. || Te. ||256 ||256 ||
|| 1,2 || 3 ||755 || 681 ||
|| 2,3 || 1 ||1113 ||1069 ||
|| 3,1 || 2 ||1878 ||1862 ||
|||| Avg. ||1249 ||1204 ||
== 1 junio 2012 ==
=== Experimento 1 ===
Late fusion sobre RGB y Depth ambos con flip=1.
==== Configuración ====
* Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
* Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
* SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
* Late fusion: w=0.5
==== Resultados usando argmax ====
||||set conf |||||| RGB ||||||Depth ||||||LF w=0.5 ||
|| Tr. || Te. || 256 || 512 || 1024 || 256 || 512 || 1024 || 256 || 512 || 1024 ||
|| 1,2 || 3 || 239 || 269 || 339 || 511 || 489 || 609 || 757 || 815 || 921 ||
|| 2,3 || 1 || 2013 || 1991 || 2019 || 1403 || 1429 || 1461 || 1985 || 1981 || 1997 ||
|| 3,1 || 2 || 2174 || 2182 || 2186 || 1548 || 1564 || 1598 || 2096 || 2098 || 2116 ||
|||| Avg. || 1475 || 1481 || 1515 || 1154 || 1161 || 1223 || 1613 || 1631 || 1678 ||
==== Resultados usando un thr y no argmax ====
* Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.
|||| set conf ||||||argmax |||||| thr=-0.4 |||||| '''thr=-0.5''' |||||| thr=-0.6 ||
|| Tr. || Te. || 256 || 512 || 1024 || 256 || 512 || 1024 || 256 || 512 || 1024 || 256 || 512 || 1024 ||
|| 1,2 || 3 || 757 || 815 || 921 || 868 || 927 || 989 || 897 || 968 || 1054 || 896 || 947 || 1047 ||
|| 2,3 || 1 || 1985 || 1981 || 1997 || 1990 || 2002 || 1998 || 2014 || 2015 || 2001 || 2010 || 1997 || 2003 ||
|| 3,1 || 2 || 2096 || 2098 || 2116 || 2076 || 2084 || 2116 || 2096 || 2102 || 2115 || 2094 || 2096 || 2114 ||
|||| Avg. || 1613 || 1631 || 1678 || 1645 || 1671 || 1701 || '''1669''' || '''1695''' || '''1723''' || 1667 || 1680 || 1721 ||
== 4 junio 2012 ==
=== Experimento 1 ===
Comparación DSIFT sobre imágenes RGB usando step=[4,8] y image_presc=[0.5,1.0] con flip=1.
==== Configuración ====
* Descriptor RGB: DSIFT, step=[4,8], image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5
* SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
* Using ''argmax'' for classification
==== Resultados usando argmax ====
||||set conf |||||| step=4, img_presc=0.5 |||||| step=8, img_presc=1.0 ||
|| Tr. || Te. || 256 || 512 || 1024 || 256 || 512 || 1024 ||
|| 1,2 || 3 || 275 || 411 || 491 || 239 || 269 || 339 ||
|| 2,3 || 1 || 1941 || 1945 || 1969 || 2013 || 1991 || 2019 ||
|| 3,1 || 2 || 2150 || 2158 || 2154 || 2174 || 2182 || 2186 ||
|||| Avg. || 1455 || '''1505''' || '''1538''' || '''1475''' || 1481 || 1515 ||
=== Experimento 2 ===
Late fusion sobre RGB y Depth ambos con flip=1.
==== Configuración ====
* Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
* Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
* SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
* Late fusion: w=0.5
==== Resultados usando argmax ====
||||set conf |||||| RGB ||||||Depth ||||||LF w=0.5 ||
|| Tr. || Te. || 256 || 512 || 1024 || 256 || 512 || 1024 || 256 || 512 || 1024 ||
|| 1,2 || 3 || 275 || 411 || 491 || 511 || 489 || 609 || 835 || 897 || 965 ||
|| 2,3 || 1 || 1941 || 1945 || 1969 || 1403 || 1429 || 1461 || 1947 || 1961 || 1941 ||
|| 3,1 || 2 || 2150 || 2158 || 2154 || 1548 || 1564 || 1598 || 2050 || 2078 || 2094 ||
|||| Avg. || 1455 || 1505 || 1538 || 1154 || 1161 || 1223 || '''1611''' || '''1645''' || '''1667''' ||
==== Resultados usando un thr y no argmax ====
* Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.
|||| set conf ||||||argmax |||||| '''thr=-0.5''' ||
|| Tr. || Te. || 256 || 512 || 1024 || 256 || 512 || 1024 ||
|| 1,2 || 3 || 835 || 897 || 965 || 959 || 1084 || 1107 ||
|| 2,3 || 1 || 1947 || 1961 || 1941 || 1969 || 1997 || 1958 ||
|| 3,1 || 2 || 2050 || 2078 || 2094 || 2042 || 2074 || 2101 ||
|||| Avg. || 1611 || 1645 || 1667 || '''1657''' || '''1718''' || '''1722''' ||
== 13 junio 2012 ==
=== Experimento 1 ===
Resultados para la tarea 2. Se proponen cuatro variantes todas ellas basadas en la segmentación temporal de las secuencias de imágenes utilizando el producto punto entre vectores de fisher. El producto punto entre vectores de fisher es una buena medida de similitud entre imágenes. El procedimiento para segmentar fue: se agarra el primer vector y se empieza a calcular el producto punto de este primer vector con los vectores siguientes en la secuencia temporal, cuando ese producto supera un threshold se obtiene un segmento. Luego se elige nuevamente como primer vector el siguiente de la secuencia y se realiza nuevamente el procedimiento descripto anteriormente.
Para calcular los segmentos se utilizaron los vectores de fisher obtenidos de las imágenes de RGB debido a que con estas se obtenían en promedio segmentos más largos en comparación con los obtenidos usando los ifv de imágenes de profundidad.
==== Configuración ====
* Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
* Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
* SGD LBD=1e-4, 20 iteraciones; 1024 Gaussianas; flip=1
* Late fusion: w=0.5
* Se prueban 4 configuraciones, MV (mayor votación), MS (mayor score), MC (mayor confidencialidad) y MST (mayor score y threshold).
* MV: calculamos la moda del segmento, luego asignamos esa clase a todo el segmento
* MS: buscamos el score máximo de todo el segmento para cualquier clase y luego asignamos la clase de ese score a toda la secuencia
* MC: buscamos la clase con más confidencialidad en todo el segmento y luego asignamos esa clase a toda la secuencia
* MST: buscamos el score máximo de todo el segmento para cualquier clase y pero luego asignamos la clase de ese score a toda la secuencia solo en caso de que ese score esté por encima de un threshold
* La confidencialidad se calculo como la diferencia entre el score más grande y el segundo score más grande.
==== Resultados ====
|| || bl || 0.0 || 0.1 || 0.2 || 0.3 || 0.4 || 0.5 || 0.6 || 0.7 || 0.8 || 0.9 || 0.95 ||
|| MV ||1722|| 1628 || 1790 || 1778 || '''1796''' || 1775 || 1793 || 1792 || 1776 || 1774 || 1772 || 1774 ||
|| MS ||1722|| 1337 || 1627 || 1671 || 1658 || 1681 || 1737 || 1751 || 1773 || '''1783''' || 1777 || 1774 ||
|| MC ||1722|| 1521 || '''1849''' || 1808 || 1812 || 1791 || 1771 || 1781 || 1774 || 1782 || 1778 || 1775 ||
|| MST -0.4 ||1722|| 1401 || 1704 || 1694 || 1677 || 1686 || 1706 || 1738 || 1771 || 1798 || 1799 || '''1800''' ||
|| MST -0.5 ||1722|| 1393 || 1715 || 1725 || 1712 || 1755 || 1778 || 1798 || 1811 || '''1833''' || 1828 || 1825 ||
|| MST -0.6 ||1722|| 1395 || 1745 || 1764 || 1739 || 1767 || 1791 || 1811 || 1813 || '''1824''' || 1819 || 1816 ||
|| MST -0.7 ||1722|| 1376 || 1714 || 1729 || 1704 || 1740 || 1772 || 1779 || 1790 || '''1799''' || 1793 || 1790 ||
|| mean_len ||1 || 31 || 11 || 8 || 5.4 || 4.0 || 2.9 || 2.1 || 1.6 || 1.2 || 1.02 || 1.01 ||
|| n_seg ||2370|| 77 || 213 || 315 || 440 || 590 || 804 || 1115 || 1505 || 2054 || 2317 || 2359 ||