Robot Vision 2012
Experimentos realizados para la 4º edición de la competencia 'Robot Vision Challenge - ImageCLEF'.
Tareas
experimentos con pirámides espaciales
- usar el detector de transiciones con NGAUSS=64, 128 y 256
- buscar implementaciones y evaluar descriptores RGBD
- ver algunos descriptores de colores
Cosas que vamos a tener que probar
Aumentar los conjuntos de datos con la versión espejada de las imágenes
- Algún pre-procesamiento para estabilizar el "motion blur" y el "flickering"
- Debluring:
- Flickering: se puede probar trabajar en aglún espacio de color que sea robusto frente a cambios afines en la iluminación
- Descriptores de colores
J. van de Weijer, C. Schmid, J. Verbeek, D. Larlus, Learning Color Names for Real-World Applications, IEEE TIP, 2009.
http://lear.inrialpes.fr/people/vandeweijer/color_names.html
K. van de Sande, T. Gevers and C. Snoek, Evaluating Color Descriptors for Object and Scene Recognition, IEEE TPAMI, 2010
Datasets
El dataset está compuesto por 3 conjuntos de entrenamiento, denominados training[1,2,3], los cuales cuentan con 2667, 2532 y 1913 imágenes rgb y de profundidad respectivamente. La media de estos 3 conjuntos es 2371, este sería el máximo score a lograr en promedio cuando testeamos sobre los 3 conjuntos.
Las imágenes corresponden a las habitaciones
Imágenes de ejemplo
- En training1 el recorrido del robot es contrario al caso de training[23].
- Las imágenes de training3 son tomadas de noche
Training1
Training2
Training3
Repositorio con los scripts para replicar los experimentos
hg clone https://proyectos.ciii.frc.utn.edu.ar/hg/robot_vision_2012
Estructura de directorios
- RobotVision2012/DS_..._DSIFT_.../
trainingX/
trainingX.log
trainingX_lr/
trainingX_lr.log
_PCA_/
subspace.dat
subspace.log
80D/
trainingX/
trainingX.log
trainingX_lr/
trainingX_lr.log
_GMM_/
u64.gmm
u64/
IFV.../
trainingX/
trainingX.log
trainingX_lr/
trainingX_lr.log
_SGD_tr12_te3_/
hinge_20_1e-4/
Corridor.lin
hinge_20_1e-4.training3
hinge_20_1e-4.log
25 abril 2012
Experimento 1
Configuración
- Descriptores: SIFT sobre grilla regular (DSIFT de vlfeat), patchs 32x32, paso=8, L2-norm., D=128, 5 escalas, factor=0.707
- PCA: subespacio aprendido sobre training1+training2+training3, D=80
GMM: aprendido sobre training1+training2+training3, para N = 8, 16 y 32
- IFV: gradientes resp. medias y varianzas, alpha=0.5, pnorm=2.0
SGD: hinge loss, 20, 50 y 100 iteraciones, lambda = 1e-2, 1e-3 y 1e-4, training sobre training1 y testeando sobre training2. La clasificación se realizo con argmax.
Resultados
|
20 iteraciones |
50 iteraciones |
100 iteraciones |
||||||||
lambda\ngauss |
8 |
16 |
32 |
8 |
16 |
32 |
8 |
16 |
32 |
||
1e-3 |
1382 |
1334 |
1414 |
1376 |
1352 |
1426 |
1382 |
1356 |
1422 |
||
1e-4 |
1462 |
1422 |
1466 |
1462 |
1400 |
1478 |
1462 |
1396 |
1476 |
||
1e-5 |
1318 |
1402 |
1444 |
1358 |
1368 |
1394 |
1378 |
1384 |
1322 |
experimento_1_25_abril_2012.txt
26 abril 2012
Experimento 1
Configuración
- Igual que el experimento anterior, pero se agrego 64 gaussianas.
SGD: hinge loss, 20 iteraciones, lambda = 1e-4, training sobre training1 o training2 y testeando siempre sobre training3. La clasificación se realizo con argmax y con thr=-0.1.
Resultados
|
20 iteraciones, argmax, train1 |
20 iteraciones, thr=-0.1, train1 |
20 iteraciones, argmax, train2 |
20 iteraciones, thr=-0.1, train2 |
|||||||||||||||
l\ng |
8 |
16 |
32 |
64 |
8 |
16 |
32 |
64 |
8 |
16 |
32 |
64 |
8 |
16 |
32 |
64 |
|||
1e-4 |
-405 |
-153 |
-127 |
-161 |
194 |
362 |
355 |
399 |
-361 |
-87 |
1 |
35 |
226 |
421 |
471 |
553 |
experimento_1_train1_val3_argmax_26_abril_2012.txt experimento_1_train1_val3_-0.1_26_abril_2012.txt experimento_1_train2_val3_argmax_26_abril_2012.txt experimento_1_train2_val3_-0.1_26_abril_2012.txt
3 mayo 2012
Experimento 1
Se realiza una prueba con distintos valores de DSIFT_STEP (8 y 16) y aumento el conjunto de entrenamiento haciendo un flip left-right de las imágenes antes de calcular DSIFT. Flip=0, indica sin aumentar el conjunto; Flip=1 indica aumentando el conjunto de entrenamiento con las imágenes flipeadas. Al final de este experimento se muestra la configuración que resulta más apropiada.
Configuración
- SGD LBD=1e-4, 20 iteraciones
Using argmax for classification
Resultados
Flip=0
- DSIFT step=8
|
NGAUSS |
||||||||
Tr. |
Te. |
8 |
16 |
32 |
64 |
128 |
256 |
512 |
1024 |
1,2 |
3 |
-289 |
29 |
59 |
79 |
185 |
267 |
319 |
445 |
2,3 |
1 |
935 |
1195 |
1141 |
1173 |
1183 |
1251 |
1225 |
1293 |
3,1 |
2 |
1162 |
1374 |
1390 |
1456 |
1584 |
1658 |
1668 |
1632 |
Avg. |
603 |
866 |
863 |
903 |
984 |
1059 |
1071 |
1123 |
- DSIFT step=16
|
NGAUSS |
||||||||
Tr. |
Te. |
8 |
16 |
32 |
64 |
128 |
256 |
512 |
1024 |
1,2 |
3 |
-161 |
-9 |
19 |
25 |
225 |
191 |
299 |
371 |
2,3 |
1 |
897 |
1129 |
1221 |
1143 |
1101 |
1095 |
1175 |
1179 |
3,1 |
2 |
1160 |
1252 |
1392 |
1424 |
1412 |
1528 |
1552 |
1524 |
Avg. |
632 |
791 |
877 |
864 |
913 |
938 |
1009 |
1025 |
Flip=1
- DSIFT step=8
|
NGAUSS |
||||||||
Tr. |
Te. |
8 |
16 |
32 |
64 |
128 |
256 |
512 |
1024 |
1,2 |
3 |
-357 |
-105 |
45 |
59 |
185 |
199 |
233 |
411 |
2,3 |
1 |
1569 |
1703 |
1787 |
1795 |
1887 |
1949 |
1995 |
1999 |
3,1 |
2 |
1666 |
1880 |
2018 |
2076 |
2142 |
2182 |
2182 |
2190 |
Avg. |
959 |
1159 |
1283 |
1310 |
1405 |
1443 |
1470 |
1533 |
- DSIFT step=16
|
NGAUSS |
||||||||
Tr. |
Te. |
8 |
16 |
32 |
64 |
128 |
256 |
512 |
1024 |
1,2 |
3 |
-211 |
11 |
31 |
-15 |
233 |
149 |
263 |
373 |
2,3 |
1 |
1447 |
1651 |
1693 |
1791 |
1857 |
1901 |
1945 |
1909 |
3,1 |
2 |
1642 |
1744 |
1944 |
2032 |
2126 |
2128 |
2150 |
2140 |
Avg. |
959 |
1135 |
1223 |
1269 |
1405 |
1393 |
1453 |
1474 |
- Configuración: 256 Gaussianas, DSIFT step=8, flip=1
4 mayo 2012
Experimento 1
Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento no se actualizó el modelo .gmm con los nuevos descriptores con flip y oscurecidos.
Configuración
- SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1
Using argmax for classification
Resultados
NGAUSS=256 |
srange |
|||
Tr. |
Te. |
1.0 |
0.33 |
0.5 |
1,2 |
3 |
199 |
229 |
221 |
2,3 |
1 |
1949 |
1949 |
1945 |
3,1 |
2 |
2182 |
2180 |
2180 |
Avg. |
1443 |
1452 |
1449 |
5 mayo 2012
Experimento 1
Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento si se actualizó el modelo .gmm con los nuevos descriptores generados con flip y con oscurecimiento.
Configuración
- SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1
Using argmax for classification
Resultados
NGAUSS=256 |
srange |
||||
Tr. |
Te. |
1.0 |
0.1 |
0.33 |
0.5 |
1,2 |
3 |
199 |
187 |
195 |
171 |
2,3 |
1 |
1949 |
1975 |
1945 |
1965 |
3,1 |
2 |
2182 |
2154 |
2166 |
2180 |
Avg. |
1443 |
1439 |
1435 |
1439 |
7 mayo 2012
Experimento 1
Se prueba utilizando feature augmentation. En este experimento si se actualizó el modelo .gmm con los descriptores generados con flip de las imágenes. Con aug=1 o aug=0 se indica el uso o no de feature augmentation respectivamente.
Configuración
- SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]
Using argmax for classification
Resultados
NGAUSS=64 |
flip=0 |
flip=1 |
|||
Tr. |
Te. |
aug=0 |
aug=1 |
aug=0 |
aug=1 |
1,2 |
3 |
77 |
87 |
257 |
33 |
2,3 |
1 |
1173 |
1207 |
1801 |
1783 |
3,1 |
2 |
1440 |
1528 |
2080 |
2014 |
Avg. |
897 |
941 |
1379 |
1277 |
- Comparación usando en ambos casos imágenes de entrenamiento originales y flipeadas, pero en el primer caso entrenando el modelo .gmm solo en las imágenes originales (gmm_flip=0) y en el segundo caso utilizando las imágenes originales y las flipeadas (gmm_flip=1). No se usó feature augmentation.
NGAUSS=64 |
flip=1 |
||
Tr. |
Te. |
gmm_flip=0 |
gmm_flip=1 |
1,2 |
3 |
59 |
257 |
2,3 |
1 |
1795 |
1801 |
3,1 |
2 |
2076 |
2080 |
Avg. |
1310 |
1379 |
8 mayo 2012
Experimento 1
Se prueba utilizando feature augmentation. En este experimento si se actualizó el modelo .gmm con los descriptores generados con flip de las imágenes. Con aug=1 o aug=0 se indica el uso o no de feature augmentation respectivamente.
Configuración
- SGD LBD=1e-4, 20 iteraciones, 128 Gaussianas, DSIFT step=8, flip=[0,1]
Using argmax for classification
Resultados
NGAUSS=128 |
flip=0 |
flip=1 |
|||
Tr. |
Te. |
aug=0 |
aug=1 |
aug=0 |
aug=1 |
1,2 |
3 |
191 |
115 |
195 |
39 |
2,3 |
1 |
1189 |
1255 |
1887 |
1905 |
3,1 |
2 |
1582 |
1618 |
2132 |
2098 |
Avg. |
987 |
996 |
1405 |
1347 |
9 mayo 2012
Experimento 1
Se prueba utilizando pirámides espaciales. Las configuraciones usadas son "sp1x1,lsf=0,gsf=0" (spyr=0), "sp1x1,sp1x3,lsf=0,gsf=0" (spyr=1) y "sp1x1,sp1x3,lsf=0.33,gsf=0.33" (spyr=2).
Configuración
- SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]
Using argmax for classification
Resultados
NGAUSS=64 |
flip=0 |
flip=1 |
|||||
Tr. |
Te. |
spyr=0 |
spyr=1 |
spyr=2 |
spyr=0 |
spyr=1 |
spyr=2 |
1,2 |
3 |
77 |
-413 |
-41 |
257 |
-458 |
201 |
2,3 |
1 |
1173 |
1123 |
1029 |
1801 |
1773 |
1791 |
3,1 |
2 |
1440 |
1412 |
1358 |
2080 |
2078 |
2084 |
Avg. |
897 |
707 |
782 |
1379 |
1122 |
1359 |
11 mayo 2012
Experimento 1
Se prueba utilizando opponent SIFT. El software utilizado para calcular los descriptores es colorDescriptor. Estos cálculos se realizaron sobre la notebook de jaarac, por eso pueden variar con los que se calcularon antes.
Configuración
- Descriptor: OPP_SIFT, step=16, sampling_scale=1.6
- SGD LBD=1e-4; 20 iteraciones; 16, 32 y 64 Gaussianas; flip=0
Using argmax for classification
Resultados
OPPSIFT |
flip=0 |
|||
Tr. |
Te. |
16 |
32 |
64 |
1,2 |
3 |
-231 |
-173 |
-17 |
2,3 |
1 |
1161 |
1217 |
1221 |
3,1 |
2 |
1538 |
1598 |
1664 |
Avg. |
823 |
881 |
956 |
Experimento 2
Se evaluó el detector de transiciones y distintas formas de realizar la clasificación. Con el detector de transiciones no se obtuvieron mejoras, así que los datos no fueron subidos.
Configuración
- Los resultados mostrados son promedios sobre los scores obtenidos para las 3 configuraciones de conjuntos posibles para valores de 64, 128 y 256 gaussianas.
- Descriptor: DSIFT, step=8
- SGD LBD=1e-4; 20 iteraciones; Gaussianas; flip=0
Resultados
- Aplicando un umbral a la diferencia entre el mayor y el segundo mayor score para decidir si clasificamos o no. La clasificación posterior se realizó con argmax. Solamente se muestran umbrales hasta 0.9, porque para umbrales menores los scores son muy bajos. El umbral 0.0 sería el baseline, o sea siempre clasificamos.
umbral |
0.0 |
0.1 |
0.2 |
0.3 |
0.4 |
0.5 |
0.6 |
0.7 |
0.8 |
0.9 |
avg |
979.556 |
1035.44 |
1072 |
1095.78 |
1103.44 |
1102.67 |
1088.56 |
1058.56 |
1021.11 |
972.111 |
- Utilizando un umbral sobre el mayor score de clasificación, para decidir cuando clasificar. Luego se elige la clase del mayor score.
umbral |
-1.0 |
-0.9 |
-0.8 |
-0.7 |
-0.6 |
-0.5 |
-0.4 |
-0.3 |
-0.2 |
-0.1 |
0.0 |
0.1 |
0.2 |
avg |
980.444 |
983.778 |
996.667 |
1019.56 |
1051.67 |
1095.89 |
1136.56 |
1172.44 |
1185 |
1166.78 |
1120.44 |
1056.67 |
979.444 |
- Utilizando un umbral sobre abs(max_score)/(max_score - secondmax_score) para decidir cuando clasificar.
umbral |
0.6 |
0.7 |
0.8 |
0.9 |
1.0 |
1.1 |
1.2 |
1.3 |
1.4 |
1.5 |
1.6 |
1.7 |
1.8 |
1.9 |
2.0 |
avg |
1050 |
1123 |
1139 |
1139 |
1137 |
1131 |
1128 |
1123 |
1120 |
1118 |
1111.44 |
1107 |
1103 |
1101 |
1099 |
18 mayo 2012
Experimento 1
Se prueba utilizando el detector de transiciones, pero se generan nuevos conjuntos de entrenamiento a partir de los originales (feature_packer, feature_sampler).
Configuración
- Descriptor: DSIFT, step=8, ;SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
- Entrenando cls (lbd=1e-4) y td (lbd=1e-2,1e-3,1e-4) sobre training1 y training2. Entrenando cls+td (lbd=1e-2,1e-3,1e-4) sobre los nuevos conjuntos training1 y training2 generados con probabilidad P de sacar un descriptor de la imagen original. Se usaron probabilidades P = 0.3, 0.5, 0.66, 0.75 . El detector de transiciones se uso con thr = 0.7, 0.8, 0.9 .
Using argmax for classification
Resultados
Resultados para las condiciones que resultaron más favorables, esto es:
- cls_sgd_lbd = 1e-4
- td_sgd_lbd = 1e-2
- cls+td_sgd_lbd = 1e-2
- P = 0.75
- thr = 0.8
set conf |
BL |
with TD, P=0.75, thr=0.8 |
|||||
Tr. |
Te. |
64 |
128 |
256 |
64 |
128 |
256 |
1,2 |
3 |
77 |
191 |
253 |
51 |
175 |
241 |
2,3 |
1 |
1173 |
1189 |
1267 |
1151 |
1181 |
1271 |
3,1 |
2 |
1440 |
1582 |
1644 |
1418 |
1554 |
1632 |
Avg. |
897 |
987 |
1055 |
873 |
970 |
1048 |
Resultados para otras condiciones:
- cls_sgd_lbd = 1e-4
- td_sgd_lbd = 1e-4
- cls+td_sgd_lbd = 1e-4
- P = 0.75
- thr = 0.8
set conf |
BL |
with TD, P=0.75, thr=0.8 |
|||||
Tr. |
Te. |
64 |
128 |
256 |
64 |
128 |
256 |
1,2 |
3 |
77 |
191 |
253 |
-43 |
79 |
165 |
2,3 |
1 |
1173 |
1189 |
1267 |
1187 |
1075 |
1121 |
3,1 |
2 |
1440 |
1582 |
1644 |
1266 |
1424 |
1540 |
Avg. |
897 |
987 |
1055 |
803 |
859 |
942 |
En el siguiente archivo están todos los resultados. Los archivos *_with_td.txt contienen los resultados usando TD y los otros archivos el baseline. Hay un archivo para cada configuración de conjuntos de training y test. Las datos están organizados de la siguiente forma:
P |
ngauss |
cls_lbd |
td_lbd |
td_thr |
cls+td_lbd |
score |
29 mayo 2012
Experimento 1
Se realizan nuevamente los experimentos porque hubo errores con las etiquetas entregadas por los organizadores. También se muestran los resultados usando SIFT sobre las imágenes de profundidad.
Configuración
- Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
- Descriptor Depth: DSIFT, step=8, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
Using argmax for classification
Resultados
set conf |
RGB |
Depth |
Late fusion w=0.5 |
|||||||
Tr. |
Te. |
64 |
128 |
256 |
64 |
128 |
256 |
64 |
128 |
256 |
1,2 |
3 |
77 |
191 |
253 |
23 |
159 |
349 |
433 |
599 |
681 |
2,3 |
1 |
1189 |
1199 |
1285 |
431 |
465 |
541 |
1031 |
1089 |
1069 |
3,1 |
2 |
1462 |
1592 |
1648 |
1108 |
1206 |
1226 |
1772 |
1822 |
1862 |
Avg. |
909 |
994 |
1062 |
521 |
610 |
705 |
1079 |
1170 |
1204 |
30 mayo 2012
Experimento 1
Resultados usando SIFT sobre las imágenes de profundidad usando image_presc=0.5 e image_presc=1.0.
Configuración
- Descriptor Depth: DSIFT, step=8, image_presc=[0.5, 1.0], dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 64, 128, 256 y 512 Gaussianas; flip=0
Using argmax for classification
Resultados
set conf |
image_presc=0.5 |
image_presc=1.0 |
|||||||
Tr. |
Te. |
64 |
128 |
256 |
512 |
64 |
128 |
256 |
512 |
1,2 |
3 |
23 |
159 |
349 |
|
-335 |
7 |
203 |
309 |
2,3 |
1 |
431 |
465 |
541 |
|
465 |
571 |
609 |
617 |
3,1 |
2 |
1108 |
1206 |
1226 |
|
1116 |
1194 |
1226 |
1272 |
Avg. |
521 |
610 |
705 |
|
415 |
591 |
679 |
733 |
Experimento 2
Late fusion sobre RGB y Depth. Comparación usando image_presc=[0.5,1.0]
Configuración
- Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
- Descriptor Depth: DSIFT, step=8, image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
Using argmax for classification
- Late fusion: w=0.5
Resultados
set conf |
Late fusion image_presc=0.5 w=0.5 |
Late fusion image_presc=1.0 w=0.5 |
|||||||
Tr. |
Te. |
64 |
128 |
256 |
512 |
64 |
128 |
256 |
512 |
1,2 |
3 |
433 |
599 |
681 |
|
249 |
527 |
687 |
685 |
2,3 |
1 |
1031 |
1089 |
1069 |
|
1041 |
1083 |
1103 |
1091 |
3,1 |
2 |
1772 |
1822 |
1862 |
|
1766 |
1828 |
1890 |
1850 |
Avg. |
1079 |
1170 |
1204 |
|
1018 |
1146 |
1227 |
1209 |
31 mayo 2012
Experimento 1
Resultados usando SIFT sobre las imágenes de profundidad usando step=4 y step=8.
Configuración
- Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0
Using argmax for classification
Resultados
set conf |
step=8 |
step=4 |
|
Tr. |
Te. |
256 |
256 |
1,2 |
3 |
349 |
357 |
2,3 |
1 |
541 |
573 |
3,1 |
2 |
1226 |
1266 |
Avg. |
705 |
732 |
Experimento 2
Late fusion sobre RGB y Depth. Comparación usando step=[4,8] para las imágenes de profundidad.
Configuración
- Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
- Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0
Using argmax for classification
- Late fusion: w=0.5
Resultados
set conf |
Late fusion step=4 |
Late fusion step=8 |
|
Tr. |
Te. |
256 |
256 |
1,2 |
3 |
755 |
681 |
2,3 |
1 |
1113 |
1069 |
3,1 |
2 |
1878 |
1862 |
Avg. |
1249 |
1204 |
1 junio 2012
Experimento 1
Late fusion sobre RGB y Depth ambos con flip=1.
Configuración
- Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
- Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
- Late fusion: w=0.5
Resultados usando argmax
set conf |
RGB |
Depth |
LF w=0.5 |
|||||||
Tr. |
Te. |
256 |
512 |
1024 |
256 |
512 |
1024 |
256 |
512 |
1024 |
1,2 |
3 |
239 |
269 |
339 |
511 |
489 |
609 |
757 |
815 |
921 |
2,3 |
1 |
2013 |
1991 |
2019 |
1403 |
1429 |
1461 |
1985 |
1981 |
1997 |
3,1 |
2 |
2174 |
2182 |
2186 |
1548 |
1564 |
1598 |
2096 |
2098 |
2116 |
Avg. |
1475 |
1481 |
1515 |
1154 |
1161 |
1223 |
1613 |
1631 |
1678 |
Resultados usando un thr y no argmax
- Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.
set conf |
argmax |
thr=-0.4 |
thr=-0.5 |
thr=-0.6 |
|||||||||
Tr. |
Te. |
256 |
512 |
1024 |
256 |
512 |
1024 |
256 |
512 |
1024 |
256 |
512 |
1024 |
1,2 |
3 |
757 |
815 |
921 |
868 |
927 |
989 |
897 |
968 |
1054 |
896 |
947 |
1047 |
2,3 |
1 |
1985 |
1981 |
1997 |
1990 |
2002 |
1998 |
2014 |
2015 |
2001 |
2010 |
1997 |
2003 |
3,1 |
2 |
2096 |
2098 |
2116 |
2076 |
2084 |
2116 |
2096 |
2102 |
2115 |
2094 |
2096 |
2114 |
Avg. |
1613 |
1631 |
1678 |
1645 |
1671 |
1701 |
1669 |
1695 |
1723 |
1667 |
1680 |
1721 |
4 junio 2012
Experimento 1
Comparación DSIFT sobre imágenes RGB usando step=[4,8] y image_presc=[0.5,1.0] con flip=1.
Configuración
- Descriptor RGB: DSIFT, step=[4,8], image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
Using argmax for classification
Resultados usando argmax
set conf |
step=4, img_presc=0.5 |
step=8, img_presc=1.0 |
|||||
Tr. |
Te. |
256 |
512 |
1024 |
256 |
512 |
1024 |
1,2 |
3 |
275 |
411 |
491 |
239 |
269 |
339 |
2,3 |
1 |
1941 |
1945 |
1969 |
2013 |
1991 |
2019 |
3,1 |
2 |
2150 |
2158 |
2154 |
2174 |
2182 |
2186 |
Avg. |
1455 |
1505 |
1538 |
1475 |
1481 |
1515 |
Experimento 2
Late fusion sobre RGB y Depth ambos con flip=1.
Configuración
- Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
- Late fusion: w=0.5
Resultados usando argmax
set conf |
RGB |
Depth |
LF w=0.5 |
|||||||
Tr. |
Te. |
256 |
512 |
1024 |
256 |
512 |
1024 |
256 |
512 |
1024 |
1,2 |
3 |
275 |
411 |
491 |
511 |
489 |
609 |
835 |
897 |
965 |
2,3 |
1 |
1941 |
1945 |
1969 |
1403 |
1429 |
1461 |
1947 |
1961 |
1941 |
3,1 |
2 |
2150 |
2158 |
2154 |
1548 |
1564 |
1598 |
2050 |
2078 |
2094 |
Avg. |
1455 |
1505 |
1538 |
1154 |
1161 |
1223 |
1611 |
1645 |
1667 |
Resultados usando un thr y no argmax
- Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.
set conf |
argmax |
thr=-0.5 |
|||||
Tr. |
Te. |
256 |
512 |
1024 |
256 |
512 |
1024 |
1,2 |
3 |
835 |
897 |
965 |
959 |
1084 |
1107 |
2,3 |
1 |
1947 |
1961 |
1941 |
1969 |
1997 |
1958 |
3,1 |
2 |
2050 |
2078 |
2094 |
2042 |
2074 |
2101 |
Avg. |
1611 |
1645 |
1667 |
1657 |
1718 |
1722 |
13 junio 2012
Experimento 1
Resultados para la tarea 2. Se proponen cuatro variantes todas ellas basadas en la segmentación temporal de las secuencias de imágenes utilizando el producto punto entre vectores de fisher. El producto punto entre vectores de fisher es una buena medida de similitud entre imágenes. El procedimiento para segmentar fue: se agarra el primer vector y se empieza a calcular el producto punto de este primer vector con los vectores siguientes en la secuencia temporal, cuando ese producto supera un threshold se obtiene un segmento. Luego se elige nuevamente como primer vector el siguiente de la secuencia y se realiza nuevamente el procedimiento descripto anteriormente.
Para calcular los segmentos se utilizaron los vectores de fisher obtenidos de las imágenes de RGB debido a que con estas se obtenían en promedio segmentos más largos en comparación con los obtenidos usando los ifv de imágenes de profundidad.
Configuración
- Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 1024 Gaussianas; flip=1
- Late fusion: w=0.5
- Se prueban 4 configuraciones, MV (mayor votación), MS (mayor score), MC (mayor confidencialidad) y MST (mayor score y threshold).
- MV: calculamos la moda del segmento, luego asignamos esa clase a todo el segmento
- MS: buscamos el score máximo de todo el segmento para cualquier clase y luego asignamos la clase de ese score a toda la secuencia
- MC: buscamos la clase con más confidencialidad en todo el segmento y luego asignamos esa clase a toda la secuencia
- MST: buscamos el score máximo de todo el segmento para cualquier clase y pero luego asignamos la clase de ese score a toda la secuencia solo en caso de que ese score esté por encima de un threshold
- La confidencialidad se calculo como la diferencia entre el score más grande y el segundo score más grande.
Resultados
|
bl |
0.0 |
0.1 |
0.2 |
0.3 |
0.4 |
0.5 |
0.6 |
0.7 |
0.8 |
0.9 |
0.95 |
MV |
1722 |
1628 |
1790 |
1778 |
1796 |
1775 |
1793 |
1792 |
1776 |
1774 |
1772 |
1774 |
MS |
1722 |
1337 |
1627 |
1671 |
1658 |
1681 |
1737 |
1751 |
1773 |
1783 |
1777 |
1774 |
MC |
1722 |
1521 |
1849 |
1808 |
1812 |
1791 |
1771 |
1781 |
1774 |
1782 |
1778 |
1775 |
MST -0.4 |
1722 |
1401 |
1704 |
1694 |
1677 |
1686 |
1706 |
1738 |
1771 |
1798 |
1799 |
1800 |
MST -0.5 |
1722 |
1393 |
1715 |
1725 |
1712 |
1755 |
1778 |
1798 |
1811 |
1833 |
1828 |
1825 |
MST -0.6 |
1722 |
1395 |
1745 |
1764 |
1739 |
1767 |
1791 |
1811 |
1813 |
1824 |
1819 |
1816 |
MST -0.7 |
1722 |
1376 |
1714 |
1729 |
1704 |
1740 |
1772 |
1779 |
1790 |
1799 |
1793 |
1790 |
mean_len |
1 |
31 |
11 |
8 |
5.4 |
4.0 |
2.9 |
2.1 |
1.6 |
1.2 |
1.02 |
1.01 |
n_seg |
2370 |
77 |
213 |
315 |
440 |
590 |
804 |
1115 |
1505 |
2054 |
2317 |
2359 |