Robot Vision 2012
Experimentos realizados para la 4º edición de la competencia 'Robot Vision Challenge - ImageCLEF'.
Gacetilla de Prensa
Un equipo representante del Centro de Investigación en Informática para la Ingeniería de la UTN FRC ha resultado ganador de la cuarta edición del "Robot Vision Challenge", la cual se realizó entre marzo y junio del 2012.
El "Robot Vision Challenge" es una Competencia Internacional de Visión Robótica, abierta al público en general, en la cual participan distintas Universidades y empresas del mundo dedicadas al desarrollo de algoritmos de Visión por Computadora. La edición 2012 fue organizada por el Instituto de Investigación IDIAP de Suiza y la Universidad de Castilla-La Mancha de España en el marco de la Conferencia CLEF 2012 a desarrollarse en Roma, Italia.
La competencia consistió en la realización de un programa de computadora capaz de clasificar las habitaciones de un edificio de oficinas recorrido por un robot, basándose en las imágenes adquiridas con una cámara y un sensor de profundidad montados sobre el mismo.
En esta edición de la competencia hubo 2 tareas, en las cuales se debía responder (basándose en imágenes) a la pregunta: ¿en que habitación se encuentra el robot?. En la primera tarea las imágenes a clasificar estaban desordenadas temporalmente, en cambio en la segunda estaban ordenadas, lo cual significa que si en la imagen actual el robot se encuentra en la habitación "oficina" es muy probable que en la siguiente imagen el robot se encuentra en la misma habitación ("oficina").
El equipo bautizado "CIII UTN FRC", integrado por el Doctor Jorge Sánchez y Ingeniero Javier Redolfi resultó ganador en ambas tareas, logrando una diferencia de 254 puntos en la tarea 1 y de 5 puntos en la tarea 2 con respecto al segundo equipo.
Para más información, visitar la página http://www.imageclef.org/2012/robot en donde se puede encontrar una descripción detallada de la competencia y la tabla completa de resultados de la misma.
Datasets
El dataset está compuesto por 3 conjuntos de entrenamiento, denominados training[1,2,3], los cuales cuentan con 2667, 2532 y 1913 imágenes rgb y de profundidad respectivamente. La media de estos 3 conjuntos es 2371, este sería el máximo score a lograr en promedio cuando testeamos sobre los 3 conjuntos.
Las imágenes corresponden a las habitaciones
Imágenes de ejemplo
- En training1 el recorrido del robot es contrario al caso de training[23].
- Las imágenes de training3 son tomadas de noche
Training1
Training2
Training3
Repositorio con los scripts para replicar los experimentos
hg clone https://proyectos.ciii.frc.utn.edu.ar/hg/robot_vision_2012
25 abril 2012
Experimento 1
Configuración
- Descriptores: SIFT sobre grilla regular (DSIFT de vlfeat), patchs 32x32, paso=8, L2-norm., D=128, 5 escalas, factor=0.707
- PCA: subespacio aprendido sobre training1+training2+training3, D=80
GMM: aprendido sobre training1+training2+training3, para N = 8, 16 y 32
- IFV: gradientes resp. medias y varianzas, alpha=0.5, pnorm=2.0
SGD: hinge loss, 20, 50 y 100 iteraciones, lambda = 1e-2, 1e-3 y 1e-4, training sobre training1 y testeando sobre training2. La clasificación se realizo con argmax.
Resultados
|
20 iteraciones |
50 iteraciones |
100 iteraciones |
||||||||
lambda\ngauss |
8 |
16 |
32 |
8 |
16 |
32 |
8 |
16 |
32 |
||
1e-3 |
1382 |
1334 |
1414 |
1376 |
1352 |
1426 |
1382 |
1356 |
1422 |
||
1e-4 |
1462 |
1422 |
1466 |
1462 |
1400 |
1478 |
1462 |
1396 |
1476 |
||
1e-5 |
1318 |
1402 |
1444 |
1358 |
1368 |
1394 |
1378 |
1384 |
1322 |
experimento_1_25_abril_2012.txt
26 abril 2012
Experimento 1
Configuración
- Igual que el experimento anterior, pero se agrego 64 gaussianas.
SGD: hinge loss, 20 iteraciones, lambda = 1e-4, training sobre training1 o training2 y testeando siempre sobre training3. La clasificación se realizo con argmax y con thr=-0.1.
Resultados
|
20 iteraciones, argmax, train1 |
20 iteraciones, thr=-0.1, train1 |
20 iteraciones, argmax, train2 |
20 iteraciones, thr=-0.1, train2 |
|||||||||||||||
l\ng |
8 |
16 |
32 |
64 |
8 |
16 |
32 |
64 |
8 |
16 |
32 |
64 |
8 |
16 |
32 |
64 |
|||
1e-4 |
-405 |
-153 |
-127 |
-161 |
194 |
362 |
355 |
399 |
-361 |
-87 |
1 |
35 |
226 |
421 |
471 |
553 |
experimento_1_train1_val3_argmax_26_abril_2012.txt experimento_1_train1_val3_-0.1_26_abril_2012.txt experimento_1_train2_val3_argmax_26_abril_2012.txt experimento_1_train2_val3_-0.1_26_abril_2012.txt
3 mayo 2012
Experimento 1
Se realiza una prueba con distintos valores de DSIFT_STEP (8 y 16) y aumento el conjunto de entrenamiento haciendo un flip left-right de las imágenes antes de calcular DSIFT. Flip=0, indica sin aumentar el conjunto; Flip=1 indica aumentando el conjunto de entrenamiento con las imágenes flipeadas. Al final de este experimento se muestra la configuración que resulta más apropiada.
Configuración
- SGD LBD=1e-4, 20 iteraciones
Using argmax for classification
Resultados
Flip=0
- DSIFT step=8
|
NGAUSS |
||||||||
Tr. |
Te. |
8 |
16 |
32 |
64 |
128 |
256 |
512 |
1024 |
1,2 |
3 |
-289 |
29 |
59 |
79 |
185 |
267 |
319 |
445 |
2,3 |
1 |
935 |
1195 |
1141 |
1173 |
1183 |
1251 |
1225 |
1293 |
3,1 |
2 |
1162 |
1374 |
1390 |
1456 |
1584 |
1658 |
1668 |
1632 |
Avg. |
603 |
866 |
863 |
903 |
984 |
1059 |
1071 |
1123 |
- DSIFT step=16
|
NGAUSS |
||||||||
Tr. |
Te. |
8 |
16 |
32 |
64 |
128 |
256 |
512 |
1024 |
1,2 |
3 |
-161 |
-9 |
19 |
25 |
225 |
191 |
299 |
371 |
2,3 |
1 |
897 |
1129 |
1221 |
1143 |
1101 |
1095 |
1175 |
1179 |
3,1 |
2 |
1160 |
1252 |
1392 |
1424 |
1412 |
1528 |
1552 |
1524 |
Avg. |
632 |
791 |
877 |
864 |
913 |
938 |
1009 |
1025 |
Flip=1
- DSIFT step=8
|
NGAUSS |
||||||||
Tr. |
Te. |
8 |
16 |
32 |
64 |
128 |
256 |
512 |
1024 |
1,2 |
3 |
-357 |
-105 |
45 |
59 |
185 |
199 |
233 |
411 |
2,3 |
1 |
1569 |
1703 |
1787 |
1795 |
1887 |
1949 |
1995 |
1999 |
3,1 |
2 |
1666 |
1880 |
2018 |
2076 |
2142 |
2182 |
2182 |
2190 |
Avg. |
959 |
1159 |
1283 |
1310 |
1405 |
1443 |
1470 |
1533 |
- DSIFT step=16
|
NGAUSS |
||||||||
Tr. |
Te. |
8 |
16 |
32 |
64 |
128 |
256 |
512 |
1024 |
1,2 |
3 |
-211 |
11 |
31 |
-15 |
233 |
149 |
263 |
373 |
2,3 |
1 |
1447 |
1651 |
1693 |
1791 |
1857 |
1901 |
1945 |
1909 |
3,1 |
2 |
1642 |
1744 |
1944 |
2032 |
2126 |
2128 |
2150 |
2140 |
Avg. |
959 |
1135 |
1223 |
1269 |
1405 |
1393 |
1453 |
1474 |
- Configuración: 256 Gaussianas, DSIFT step=8, flip=1
4 mayo 2012
Experimento 1
Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento no se actualizó el modelo .gmm con los nuevos descriptores con flip y oscurecidos.
Configuración
- SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1
Using argmax for classification
Resultados
NGAUSS=256 |
srange |
|||
Tr. |
Te. |
1.0 |
0.33 |
0.5 |
1,2 |
3 |
199 |
229 |
221 |
2,3 |
1 |
1949 |
1949 |
1945 |
3,1 |
2 |
2182 |
2180 |
2180 |
Avg. |
1443 |
1452 |
1449 |
5 mayo 2012
Experimento 1
Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento si se actualizó el modelo .gmm con los nuevos descriptores generados con flip y con oscurecimiento.
Configuración
- SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1
Using argmax for classification
Resultados
NGAUSS=256 |
srange |
||||
Tr. |
Te. |
1.0 |
0.1 |
0.33 |
0.5 |
1,2 |
3 |
199 |
187 |
195 |
171 |
2,3 |
1 |
1949 |
1975 |
1945 |
1965 |
3,1 |
2 |
2182 |
2154 |
2166 |
2180 |
Avg. |
1443 |
1439 |
1435 |
1439 |
7 mayo 2012
Experimento 1
Se prueba utilizando feature augmentation. En este experimento si se actualizó el modelo .gmm con los descriptores generados con flip de las imágenes. Con aug=1 o aug=0 se indica el uso o no de feature augmentation respectivamente.
Configuración
- SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]
Using argmax for classification
Resultados
NGAUSS=64 |
flip=0 |
flip=1 |
|||
Tr. |
Te. |
aug=0 |
aug=1 |
aug=0 |
aug=1 |
1,2 |
3 |
77 |
87 |
257 |
33 |
2,3 |
1 |
1173 |
1207 |
1801 |
1783 |
3,1 |
2 |
1440 |
1528 |
2080 |
2014 |
Avg. |
897 |
941 |
1379 |
1277 |
- Comparación usando en ambos casos imágenes de entrenamiento originales y flipeadas, pero en el primer caso entrenando el modelo .gmm solo en las imágenes originales (gmm_flip=0) y en el segundo caso utilizando las imágenes originales y las flipeadas (gmm_flip=1). No se usó feature augmentation.
NGAUSS=64 |
flip=1 |
||
Tr. |
Te. |
gmm_flip=0 |
gmm_flip=1 |
1,2 |
3 |
59 |
257 |
2,3 |
1 |
1795 |
1801 |
3,1 |
2 |
2076 |
2080 |
Avg. |
1310 |
1379 |
8 mayo 2012
Experimento 1
Se prueba utilizando feature augmentation. En este experimento si se actualizó el modelo .gmm con los descriptores generados con flip de las imágenes. Con aug=1 o aug=0 se indica el uso o no de feature augmentation respectivamente.
Configuración
- SGD LBD=1e-4, 20 iteraciones, 128 Gaussianas, DSIFT step=8, flip=[0,1]
Using argmax for classification
Resultados
NGAUSS=128 |
flip=0 |
flip=1 |
|||
Tr. |
Te. |
aug=0 |
aug=1 |
aug=0 |
aug=1 |
1,2 |
3 |
191 |
115 |
195 |
39 |
2,3 |
1 |
1189 |
1255 |
1887 |
1905 |
3,1 |
2 |
1582 |
1618 |
2132 |
2098 |
Avg. |
987 |
996 |
1405 |
1347 |
9 mayo 2012
Experimento 1
Se prueba utilizando pirámides espaciales. Las configuraciones usadas son "sp1x1,lsf=0,gsf=0" (spyr=0), "sp1x1,sp1x3,lsf=0,gsf=0" (spyr=1) y "sp1x1,sp1x3,lsf=0.33,gsf=0.33" (spyr=2).
Configuración
- SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]
Using argmax for classification
Resultados
NGAUSS=64 |
flip=0 |
flip=1 |
|||||
Tr. |
Te. |
spyr=0 |
spyr=1 |
spyr=2 |
spyr=0 |
spyr=1 |
spyr=2 |
1,2 |
3 |
77 |
-413 |
-41 |
257 |
-458 |
201 |
2,3 |
1 |
1173 |
1123 |
1029 |
1801 |
1773 |
1791 |
3,1 |
2 |
1440 |
1412 |
1358 |
2080 |
2078 |
2084 |
Avg. |
897 |
707 |
782 |
1379 |
1122 |
1359 |
11 mayo 2012
Experimento 1
Se prueba utilizando opponent SIFT. El software utilizado para calcular los descriptores es colorDescriptor. Estos cálculos se realizaron sobre la notebook de jaarac, por eso pueden variar con los que se calcularon antes.
Configuración
- Descriptor: OPP_SIFT, step=16, sampling_scale=1.6
- SGD LBD=1e-4; 20 iteraciones; 16, 32 y 64 Gaussianas; flip=0
Using argmax for classification
Resultados
OPPSIFT |
flip=0 |
|||
Tr. |
Te. |
16 |
32 |
64 |
1,2 |
3 |
-231 |
-173 |
-17 |
2,3 |
1 |
1161 |
1217 |
1221 |
3,1 |
2 |
1538 |
1598 |
1664 |
Avg. |
823 |
881 |
956 |
Experimento 2
Se evaluó el detector de transiciones y distintas formas de realizar la clasificación. Con el detector de transiciones no se obtuvieron mejoras, así que los datos no fueron subidos.
Configuración
- Los resultados mostrados son promedios sobre los scores obtenidos para las 3 configuraciones de conjuntos posibles para valores de 64, 128 y 256 gaussianas.
- Descriptor: DSIFT, step=8
- SGD LBD=1e-4; 20 iteraciones; Gaussianas; flip=0
Resultados
- Aplicando un umbral a la diferencia entre el mayor y el segundo mayor score para decidir si clasificamos o no. La clasificación posterior se realizó con argmax. Solamente se muestran umbrales hasta 0.9, porque para umbrales menores los scores son muy bajos. El umbral 0.0 sería el baseline, o sea siempre clasificamos.
umbral |
0.0 |
0.1 |
0.2 |
0.3 |
0.4 |
0.5 |
0.6 |
0.7 |
0.8 |
0.9 |
avg |
979.556 |
1035.44 |
1072 |
1095.78 |
1103.44 |
1102.67 |
1088.56 |
1058.56 |
1021.11 |
972.111 |
- Utilizando un umbral sobre el mayor score de clasificación, para decidir cuando clasificar. Luego se elige la clase del mayor score.
umbral |
-1.0 |
-0.9 |
-0.8 |
-0.7 |
-0.6 |
-0.5 |
-0.4 |
-0.3 |
-0.2 |
-0.1 |
0.0 |
0.1 |
0.2 |
avg |
980.444 |
983.778 |
996.667 |
1019.56 |
1051.67 |
1095.89 |
1136.56 |
1172.44 |
1185 |
1166.78 |
1120.44 |
1056.67 |
979.444 |
- Utilizando un umbral sobre abs(max_score)/(max_score - secondmax_score) para decidir cuando clasificar.
umbral |
0.6 |
0.7 |
0.8 |
0.9 |
1.0 |
1.1 |
1.2 |
1.3 |
1.4 |
1.5 |
1.6 |
1.7 |
1.8 |
1.9 |
2.0 |
avg |
1050 |
1123 |
1139 |
1139 |
1137 |
1131 |
1128 |
1123 |
1120 |
1118 |
1111.44 |
1107 |
1103 |
1101 |
1099 |
18 mayo 2012
Experimento 1
Se prueba utilizando el detector de transiciones, pero se generan nuevos conjuntos de entrenamiento a partir de los originales (feature_packer, feature_sampler).
Configuración
- Descriptor: DSIFT, step=8, ;SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
- Entrenando cls (lbd=1e-4) y td (lbd=1e-2,1e-3,1e-4) sobre training1 y training2. Entrenando cls+td (lbd=1e-2,1e-3,1e-4) sobre los nuevos conjuntos training1 y training2 generados con probabilidad P de sacar un descriptor de la imagen original. Se usaron probabilidades P = 0.3, 0.5, 0.66, 0.75 . El detector de transiciones se uso con thr = 0.7, 0.8, 0.9 .
Using argmax for classification
Resultados
Resultados para las condiciones que resultaron más favorables, esto es:
- cls_sgd_lbd = 1e-4
- td_sgd_lbd = 1e-2
- cls+td_sgd_lbd = 1e-2
- P = 0.75
- thr = 0.8
set conf |
BL |
with TD, P=0.75, thr=0.8 |
|||||
Tr. |
Te. |
64 |
128 |
256 |
64 |
128 |
256 |
1,2 |
3 |
77 |
191 |
253 |
51 |
175 |
241 |
2,3 |
1 |
1173 |
1189 |
1267 |
1151 |
1181 |
1271 |
3,1 |
2 |
1440 |
1582 |
1644 |
1418 |
1554 |
1632 |
Avg. |
897 |
987 |
1055 |
873 |
970 |
1048 |
Resultados para otras condiciones:
- cls_sgd_lbd = 1e-4
- td_sgd_lbd = 1e-4
- cls+td_sgd_lbd = 1e-4
- P = 0.75
- thr = 0.8
set conf |
BL |
with TD, P=0.75, thr=0.8 |
|||||
Tr. |
Te. |
64 |
128 |
256 |
64 |
128 |
256 |
1,2 |
3 |
77 |
191 |
253 |
-43 |
79 |
165 |
2,3 |
1 |
1173 |
1189 |
1267 |
1187 |
1075 |
1121 |
3,1 |
2 |
1440 |
1582 |
1644 |
1266 |
1424 |
1540 |
Avg. |
897 |
987 |
1055 |
803 |
859 |
942 |
En el siguiente archivo están todos los resultados. Los archivos *_with_td.txt contienen los resultados usando TD y los otros archivos el baseline. Hay un archivo para cada configuración de conjuntos de training y test. Las datos están organizados de la siguiente forma:
P |
ngauss |
cls_lbd |
td_lbd |
td_thr |
cls+td_lbd |
score |
29 mayo 2012
Experimento 1
Se realizan nuevamente los experimentos porque hubo errores con las etiquetas entregadas por los organizadores. También se muestran los resultados usando SIFT sobre las imágenes de profundidad.
Configuración
- Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
- Descriptor Depth: DSIFT, step=8, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
Using argmax for classification
Resultados
set conf |
RGB |
Depth |
Late fusion w=0.5 |
|||||||
Tr. |
Te. |
64 |
128 |
256 |
64 |
128 |
256 |
64 |
128 |
256 |
1,2 |
3 |
77 |
191 |
253 |
23 |
159 |
349 |
433 |
599 |
681 |
2,3 |
1 |
1189 |
1199 |
1285 |
431 |
465 |
541 |
1031 |
1089 |
1069 |
3,1 |
2 |
1462 |
1592 |
1648 |
1108 |
1206 |
1226 |
1772 |
1822 |
1862 |
Avg. |
909 |
994 |
1062 |
521 |
610 |
705 |
1079 |
1170 |
1204 |
30 mayo 2012
Experimento 1
Resultados usando SIFT sobre las imágenes de profundidad usando image_presc=0.5 e image_presc=1.0.
Configuración
- Descriptor Depth: DSIFT, step=8, image_presc=[0.5, 1.0], dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 64, 128, 256 y 512 Gaussianas; flip=0
Using argmax for classification
Resultados
set conf |
image_presc=0.5 |
image_presc=1.0 |
|||||||
Tr. |
Te. |
64 |
128 |
256 |
512 |
64 |
128 |
256 |
512 |
1,2 |
3 |
23 |
159 |
349 |
|
-335 |
7 |
203 |
309 |
2,3 |
1 |
431 |
465 |
541 |
|
465 |
571 |
609 |
617 |
3,1 |
2 |
1108 |
1206 |
1226 |
|
1116 |
1194 |
1226 |
1272 |
Avg. |
521 |
610 |
705 |
|
415 |
591 |
679 |
733 |
Experimento 2
Late fusion sobre RGB y Depth. Comparación usando image_presc=[0.5,1.0]
Configuración
- Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
- Descriptor Depth: DSIFT, step=8, image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
Using argmax for classification
- Late fusion: w=0.5
Resultados
set conf |
Late fusion image_presc=0.5 w=0.5 |
Late fusion image_presc=1.0 w=0.5 |
|||||||
Tr. |
Te. |
64 |
128 |
256 |
512 |
64 |
128 |
256 |
512 |
1,2 |
3 |
433 |
599 |
681 |
|
249 |
527 |
687 |
685 |
2,3 |
1 |
1031 |
1089 |
1069 |
|
1041 |
1083 |
1103 |
1091 |
3,1 |
2 |
1772 |
1822 |
1862 |
|
1766 |
1828 |
1890 |
1850 |
Avg. |
1079 |
1170 |
1204 |
|
1018 |
1146 |
1227 |
1209 |
31 mayo 2012
Experimento 1
Resultados usando SIFT sobre las imágenes de profundidad usando step=4 y step=8.
Configuración
- Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0
Using argmax for classification
Resultados
set conf |
step=8 |
step=4 |
|
Tr. |
Te. |
256 |
256 |
1,2 |
3 |
349 |
357 |
2,3 |
1 |
541 |
573 |
3,1 |
2 |
1226 |
1266 |
Avg. |
705 |
732 |
Experimento 2
Late fusion sobre RGB y Depth. Comparación usando step=[4,8] para las imágenes de profundidad.
Configuración
- Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
- Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0
Using argmax for classification
- Late fusion: w=0.5
Resultados
set conf |
Late fusion step=4 |
Late fusion step=8 |
|
Tr. |
Te. |
256 |
256 |
1,2 |
3 |
755 |
681 |
2,3 |
1 |
1113 |
1069 |
3,1 |
2 |
1878 |
1862 |
Avg. |
1249 |
1204 |
1 junio 2012
Experimento 1
Late fusion sobre RGB y Depth ambos con flip=1.
Configuración
- Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
- Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
- Late fusion: w=0.5
Resultados usando argmax
set conf |
RGB |
Depth |
LF w=0.5 |
|||||||
Tr. |
Te. |
256 |
512 |
1024 |
256 |
512 |
1024 |
256 |
512 |
1024 |
1,2 |
3 |
239 |
269 |
339 |
511 |
489 |
609 |
757 |
815 |
921 |
2,3 |
1 |
2013 |
1991 |
2019 |
1403 |
1429 |
1461 |
1985 |
1981 |
1997 |
3,1 |
2 |
2174 |
2182 |
2186 |
1548 |
1564 |
1598 |
2096 |
2098 |
2116 |
Avg. |
1475 |
1481 |
1515 |
1154 |
1161 |
1223 |
1613 |
1631 |
1678 |
Resultados usando un thr y no argmax
- Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.
set conf |
argmax |
thr=-0.4 |
thr=-0.5 |
thr=-0.6 |
|||||||||
Tr. |
Te. |
256 |
512 |
1024 |
256 |
512 |
1024 |
256 |
512 |
1024 |
256 |
512 |
1024 |
1,2 |
3 |
757 |
815 |
921 |
868 |
927 |
989 |
897 |
968 |
1054 |
896 |
947 |
1047 |
2,3 |
1 |
1985 |
1981 |
1997 |
1990 |
2002 |
1998 |
2014 |
2015 |
2001 |
2010 |
1997 |
2003 |
3,1 |
2 |
2096 |
2098 |
2116 |
2076 |
2084 |
2116 |
2096 |
2102 |
2115 |
2094 |
2096 |
2114 |
Avg. |
1613 |
1631 |
1678 |
1645 |
1671 |
1701 |
1669 |
1695 |
1723 |
1667 |
1680 |
1721 |
4 junio 2012
Experimento 1
Comparación DSIFT sobre imágenes RGB usando step=[4,8] y image_presc=[0.5,1.0] con flip=1.
Configuración
- Descriptor RGB: DSIFT, step=[4,8], image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
Using argmax for classification
Resultados usando argmax
set conf |
step=4, img_presc=0.5 |
step=8, img_presc=1.0 |
|||||
Tr. |
Te. |
256 |
512 |
1024 |
256 |
512 |
1024 |
1,2 |
3 |
275 |
411 |
491 |
239 |
269 |
339 |
2,3 |
1 |
1941 |
1945 |
1969 |
2013 |
1991 |
2019 |
3,1 |
2 |
2150 |
2158 |
2154 |
2174 |
2182 |
2186 |
Avg. |
1455 |
1505 |
1538 |
1475 |
1481 |
1515 |
Experimento 2
Late fusion sobre RGB y Depth ambos con flip=1.
Configuración
- Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
- Late fusion: w=0.5
Resultados usando argmax
set conf |
RGB |
Depth |
LF w=0.5 |
|||||||
Tr. |
Te. |
256 |
512 |
1024 |
256 |
512 |
1024 |
256 |
512 |
1024 |
1,2 |
3 |
275 |
411 |
491 |
511 |
489 |
609 |
835 |
897 |
965 |
2,3 |
1 |
1941 |
1945 |
1969 |
1403 |
1429 |
1461 |
1947 |
1961 |
1941 |
3,1 |
2 |
2150 |
2158 |
2154 |
1548 |
1564 |
1598 |
2050 |
2078 |
2094 |
Avg. |
1455 |
1505 |
1538 |
1154 |
1161 |
1223 |
1611 |
1645 |
1667 |
Resultados usando un thr y no argmax
- Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.
set conf |
argmax |
thr=-0.5 |
|||||
Tr. |
Te. |
256 |
512 |
1024 |
256 |
512 |
1024 |
1,2 |
3 |
835 |
897 |
965 |
959 |
1084 |
1107 |
2,3 |
1 |
1947 |
1961 |
1941 |
1969 |
1997 |
1958 |
3,1 |
2 |
2050 |
2078 |
2094 |
2042 |
2074 |
2101 |
Avg. |
1611 |
1645 |
1667 |
1657 |
1718 |
1722 |
13 junio 2012
Experimento 1
Resultados para la tarea 2. Se proponen cuatro variantes todas ellas basadas en la segmentación temporal de las secuencias de imágenes utilizando el producto punto entre vectores de fisher. El producto punto entre vectores de fisher es una buena medida de similitud entre imágenes. El procedimiento para segmentar fue: se agarra el primer vector y se empieza a calcular el producto punto de este primer vector con los vectores siguientes en la secuencia temporal, cuando ese producto supera un threshold se obtiene un segmento. Luego se elige nuevamente como primer vector el siguiente de la secuencia y se realiza nuevamente el procedimiento descripto anteriormente.
Para calcular los segmentos se utilizaron los vectores de fisher obtenidos de las imágenes de RGB debido a que con estas se obtenían en promedio segmentos más largos en comparación con los obtenidos usando los ifv de imágenes de profundidad.
Configuración
- Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
- SGD LBD=1e-4, 20 iteraciones; 1024 Gaussianas; flip=1
- Late fusion: w=0.5
- Se prueban 4 configuraciones, MV (mayor votación), MS (mayor score), MC (mayor confidencialidad) y MST (mayor score y threshold).
- MV: calculamos la moda del segmento, luego asignamos esa clase a todo el segmento
- MS: buscamos el score máximo de todo el segmento para cualquier clase y luego asignamos la clase de ese score a toda la secuencia
- MC: buscamos la clase con más confidencialidad en todo el segmento y luego asignamos esa clase a toda la secuencia
- MST: buscamos el score máximo de todo el segmento para cualquier clase y pero luego asignamos la clase de ese score a toda la secuencia solo en caso de que ese score esté por encima de un threshold
- La confidencialidad se calculo como la diferencia entre el score más grande y el segundo score más grande.
Resultados
|
bl |
0.0 |
0.05 |
0.075 |
0.1 |
0.125 |
0.2 |
0.3 |
0.4 |
0.5 |
0.6 |
0.7 |
0.8 |
0.9 |
0.95 |
MV |
1722 |
1628 |
1688 |
1727 |
1790 |
1818 |
1778 |
1796 |
1775 |
1793 |
1792 |
1776 |
1774 |
1772 |
1774 |
MS |
1722 |
1337 |
1578 |
1594 |
1627 |
1699 |
1671 |
1658 |
1681 |
1737 |
1751 |
1773 |
1783 |
1777 |
1774 |
MC |
1722 |
1521 |
1758 |
1763 |
1849 |
1825 |
1808 |
1812 |
1791 |
1771 |
1781 |
1774 |
1782 |
1778 |
1775 |
MST -0.4 |
1722 |
1401 |
1650 |
1641 |
1704 |
1708 |
1694 |
1677 |
1686 |
1706 |
1738 |
1771 |
1798 |
1799 |
1800 |
MST -0.5 |
1722 |
1393 |
1683 |
1663 |
1715 |
1735 |
1725 |
1712 |
1755 |
1778 |
1798 |
1811 |
1833 |
1828 |
1825 |
MST -0.6 |
1722 |
1395 |
1692 |
1683 |
1745 |
1767 |
1764 |
1739 |
1767 |
1791 |
1811 |
1813 |
1824 |
1819 |
1816 |
MST -0.7 |
1722 |
1376 |
1670 |
1673 |
1714 |
1725 |
1729 |
1704 |
1740 |
1772 |
1779 |
1790 |
1799 |
1793 |
1790 |
MCT -0.4 |
1722 |
1525 |
1823 |
1798 |
1885 |
1885 |
1838 |
1871 |
1836 |
1827 |
1817 |
1811 |
1809 |
1804 |
1801 |
MCT -0.5 |
1722 |
1525 |
1806 |
1783 |
1867 |
1845 |
1833 |
1851 |
1827 |
1830 |
1829 |
1832 |
1835 |
1829 |
1827 |
MCT -0.6 |
1722 |
1521 |
1785 |
1761 |
1849 |
1823 |
1816 |
1827 |
1816 |
1802 |
1814 |
1815 |
1824 |
1821 |
1818 |
MVT -0.4 |
1722 |
1758 |
1800 |
1787 |
1842 |
1908 |
1875 |
1895 |
1871 |
1861 |
1848 |
1825 |
1812 |
1804 |
1801 |
MVT -0.5 |
1722 |
1690 |
1751 |
1758 |
1820 |
1877 |
1832 |
1875 |
1834 |
1846 |
1841 |
1834 |
1827 |
1823 |
1825 |
MVT -0.6 |
1722 |
1654 |
1718 |
1758 |
1809 |
1853 |
1822 |
1842 |
1834 |
1833 |
1832 |
1815 |
1817 |
1815 |
1816 |
mean_len |
1 |
31 |
|
|
11 |
|
8 |
5.4 |
4.0 |
2.9 |
2.1 |
1.6 |
1.2 |
1.02 |
1.01 |
n_seg |
2370 |
77 |
|
|
213 |
|
315 |
440 |
590 |
804 |
1115 |
1505 |
2054 |
2317 |
2359 |
Experimento 2
Igual que en experimento 1, pero usando los vectores de fisher calculados sobre las imágenes de depth para realizar la segmentación.
Resultados
|
bl |
0.0 |
0.05 |
0.075 |
0.1 |
0.125 |
0.2 |
0.3 |
0.4 |
0.5 |
0.6 |
0.7 |
0.8 |
MV |
1722 |
1479 |
1773 |
1787 |
1820 |
1788 |
1792 |
1795 |
1783 |
1773 |
1774 |
1774 |
1774 |
MS |
1722 |
1196 |
1762 |
1654 |
1670 |
1643 |
1701 |
1763 |
1768 |
1778 |
1775 |
1774 |
1774 |
MC |
1722 |
1303 |
1817 |
1875 |
1873 |
1801 |
1805 |
1783 |
1770 |
1781 |
1774 |
1774 |
1774 |
MST -0.4 |
1722 |
1278 |
1698 |
1714 |
1685 |
1659 |
1687 |
1743 |
1781 |
1799 |
1797 |
1800 |
1801 |
MST -0.5 |
1722 |
1276 |
1720 |
1743 |
1733 |
1704 |
1755 |
1802 |
1816 |
1829 |
1825 |
1826 |
1826 |
MST -0.6 |
1722 |
1269 |
1737 |
1775 |
1763 |
1734 |
1769 |
1818 |
1812 |
1819 |
1815 |
1817 |
1817 |
MST -0.7 |
1722 |
1243 |
1716 |
1735 |
1733 |
1683 |
1749 |
1786 |
1786 |
1794 |
1790 |
1792 |
1792 |
MCT -0.4 |
1722 |
1311 |
1843 |
1904 |
1919 |
1834 |
1842 |
1822 |
1803 |
1805 |
1801 |
1801 |
1801 |
MCT -0.5 |
1722 |
1311 |
1834 |
1892 |
1906 |
1837 |
1849 |
1845 |
1824 |
1832 |
1826 |
1826 |
1826 |
MCT -0.6 |
1722 |
1301 |
1819 |
1882 |
1888 |
1816 |
1832 |
822 |
1812 |
1825 |
1818 |
1817 |
1817 |
MCT -0.7 |
1722 |
1303 |
1816 |
1877 |
1875 |
1802 |
1813 |
1795 |
1786 |
1798 |
1791 |
1790 |
1790 |
MVT -0.4 |
1722 |
1529 |
1852 |
1846 |
1888 |
1849 |
1860 |
1843 |
1815 |
1804 |
1803 |
1802 |
1801 |
MVT -0.5 |
1722 |
1496 |
1809 |
1827 |
1858 |
1833 |
1851 |
1863 |
1827 |
1822 |
1826 |
1826 |
1826 |
MVT -0.6 |
1722 |
1505 |
1787 |
1800 |
1841 |
1807 |
1836 |
1839 |
1819 |
1814 |
1818 |
1817 |
1817 |
MVT -0.7 |
1722 |
1481 |
1795 |
1796 |
1816 |
1780 |
1793 |
1809 |
1796 |
1787 |
1791 |
1790 |
1790 |
mean_len |
1 |
36 |
10.4 |
8.20 |
6.86 |
5.90 |
3.88 |
2.17 |
1.39 |
1.12 |
1.04 |
1.01 |
1.00 |
n_seg |
2370 |
66 |
227 |
289 |
345 |
402 |
611 |
1090 |
1703 |
2120 |
2282 |
2347 |
2364 |
Experimento 3
Igual que en experimento 1 y 2, pero usando el promedio del producto punto de los vectores de fisher calculados sobre las imágenes de rgb y depth para realizar la segmentación.
Resultados
|
bl |
0.0 |
0.05 |
0.075 |
0.1 |
0.125 |
0.2 |
0.3 |
0.4 |
0.5 |
0.6 |
0.7 |
0.8 |
MV |
1722 |
1545 |
1719 |
1780 |
1775 |
1768 |
1825 |
1790 |
1795 |
1789 |
1775 |
1774 |
1774 |
MS |
1722 |
1305 |
1552 |
1644 |
1655 |
1664 |
1691 |
1693 |
1758 |
1766 |
1778 |
1778 |
1774 |
MC |
1722 |
1392 |
1790 |
1793 |
1839 |
1853 |
1821 |
1813 |
1772 |
1790 |
1773 |
1777 |
1774 |
MST -0.4 |
1722 |
1371 |
1638 |
1653 |
1689 |
1703 |
1684 |
1675 |
1724 |
1766 |
1792 |
1800 |
1801 |
MST -0.5 |
1722 |
1370 |
1655 |
1687 |
1735 |
1749 |
1724 |
1741 |
1789 |
1809 |
1823 |
1830 |
1826 |
MST -0.6 |
1722 |
|
|
|
|
|
|
|
|
|
|
|
|
MST -0.7 |
1722 |
|
|
|
|
|
|
|
|
|
|
|
|
MCT -0.4 |
1722 |
1395 |
1829 |
1832 |
1885 |
1902 |
1876 |
1848 |
1828 |
1822 |
|
|
|
MCT -0.5 |
1722 |
|
|
1816 |
1858 |
1878 |
1860 |
1848 |
|
|
|
|
|
MCT -0.6 |
1722 |
|
|
1794 |
1843 |
1856 |
1835 |
1834 |
|
|
|
|
|
MCT -0.7 |
1722 |
|
|
1793 |
1839 |
1853 |
1824 |
1821 |
|
|
|
|
|
MVT -0.4 |
1722 |
|
|
1830 |
1900 |
1856 |
1896 |
1866 |
|
|
|
|
|
MVT -0.5 |
1722 |
|
|
1814 |
1858 |
1821 |
1877 |
1842 |
|
|
|
|
|
MVT -0.6 |
1722 |
|
|
|
|
|
|
|
|
|
|
|
|
MVT -0.7 |
1722 |
|
|
|
|
|
|
|
|
|
|
|
|
mean_len |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
n_seg |
2370 |
|
|
|
|
|
|
|
|
|
|
|
|
Versión final
Task 2 #1: MCT, classification threshold=-0.4, segmentation (on DEPTH) threshold=0.1
Task 2 #2: MVT, classification threshold=-0.4, segmentation (on DEPTH) threshold=0.1
2 julio 2012
Tiempos de Cálculo
Offline
- PCA
- GMM
- RGB
- NGAUSS = 1024
- Num. muestras = 1000076
- Tiempo total = 1 hora 9 min 41 seg
- Depth
- NGAUSS = 1024
- Num. muestras = 1000076
- Tiempo total = 1 hora 53 min 49 seg
- RGB
- Entrenamiento del clasificador
- Realizado sobre los conjuntos training[123]
- Num. muestras = 14224
- Tiempo total rgb = 39 min 11 seg
- Tiempo total depth = 48 min 47 seg
Online
- DSIFT + Proyección PCA
- Test 1
- Num. muestras = 2445
- Tiempo total rgb = 9 min 7 seg
- Tiempo promedio rgb = 224 mseg
- Tiempo total depth = 9 min 48 seg
- Tiempo promedio depth = 241 mseg
- Test 2
- Num. muestras = 4023
- Tiempo total rgb = 16 min 2 seg
- Tiempo promedio rgb = 239 mseg
- Tiempo total depth = 16 min 29 seg
- Tiempo promedio depth = 246 mseg
- Test 1
- Vectores de Fisher
- Test 1
- Número de muestras = 2445
- Tiempo total rgb = 22 min 48 seg
- Tiempo promedio rgb = 560 mseg
- Tiempo total depth = 23 min 21 seg
- Tiempo promedio depth = 573 mseg
- Test 2
- Número de muestras = 4023
- Tiempo total rgb = 37 min 20 seg
- Tiempo promedio rgb = 557 mseg
- Tiempo total depth = 39 min 38 seg
- Tiempo promedio depth = 591 mseg
- Test 1
- Clasificación
- Test 1
- Número de muestras = 2445
- Tiempo total rgb = 9 seg
- Tiempo promedio rgb = 3.68 mseg
- Tiempo total depth = 21 seg
- Tiempo promedio depth = 8.59 mseg
- Test 2
- Número de muestras = 4023
- Tiempo total rgb = 11 seg
- Tiempo promedio rgb = 2.73 mseg
- Tiempo total depth = 11 seg
- Tiempo promedio depth = 2.73 mseg
- Test 1